1.4.دیجیتالسازی (digitalization):
سیگنال گفتار یا موج گفتار را میتوان با تبدیل آن به یک سیگنال الکتریکی با استفاده از میکروفون به یک آبجکت قابل پردازش تبدیل کرد. سیگنال الکتریکی معمولاً از سیگنال آنالوگ به سیگنال دیجیتال تبدیل میشود و به دو دلیل هم این کار انجام میشود: اول، تکنیکهای دیجیتال، پردازش سیگنال بسیار پیچیده را تسهیل میکنند که در غیر این صورت با تکنیکهای آنالوگ قابل تحقق نیست. دوم، پردازش دیجیتال قابلیت اطمینان بیشتری دارد و با استفاده از یک مدار فشرده قابل انجام است.
توسعه سریع کامپیوترها و مدارهای مجتمع در ارتباط با رشد شبکههای ارتباطی دیجیتال، ما را به سمت استفاده از تکنیکهای پردازش دیجیتال برای پردازش گفتار سوق داده است. تبدیل آنالوگ به دیجیتال که معمولاً به آن دیجیتالسازی می گویند، شامل فرآیندهای نمونهبرداری (sampling)، کوانتیزاسیون یا کمیسازی (quantizing) و کدگذاری (coding) است.
Digitalization (Analog-to-digital conversion): Sampling-> Quantizing-> Coding
نمونهبرداری، فرآیندی برای به تصویر کشیدن یک سیگنال پیوسته متغیر به عنوان یک دنباله دورهای از مقادیر است.
کوانتیزاسیون تقریباً شامل بازنمایی مقدار شکل موج توسط یکی از مجموعه مقادیر اولیه است.
کدگذاری مربوط به اختصاص یک عدد واقعی به هر مقدار است. برای چنین کاری معمولاً از کدگذاری باینری استفاده میشود که از نمایش اعداد دودویی استفاده میکند.
بنابراین این فرآیندها سیگنال آنالوگ پیوسته را قادر میسازند تا به دنبالهای از کدهای انتخاب شده از یک مجموعه محدود تبدیل شود.
1.1.4.نمونهبرداری (sampling)
شکل زیر، این عمل را در حوزه زمان نشان میدهد:
اگر T خیلی بزرگ باشد، سیگنال اصلی را نمیتوان از دنباله نمونهبرداریشده بازتولید کرد. برعکس، اگر T خیلی کوچک باشد، نمونههای بیفایده در دنباله نمونهبرداری شده ظاهر میشوند. در این راستا، قضیه نمونهبرداریِ شانون-سومیا برای رابطه بین پهنای باند فرکانسی سیگنال آنالوگ نمونهبرداری شده و دوره نمونهبرداری به عنوان ابزاری برای حل این مشکل پیشنهاد شد. این قضیه میگوید که وقتی سیگنال آنالوگ x(t) محدود به باند 0 تا W شود و زمانی که x(t) در هر T = 1/2W نمونهبرداری شود، آنگاه سیگنال اصلی را میتوان از طریق رابطه زیر به طور کامل بازتولید کرد:
در این رابطه، x(i/2W) مقدار نمونهبرداریشده از x(t) در t = i/2W است (i یک عدد صحیح میباشد). و
2W = 1/T، نرخ نایکوئیست نامیده میشود.
به عنوان مثال، یک سیگنال تلفن معمولی را می توان در هر T = l/8000 [s] نمونهبرداری کرد، زیرا پهنای باند W آن زیر 4 کیلوهرتز محدود شده است. فرکانس نمونهبرداری برای پردازش دیجیتال سیگنالهای گفتاری معمولا بین 6 تا 16 کیلوهرتز تنظیم میشود. حتی برای چندین صامت خاص، تنظیم فرکانس نمونهبرداری روی 20 کیلوهرتز کافی است. برای سیگنالهایی که پهنای باند فرکانسی آنها مشخص نیست، از یک فیلتر پایینگذر برای محدود کردن پهنای باند ، قبل از نمونهبرداری، استفاده میشود. هنگامی که سیگنال بر خلاف قضیه نمونهبرداری، نمونهبرداری میشود، اعوجاج aliasing رخ میدهد، که در آن، اجزای فرکانس بالای سیگنال دچار واپیچیدگی میشوند، همانطور که در شکل زیر نشان داده شده است. به سیگنال نمونهبرداری شده که در حوزه زمان (time domain) ناپیوسته است اما در حوزهی دامنه (amplitude domain) پیوسته است، سیگنال گسسته گفته میشود.
2.1.4.کوانتیزاسیون و کدینگ (Quantization and Coding)
در طول کوانتیزاسیون، کل محدودهی دامنه پیوسته به زیر دامنههای محدود تقسیم میشود و به شکل موجهایی که دامنه آنها در یک زیر دامنه قرار میگیرند، مقادیر دامنه یکسانی نسبت داده میشود. شکل زیر مشخصه ورودی-خروجی یک کوانتایزر هشت سطحی (3 بیتی) را نشان میدهد، که در آن ∆ اندازه گام کوانتیزاسیون است. در این مثال، هر کد به گونهای تخصیص داده شده است که مستقیماً مقدار دامنه را نشان میدهد. مشخصه کوانتیزاسیون هم به تعداد سطوح (levels) و هم به اندازه گام (step) کوانتیزاسیون ∆ بستگی دارد. هنگامی که سیگنال با B [bit] کوانتیزه میشود، تعداد سطوح معمولاً روی 2^B (دو به توان B) تنظیم میشود تا از کارآمدترین استفاده از کلمات کد باینری اطمینان حاصل شود. ∆ و B باید با هم انتخاب شوند تا به درستی محدوده سیگنال را پوشش دهند.
3.1.4. تبدیل آنالوگ به دیجیتال و دیجیتال به آنالوگ (A/D , D/A)
تبدیل آنالوگ به دیجیتال را با A/D و عکس آن را با D/A نمایش میدهند.
استفاده از فیلتر پایینگذر پیش از تبدیل A/D و نیز پس از تبدیل D/A به منظور حذف اعوجاج موجود در اجزای هارمونیک بالاتر ضروری است. رابطه بین مشخصه فیلتر پایینگذر و فرکانس تبدیل D/A باید همان الزامات اساسی برای فرایند نمونهبرداری را برآورده کند.
در پردازش سیگنال گفتار، پیشتاکید (pre-emphasis)، یعنی فشردهسازی محدوده دینامیکی سیگنال توسط flat کردن شیب طیف، در افزایش SNR (نسبت سیگنال به نویز کوانتیزاسیون) موثر است. عمل پیشتاکید معمولاً با تأکید بر مولفههای فرکانس بالاتر تقریباً dB/oct 6 پیش از فیلتر پایینگذر برای تبدیل A/D انجام میشود. پیشتاکید را میتوان همچنین پس از تبدیل A/D از طریق محاسبه دیفرانسیل یا از طریق اعمال فیلتر دیجیتالی مرتبه اول انجام داد:
1- α (z ^ -1)
مقدار آلفا تقریبا نزدیک 1 در نظر گرفته میشود
با این حال، به حداکثر رساندن SNR تا آنجا که ممکن است، مستلزم آن است که قبل از تبدیل A/D، تاکید اولیه صورت گیرد. فرآیند افزودن شیب 6 db/oct یا بازتولید شیب طیفی اصلی را de-emphasis می گویند.
از آنجایی که محدوده دینامیکی موج گفتار بزرگتر از 50 دسی بل است، 10 بیت یا بیشتر برای تبدیل A/D ضروری است. با این حال، زمانی که نرمالسازی بلوک در هر دوره کوتاه برای نرمالسازی تغییرات دامنه توسط ضرب نمودن یک مقدار ثابتِ اختصاصدادهشده به دوره کوتاه (short period) در موج گفتار اعمال می شود، رزولشون کوانتیزاسیون کافی را میتوان حتی با نرخ بیت 6 تا 7 بیت به دست آورد. از آنجایی که ضریب پیک گفتار 12 دسیبل است، حداکثر سطح مجاز مبدل A/D باید 12 دسی بل بالاتر از سطح موثر سیگنال گفتار ورودی تنظیم شود.
2.4.آنالیز طیفی:
1.2.4.ساختار طیف گفتار:
موج گفتار معمولاً با استفاده از ویژگیهای طیفی نظیر طیف فرکانسی و تابع خودهمبستگی، به جای استفاده مستقیم از شکل موج، آنالیز میشود. دو دلیل مهم برای این موضوع وجود دارد. ابتدا اینکه موج گفتار با جمع امواج سینوسی که دامنه و فاز آنها به کندی تغییر میکند قابل بازتولید خواهد بود. مورد دیگر این است که ویژگی های حیاتی برای درک گفتار توسط گوش انسان عمدتاً در اطلاعات طیفی گنجانده شده است، در حالیکه اطلاعات فازی چندان این پتانسیل را ندارد.
چگالی طیفی توان (power spectral density) در یک بازه کوتاه، یعنی طیف کوتاهمدتِ گفتار را میتوان حاصل دو عنصر در نظر گرفت: پوشش طیفی (spectral envelope) که به آرامی به صورت تابعی از فرکانس تغییر میکند و ساختار ریز طیفی (spectral fine structure) که به سرعت تغییر میکند.
همانطور که در شکل زیر نشان داده شده، ساختار ریز طیفی الگوهای تناوبی را برای صداهای واکهدار (voiced sounds) تولید میکند، اما برای صداهای بیواکه(unvoiced sound) این الگوها را تولید نمیکند.
پوشش طیفی (spectral envelope)، یا ویژگی کلی طیفی، نه تنها ویژگیهای تشدید و ضد تشدیدِ articulatory organs را منعکس میکند، بلکه شکل کلی طیف منبع گلوتال و ویژگیهای انتشار (radiation) را در لبها و سوراخهای بینی منعکس میکند. از سوی دیگر، ساختار ظریف طیفی با تناوب منبع صدا ارتباط دارد.
روشهای استخراج پوشش طیفی را میتوان به تحلیل پارامتریک (PA) و تحلیل ناپارامتریک (NPA) تقسیم کرد. در PA، مدلی که متناسب با سیگنال هدف باشد انتخاب شده و با تنظیم پارامترهای ویژگی که مدل را نشان میدهد، به سیگنال اعمال می شود. از سوی دیگر، روشهای NPA عموماً میتوانند برای سیگنالهای مختلف اعمال شوند، زیرا آنها سیگنالها را مدلسازی نمیکنند. اگر مدل کاملاً با سیگنال هدف مطابقت داشته باشد (فیت بشود)، روشهای PA میتوانند ویژگیهای سیگنال را مؤثرتر از روشهای NPA نشان دهند. روشهای اصلی برای تجزیه و تحلیل طیف گفتار و ویژگی های طیفی در جدول زیر نشان داده شده است.
1.2.4.خودهمبستگی (autocorrelation) و تبدیل فوریه:
اگر x(n) یک دنباله زمانی نمونهبرداری شده باشد آنگاه تابع خودهمبستگیاش را میتوان چنین تعریف نمود:
که در آن N، تعداد نمونهها در بازه آنالیز کوتاه مدت است. طول بازه یعنی NT (Tدوره نمونهبرداری)، معمولاً در حدود 30 میلی ثانیه در نظر گرفته میشود. به طور خاص، فواصل (بازههای) حدود 20 و 40 میلیثانیه اغلب نتایج خوبی را به ترتیب برای صدای زنانه و مردانه به ارمغان میآورند. طیف کوتاه مدت S(w) و خودهمبستگی کوتاه مدت ф(m)، جفتِ تبدیل فوریه را تشکیل میدهند؛
در روابط فوق، w یک فرکانس زاویه نرمال شده است که می تواند با w = 2пfT نمایش داده شود (f یک فرکانس real است). S(w) معمولاً مستقیماً از موج گفتار با استفاده از تبدیل فوریه گسسته (DFT) که توسط الگوریتم تبدیل فوریه سریع (FFT) تسهیل میشود، محاسبه میشود:
تابع خودهمبستگی را میتوان با استفاده از DFT (FFT) در مقایسه با روش محاسبه همبستگی معمولی در زمانی که عناصر همبستگی مرتبه بالاتر مورد نیاز است، به سادگی محاسبه کرد. با این روش تابع خودهمبستگی به عنوان تبدیلفوریهمعکوسِ طیف کوتاه مدت بدست میآید که با استفاده از معادله فوق محاسبه میشود.
3.2.4.تابع پنجره (window function):
به منظور استخراج N-sample interval از موج گفتار جهت محاسبه تابع خودهمبستگی و طیف، موج گفتار باید در یک پنجره زمانی مناسب ضرب شود. بنابراین x(n) موجود در دو معادله زیر (که قبلا نیز اشاره شدند) معمولا شکل موج اصلی نیست بلکه شکل موج موج ضربدر تابع پنجره است.
مطلوب است که تابع پنجره دو ویژگی را برآورده کند تا اعوجاج طیفی ناشی از windowing را کاهش دهد. یکی رزولوشن با فرکانس بالا است. دیگری یک نشت طیفی کوچک از سایر عناصر طیفی است که توسط کانولوشن ایجاد می شود.
از آنجایی که این دو الزام در واقع بر خلاف یکدیگر هستند و از آنجا که برآوردن هر دو غیرممکن است، چندین تابع پنجره پیشنهاد شده است. در این میان، پنجره Hamming، به صورت تعریف شده است:
از تابع همینگ معمولاً به عنوان تابع پنجره برای تجزیه و تحلیل گفتار استفاده می شود. این پنجره از این نظر مفید است که رزولوشن آن در حوزه فرکانس نسبتاً بالا بوده و نشت طیفی آن کم است
نکته: پنجره مستطیلی برای تجزیه و تحلیل یک موج گفتاری که محدوده دینامیکی زیادی از اجزای طیفی دارد، مناسب نیست.
پنجره دیگر نامش پنجره Hanning است که به صورت زیر تعریف میشود:
شکل این پنجره ها و طیف برای 10 دوره امواج سینوسی 1 کیلوهرتز استخراج شده با استفاده از این پنجره ها در شکل زیر نشان داده شده است:
رابطه مربوط بین دوره نمونهبرداری، تعداد نمونه برای آنالیز و رزولوشن فرکانس نامی طیف به صورت زیر است:
هنگامی که طول پنجره آنالیز افزایش مییابد، رزولوشن فرکانسی با کاهش رزولوشن زمانی افزایش مییابد. از طرف دیگر، زمانی که طول پنجره آنالیز کوتاه میشود، با کاهش وضوح فرکانس، وضوح زمانی افزایش مییابد. این روابط را میتوان به راحتی از این واقعیت درک کرد که ضرب شکل موج در یک تابع پنجره با میانگین متحرک طیف (moving average of the spectrum) در حوزه فرکانس ارتباط دارد. علاوه بر این، هنگامی که شکل موج در پنجره Hamming یا Hanning ضرب میشود، طول بازه آنالیز تقریباً 40 درصد کوتاهتر می شود زیرا شکل موجهای نزدیک هر دو انتهای پنجره فشرده می شوند (همانطور که در شکل فوق دیدیم). این منجر به کاهش 40٪ در رزولوشن فرکانس می شود.
از این رو، ضرب موج گفتار در یک پنجره مناسب، نوسانات طیفی را به دلیل تغییر موقعیت تحریک گام در بازه آنالیز کاهش میدهد. این در تولید طیف های پایدار در طول تجزیه و تحلیل صداهای واکهدار clear pitch periodicity موثر است. از آنجایی که ضرب در تابع پنجره طول بازه آنالیز را کاهش می دهد، طول آنالیز باید به طور همپوشان در امتداد موج گفتار جابجا شود تا ردیابی طیف های متغیر با زمان تسهیل شود.
فاصله تحلیل (بازه تحلیل) زمانی کوتاهی که در یک تابع پنجره ضرب می شود و از موج گفتار استخراج می شود، فریم نامیده می شود. فاصله ی جابهجایی فریم (frameshifting )، فاصله فریم (frame interval) نامیده میشود
بلوک دیاگرام یک روش تحلیل گفتار معمولی در شکل زیر نشان داده شده است. همچنین در هر مرحله مقادیر پارامترهای معمولی و نمونه هایی از امواج گفتاری نشان داده شده است.
4.4.4.طیفنگار صوتی (sound spectrogram):
آنالیز طیفنگار صوتی روشی برای ترسیم تابع زمانی طیف گفتار با استفاده از نمودارهای چگالی است. ابزار مخصوصی که برای اندازه گیری و رسم طیف نگار صوت استفاده می شود، طیف نگار صدا نامیده می شود. شکل زیر نمونه ای از طیف نگارهای صوتی برای کلمه ژاپنی /ko:geN/ یا "Plateau" است که توسط یک گوینده مرد بیان می شود. همانطور که نشان داده شده، طیف نگار صدا دو نوع بازنمایی را ارائه می دهد: روشن و تاریک و کانتور.
در بازنمایی های تاریکی و روشنی، مناطق تاریکتر نشان دهنده ی مولفههای فرکانسی با شدت بالاتر هستند. بازنمایی های کانتور، مانند نقشه های کانتور، بزرگی (magnitude) تقریباً کوانتیزه می شود، و ناحیه ای که بزرگی در همان سطح کوانتیزاسیون قرار دارد، توسط همان سایه تاریکی تولید می شود.
معمولاً پهنای باند فیلتر میانگذر برای تجزیه و تحلیل فرکانس، یعنی رزولوشن فرکانس، بسته به هدف تجزیه و تحلیل، 300 هرتز یا 45 هرتز است. هنگامی که رزولوشن فرکانس 300 هرتز است، طول موثر بازه تحلیل گفتار تقریباً 3 میلیثانیه است و زمانی که وضوح 45 هرتز باشد، طول به 22 میلیثانیه میرسد. از آنجایی که این مبادله بین رزولوشن فرکانس و زمان اتفاق میافتد، ساختار زیر و بمی (pitch) گفتار با یک الگوی تکراریِ راه راه عمودی در امتداد محور زمان در مورد وضوح فرکانس 300 هرتز، و با یک راه راه افقی به طور مساوی نشان داده میشود. الگوی تکراری در امتداد محور فرکانس در مورد وضوح 45 هرتز، همانطور که در شکل فوق نشان داده شده است.
بسیاری از طیفنگارهای صوتی که در اصل توسط فناوری آنالوگ با استفاده از طیفنگار صدا تولید میشد، اکنون توسط فناوری دیجیتال از طریق رایانهها و چاپگرهای آن تولید میشوند. روش دیجیتال به ویژه از این جهت سودمند است که امکان تنظیم آسان شرایط مختلف را فراهم میکند و از این نظر که طیفنگارها میتوانند به صورت متوالی و خودکار با قابلیت تکرار خوب تولید شوند.
3.4. کپستروم (Cepstrum)
1.3.4. کپستروم و کاربردش:
کپستروم یا ضریب کپسترال c(r) به صورت تبدیل فوریه معکوس طیف دامنه لگاریتمی کوتاه مدت IX(w)I تعریف می شود.
اصطلاح cepstrum در اصل یک کلمه ابداعشده است که به معنای تبدیل معکوس طیف (inverse transform of the spectrum) است. به پارامتر مستقل برای کپستروم، quefrency گفته میشود، که از کلمه frequency تشکیل شده است. از آنجایی که کپستروم تبدیل معکوسِ تابعِ حوزه فرکانسی است، quefrency پارامتر حوزه زمان محسوب میشود.
ویژگی خاص کپستروم این است که امکان نمایش جداگانه پوشش طیفی (spectral envelope) و fine structure را فراهم می کند.
بر اساس مدل مدار معادل قابل جداسازی خطی، گفتار صوتی x(t) را می توان به عنوان پاسخِ فیلترِ معادلِ آرتیکولاسیون مجرای صوتی که توسط یک منبع شبه دوره ای g(t) هدایت می شود، در نظر گرفت. آنگاه x(t) را میتوان از کانولوشن g(t) با h(t) (پاسخ impulse مجرای صوتی) بدست آورد:
و بدین ترتیب تبدیل فوریه X(w) به صورت زیر محاسبه می گردد:
اگر g(t) یک تابع متناوب باشد، I X(w)I با طیف های خطی نشان داده می شود که بازه های (فواصل) فرکانسی آن معکوسِ دوره اصلی g(t) است. بنابراین، هنگامی که IX(w)l توسط تبدیل فوریه یک دنباله زمانی نمونه برداری شده برای یک دوره موج گفتاری کوتاه محاسبه می شود، پیک های تیز با فواصل مساوی در امتداد محور فرکانس نشان می دهد. لگاریتم آن یعنی log Ix(w)I به صورت زیر محاسبه میشود:
عبارت اول و دوم در سمت راست معادله فوق به ترتیب با ساختار ظریف طیفی (fine structure) و پوشش طیفی (spectral envelope ) مطابقت دارد. اولی الگوی تناوبی است و دومی الگوی کلی در امتداد محور فرکانس است.
کپستروم که تبدیل فوریه معکوسِ log IX(W)I است، به صورت زیر محاسبه میشود:
تابع اول در سمت راست معادله فوق، شکل یک پیک در ناحیه high-quefrency را نشان می دهد و تابع دوم نشان دهنده تراکم (تجمع) در ناحیه low-quefrency از 0 تا 2 یا 4 میلی ثانیه است. دوره بنیادی منبع g(t) را می توان از پیک در ناحیه high-quefrency استخراج کرد. از سوی دیگر، تبدیل فوریه عناصر low-quefrency ، پوشش طیفی لگاریتمی را تولید می کند که از طریق تبدیل نمایی، پوشش طیفی خطی را می توان به دست آورد. حداکثر ترتیب عناصر low-quefrency مورد استفاده برای تبدیل، نرمیِ (smoothness) پوشش طیفی را مشخص می کند. به فرآیند جداسازی عناصر کپسترال به این دو عامل را liftering گفته میشود، که از کلمه filtering گرفته شده است.
هنگامی که مقدار کپستروم توسط DFT محاسبه می شود، لازم است که مقدار پایه تبدیل، N، به اندازه کافی بزرگ در نظر گرفته شود تا aliasing، مشابه آنچه در طول نمونه برداریِ شکل موج تولید می شود حذف گردد. آنگاه کپستروم برابر خواهد شد با:
مراحل فرآیند استخراج دوره بنیادی و پوشش طیفی با استفاده از روش کپسترال در شکل زیر آورده شده است:
نمونه هایی از نتایج استخراج شده در شکل زیر نشان داده شده است (گفتنی است مقادیر کپستروم نشاندادهشده در این شکل، مقادیر مجذور کپستروم cn مذکور است):
2.3.4. آنالیز همومورفیک و LPC Cepstrum:
آنالیز کپسترال، که فرآیند جداسازی دو ویژگی کانولوشنی مرتبط توسط تبدیل رابطه به یک جمع است، نوعی آنالیز همومورفیک یا فیلترینگ (فیلترینگ همومورفیک) است. به طور کلی، آنالیز همومورفیک به نوعی از پردازش سیگنال اشاره دارد که سیستم غیرخطی (یا non-additive) را به عوامل مستقل تجزیه میکند، مشابه فیلتری که سیگنالهای اضافه شده ی خطی را متمایز میکند. آنالیز هممورفیک از چندین روش خاص برای تبدیل رابطه به یک رابطه ی additive استفاده می کند.
معادله زیرنشان میدهد که طیفِ تمامقطبیِ H(z) برای چگالی طیفی سیگنال گفتار استفاده می شود. این امر با بسط دادن کپستروم به شکل مختلط انجام میشود؛ یعنی در شکل زیر که قبلا هم داشتیم بیاییم به جای بلوکهای DFT، تبدیل لگاریتم و IDFT، به ترتیب از تبدیل Z دوگانه، تبدیل لگاریتمیِ مختلط و تبدیل Z دوگانه معکوس استفاده کنیم.
کپستروم رابطه زیر، به عنوان کپستروم LPC شناخته می شود، زیرا از طریق مدل LPC مشتق شده است. کپستروم اصلی گاهی اوقات cepstrum FFT نامیده می شود تا از کپستروم LPC متمایز شود.
شکل زیر پوشش طیفی محاسبه شده با استفاده از کپستروم استخراج شده به طور مستقیم از شکل موج را با پوشش محاسبه شده با استفاده از کپستروم LPC مقایسه می کند. در این شکل، طیف کوتاه مدت و پوشش طیفی استخراج شده با LPC (روش حداکثر درستنمایی) نیز برای مرجع نشان داده شده است. پوشش طیفی مشتق شده از کپستروم LPC به وضوح تمایل دارد تا قله های طیفی را با دقت بیشتری نسبت به پوشش طیفی به دست آمده از کپستروم FFT دنبال کند.
4.4.بانک فیلتر و آنالیز zero-crossing
1.4.4.بانک فیلتر دیجیتال:
بانک فیلتر دیجیتال، به طور خاص، مجموعه ای از فیلترهای میانگذر است. بانک فیلتر به مقدار نسبتاً کمی محاسبات نیاز داشته و بنابراین برای اجرای سخت افزاری کاملاً مناسب است. از آنجائیکه بین زمان (رزولوشن زمان) و رزولوشن فرکانس هر فیلتر میانگذر یک trade-off قطعی وجود دارد، لازم است پارامترهای مختلفی با توجه به اهداف مورد نظر طراحی شود. به طور کلی، فیلترهای میانگذر به گونه ای ساخته می شوند که فرکانسهای مرکزی با فواصل مساوی در مقیاس فرکانس لگاریتمی با در نظر گرفتن مشخصههای شنوایی انسان توزیع شوند و به گونه ای که نقاط تضعیف 3 دسی بلِ (3-dB attenuation points) فیلترهای مجاور منطبق میشوند. خروجی هر فیلتر باند میانگذر تصحیح میشود، با محاسبه مقدار RMS(ریشه میانگین مربع) smooth میشود و هر 5 تا 20 میلیثانیه نمونهبرداری میشود تا مقادیری که پوشش طیفی را نشان میدهند به دست آید.
قسمت آنالیز طیفیِ آنالیز طیفنگار صوت معمولاً با استفاده از یک فیلتر میانگذر انجام میشود که فرکانس مرکزی آن به طور مداوم تغییر میکند. در آنجا موج گفتار ضبط شده به صورت مکرر پخش شده و توسط فیلتر آنالیز می شود.
2.4.4.آنالیز zero-crossing:
عدد گذار از صفر یا تلاقیصفرِ (zero-crossing) موج گفتار در یک بازه زمانی از پیش تعیین شده، که به عنوان تعداد دفعاتی که نقاط نمونه مجاور دارای علائم مثبت و منفی متفاوتی هستند محاسبه می شود، تقریباً با فرکانس مولفه طیفی اصلی مطابقت دارد. بر اساس این اصل، فرکانسهای فرمانت را می توان با تجزیه و تحلیل zero-crossing به صورت زیر تخمین زد:
ابتدا موج گفتار از مجموعه ای از فیلترهای میانگذرِ چهار یا پنج اکتاوی عبور داده می شود و عدد توان و عدد تلاقیصفرِ خروجیِ تصحیح و صافشدهی هر فیلتر، در فواصل زمانی کوتاه مانند 10 میلی ثانیه اندازه گیری میشود. هنگامی که توان یک فیلتر از آستانه از پیش تعیین شده فراتر می رود، این محدوده فرکانس دارای یک فرمانت در نظر گرفته می شود، با فرکانس فرمانت با نرخ zero-crossing تخمین زده می شود. این نرخ عبور از صفر همچنین می تواند برای تشخیص تناوب منبع صدا و همچنین برای تخمین دوره بنیادی استفاده شود.
اگرچه روش آنالیز zero-crossing به خوبی از جهت پیادهسازی سخت افزاری مناسب است، اما اشکال آن این است که به additive noise حساس است.
5.4.آنالیز از طریق سنتز (Analysis-by-Synthesis) (A-b-S):
تجزیه و تحلیل با سنتز (A-b-S)، ارائه شده در شکل زیر، فرآیند تعیین پارامترهایی است که سیستم را بر اساس یک مدل تولید سیگنال فرضی مشخص می کند. پارامترهای مدل در دوره کنترل فیدبک تکراری تنظیم می شوند تا خطا بین مقدار مشاهده شده و مقدار تولید شده توسط مدل به حداقل برسد. موارد مهم در A-b-S انتخاب مدل تولید مفروض، مقادیر پارامترهای اولیه، اندازه گیری ارزیابی خطا و الگوریتم کمینه سازی است. A-b-S نه تنها برای استخراج پارامترهای گفتار، بلکه برای بسیاری از کاربردها که در آنها می توان از یک مدل تولید استفاده کرد، مفید است. در طول استخراج فرکانس فرمانت بر اساس تکنیک A-b-S، پارامترهای زیر تنظیم میشوند: فرکانسها و پهنای باند فرمانت اول تا سوم یا چهارم، فرکانس اصلی و همچنین پوشش طیفی منبع صوتی، و ویژگیهای جبران طیفی کلی (overall spectral compensation) از جمله ویژگی های فرمانت مرتبه بالاتر.
میانگین مربعات خطای بین طیف های توان لگاریتمی گفتار مدل شده و گفتار مشاهده شده معمولاً به عنوان معیار ارزیابی خطا استفاده می شود. رزولوشن های استخراج فرکانس فرمانت از10 ± هرتز و ±20 هرتز به ترتیب برای فرمانت های اول و دوم به صورت تجربی به دست آمد.
اگرچه روش A-b-S در اصل بهتر از هر روش دیگری است، اما از آنجایی که محاسبات قابل توجهی مورد نیاز است مشکل ساز است. به طور خاص، به دلیل تعامل متقابل بین اثرات پارامترهای مختلف بر روی تولید پوشش طیفی، به تعداد زیادی تکرار کنترل فیدبک در طول تجزیه و تحلیل گفتار واقعی نیاز دارد.
6.4.سیستم های آنالیز-سنتز
1.6.4. ساختار سیستم آنالیز-سنتز:
آنالیز-سنتز فرآیندی است که در آن موج گفتار با استفاده از منبع صدا و پارامترهای articulation بازتولید (سنتز) می شود. پارامترها بر اساس مدار معادل خطی قابل جداسازی برای مکانیسم تولید گفتار استخراج میشوند. این پارامترها چهار نوع اطلاعات را مشخص می کنند:
1. تمایز بین voiced sound (منبع پالس) و unvoiced sound (منبع نویز)
2. دوره اساسی یا فرکانس اساسی صداهای واکهدار (voiced sound)
3. دامنه منبع
4. خصوصیات فیلتر خطی (رزونانس).
سه مورد اول اطلاعات منبع را ارائه می دهند، در حالی که آخرین پارامتر، اطلاعات پوشش طیفی (articulation) را ارائه می دهد.
برای اطمینان از بهبود کیفیت گفتار سنتز شده، بررسی دقیق سه رویه اصلی سیستم های تجزیه و تحلیل گفتار ضروری است. اولین مورد استخراج پارامترهایی است که دقیقاً تنها اطلاعات مهم شنیداری را با نادیده گرفتن اطلاعات اضافی موجود در امواج گفتاری منتقل می کند. دومی کدگذاری موثر پارامترهای ویژگی است. سوم، بازتولید گفتار اصلی تا حد امکان دقیق، واضح و طبیعی با استفاده از پارامترهای ویژگی کدگذاری شده است.
2.6.4. مثالی از سیستم های آنالیز-سنتز:
نمونه های عمده سیستم های تجزیه و تحلیل گفتار در جدول زیر خلاصه شده است. همانطور که نشان داده شده، نمونه اولیه سیستم تجزیه و تحلیل گفتار، Vocoder است که در سال 1939 اختراع شد. اصطلاح vocoder (رمزگذار صوتی) مخفف voice coder است. ساختار Vocoder در شکل زیر نشان داده شده است که در آن آنالیز طیفی از طریق یک بانک فیلتر میانگذر در بخش آنالیز (فرستنده)، به موج گفتار اعمال می شود. همزمان، شامل تناوب و دوره بنیادی برای سیگنال های متناوب آنالیز می شود. این سیگنالها سپس به بخش سنتز (گیرنده) منتقل میشوند، جایی که سیگنالهای منبع، بسته به وجود تناوب، توسط یک مولد پالس یا نویز تولید میشوند. سیگنال های منبع در هر باند فرکانسی با دامنه کنترل می شوند و از فیلترهای میانگذر که مشابه فرستنده هستند عبور می کنند. سپس سیگنال های خروجی فیلترهای میانگذر برای بازتولید گفتار اصلی جمع می شوند.
کلمه vocoder امروزه به طور گسترده ای برای بازنمایی تمام سیستم های آنالیز-گفتار استفاده می شود. original vocoder ، که از یک بانک فیلتر میانگذر برای تجزیه و تحلیل طیفی استفاده می کند، اکنون به عنوان channel vocoder شناخته می شود (Gold and Rader, 1967). اگرچه channel vocoder با افزایش تعداد کانال ها از نظر کیفیت بهبود یافته است، اما توانایی آن در بازتولید گفتار طبیعی محدود است. formant vocoder در استخراج دقیق فرکانسهای فرمانت مشکلساز است و correlation vocoder در بازتولید دقیق طیف مشکل دارد. در pattern matching vocoder، واج ها (phonemes ) در موج گفتار بر اساس الگوی فرکانس زمانی خروجی فیلتر میانگذر، با نمادهای واجی که منتقل می شوند، شناسایی می شوند (اسمیت، 1969). اگرچه این تکنیک بالاترین نرخ فشرده سازی را انجام می دهد، اما چندین مشکل حل نشده دارد. یکی ازین مشکلات، نحوه استخراج واج ها از گفتار پیوسته است. مشکل دیگر، نحوه اندازه گیری شباهت بین گفتار ورودی و الگوهای مرجع است. و اینکه چگونه گفتار طبیعی را بر اساس دنباله نماد واج ترکیب (سنتز) کنیم.
در Homomorphic vocoder، پوشش طیفی توسط ضرایب کپسترال کوفرانس های (quefrencies) مرتبه پایین تر (مثلا 30 عنصر) نشان داده می شود. علاوه بر این، تخمین pitch و تصمیمِ voiced/unvoiced بر اساس عناصر کوفرنسی مرتبه بالاتر انجام می شود.
در synthesizer ، یک مقدار تقریبی برای پاسخ ضربه با استفاده از عناصر فرکانس پایین ارسالی تولید می شود. به طور همزمان، تابع تحریک (دنباله ضربه یا نویز تصادفی)، که بر اساس اطلاعات pitch ، voiced/unvoiced و دامنه تولید میشود، با پاسخ ضربه کانوالو میشود. هنگامی که DFT ِ عناصر کوفرانسی مرتبه پایین به صورت نمایی میشوند و تبدیل فوریه معکوس گرفته می شود، پاسخ ضربه فاز صفر به دست می آید.
اگر عناصر کوفرنسی مرتبه پایین در lifter زیر ضرب شوند، حداقل پاسخ ضربه فاز به دست می آید:
نتایج تجربی نشان میدهد که بهترین کیفیت گفتار را میتوان تحت شرایط مینیمم فاز، که نزدیک به گفتار طبیعی است، سنتز کرد.
روش دیگر سنتز گفتار، مبتنی بر رمزگذار صوتی همومورفیک است که از یک مجموعه فیلتر استفاده می کند تا مستقیماً ویژگی های دامنه لگاریتمی را تقریب بزند. مجموعه فیلتر سنتز در این روش از طریق اتصال آبشاری چندین فیلتر توسط تابع زیر ساخته می شود:
صدای سنتز شده مستقیماً بدون تبدیل کپستروم به یک پاسخ ضربه ای تولید می شود. ویژگی های دامنه لگاریتمیِ فیلترِ ساخته شده توسط اتصال آبشاریِ فیلترهای مرحله ی (n0+1) برابر است با:
مشخص شده است که با استفاده از این روش می توان صدای سنتز شده با کیفیت بالا را با نرخ بیت نسبتاً پایین به دست آورد.
7.4.استخراج Pitch:
در سیستم های تجزیه و تحلیل گفتار، لازم است پارامترهای منبع به موازات استخراج پارامترهای spectral envelope استخراج شوند.
پارامترهای منبع شامل ارتعاش تارهای صوتی (voiced/unvoiced)، فرکانس بنیادی برای voiced sound و دامنه منبع (source amplitude) است.
اگرچه استخراج دقیق فرکانس بنیادی (pitch extraction) یکی از مهمترین دغدغه های مطالعاتی از آغاز تحقیق تحلیل گفتار بوده است، اما هنوز رویکرد مشخصی مطرح نشده است. این مسئله در استخراج pitch از سه عامل ناشی می شود. اولاً، ارتعاش تارهای صوتی لزوماً دارای تناوب کامل به خصوص در ابتدا و انتهای صداهای واکهدار نیست. دوم، استخراج سیگنال منبع تارهای صوتی از موج گفتار جدا از افکت های مجرای صوتی دشوار است. سوم، محدوده دینامیکی فرکانس بنیادی بسیار بزرگ است.
با در نظر گرفتن این موارد، تحقیقات اخیر استخراج pitch از سه دیدگاه انجام شده است. یکی این است که چگونه می توان تناوب سیگنال های شبه تناوبی را به طور قابل اعتماد استخراج کرد. مورد دیگر نحوه اصلاح خطای استخراج pitch به دلیل اختلال تناوب است. دیگری نحوه حذف افکت های مجرای صوتی (فورمانت) است.
خطاهای عمده در استخراج pitch به خطاهای double-pitch و خطاهای half-pitch طبقه بندی می شوند. اولی خطاهایی هستند که هنگام استخراج فرکانس دو برابر بزرگتر از مقدار واقعی رخ می دهند. دومی خطاهایی هستند که هنگام استخراجِ نیممقدارِ فرکانس اصلی واقعی ایجاد می شوند. گرایش به سمت این که کدام خطا بیشتر مستعد رخ دادن است به روش استخراج به کار گرفته شده بستگی دارد.
روشهای اصلی استخراج pitch در جدول زیر مشخص شده است. آنها را می توان به طور کلی به پردازش شکل موج (I)، پردازش همبستگی (I I) و پردازش طیفی (I I I) گروه بندی کرد. گروه I از روش هایی برای تشخیص پیک های تناوبی در شکل موج تشکیل شده است. روشهای گروه I I بیشترین استفاده را در پردازش سیگنال دیجیتال گفتار دارند، زیرا پردازش همبستگی (correlation processing ) تحت تأثیر اعوجاج فاز در شکل موج قرار نمیگیرد، و از آنجایی که میتوان آن را با یک پیکربندی سختافزاری نسبتاً ساده تحقق بخشید. در میان روشهای گروه I I I ، اصل استخراج pitch با استفاده از آنالیز کپسترال قبلاً توضیح داده شده است. روش همبستگی اصلاح شده و الگوریتم ردیابی فیلتر معکوس ساده شده (simplified inverse filter tracking ) (SIFT) که روشهای همبستگی هستند ، و روش cepstral عموماً کارآمدترین هستند زیرا به آسانی اثرات مجرای صوتی را حذف میکنند.
تصمیم voiced/unvoiced معمولاً با استفاده از یک روش برای استخراج pitchگرفته می شود، زیرا به خاطر سادگی، نشانه های تصمیم گیری دوره ای/غیر دوره ای معمولاً به عنوان نشانه هایی برای تصمیمات voiced/unvoiced در نظر گرفته می شود. مقادیر پیک توابع خودهمبستگی (autocorrelation )یا خودهمبستگی اصلاح شده عموماً در تصمیم گیری اعمال می شوند. از آنجایی که این روشها برای صوت های واکه دارِ غیر دورهای (unperiodic voiced sounds) کار نمیکنند، بهبود دقت تصمیم با استفاده از چندین پارامتر دیگر به عنوان نشانههای اضافی تلاش شده است (آتال و رابینر، 1976). این پارامترها شامل انرژی گفتار، نرخ عبور از صفر، تابع خود همبستگی مرتبه اول، ضریب پیش بینی خطی مرتبه اول و انرژی سیگنال باقیمانده است.
مرجع اصلی:
Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui