خواندن ۲۵ دقیقه·۶ ماه پیش

سیستم‌های آنالیز گفتار و آنالیز-سنتز (فصل چهارم)

1.4.دیجیتال‌سازی (digitalization):

سیگنال گفتار یا موج گفتار را می‌توان با تبدیل آن به یک سیگنال الکتریکی با استفاده از میکروفون به یک آبجکت قابل پردازش تبدیل کرد. سیگنال الکتریکی معمولاً از سیگنال آنالوگ به سیگنال دیجیتال تبدیل می‌شود و به دو دلیل هم این کار انجام می‌شود: اول، تکنیک‌های دیجیتال، پردازش سیگنال بسیار پیچیده را تسهیل می‌کنند که در غیر این صورت با تکنیک‌های آنالوگ قابل تحقق نیست. دوم، پردازش دیجیتال قابلیت اطمینان‌ بیشتری دارد و با استفاده از یک مدار فشرده قابل انجام است.

توسعه سریع کامپیوترها و مدارهای مجتمع در ارتباط با رشد شبکه‌های ارتباطی دیجیتال، ما را به سمت استفاده از تکنیک‌های پردازش دیجیتال برای پردازش گفتار سوق داده است. تبدیل آنالوگ به دیجیتال که معمولاً به آن دیجیتال‌سازی می گویند، شامل فرآیندهای نمونه‌برداری (sampling)، کوانتیزاسیون یا کمی‌سازی (quantizing) و کدگذاری (coding) است.

Digitalization (Analog-to-digital conversion): Sampling-> Quantizing-> Coding

نمونه‌برداری، فرآیندی برای به تصویر کشیدن یک سیگنال پیوسته متغیر به عنوان یک دنباله دوره‌ای از مقادیر است.

کوانتیزاسیون تقریباً شامل بازنمایی مقدار شکل موج توسط یکی از مجموعه مقادیر اولیه است.

کدگذاری مربوط به اختصاص یک عدد واقعی به هر مقدار است. برای چنین کاری معمولاً از کدگذاری باینری استفاده می‌شود که از نمایش اعداد دودویی استفاده می‌کند.

بنابراین این فرآیندها سیگنال آنالوگ پیوسته را قادر می‌سازند تا به دنباله‌ای از کدهای انتخاب شده از یک مجموعه محدود تبدیل شود.

1.1.4.نمونه‌برداری (sampling)

شکل زیر، این عمل را در حوزه زمان نشان می‌دهد:

اگر T خیلی بزرگ باشد، سیگنال اصلی را نمی‌توان از دنباله نمونه‌برداری‌شده بازتولید کرد. برعکس، اگر T خیلی کوچک باشد، نمونه‌های بی‌فایده در دنباله نمونه‌برداری شده ظاهر می‌شوند. در این راستا، قضیه نمونه‌برداریِ شانون-سومیا برای رابطه بین پهنای باند فرکانسی سیگنال آنالوگ نمونه‌برداری شده و دوره نمونه‌برداری به عنوان ابزاری برای حل این مشکل پیشنهاد شد. این قضیه می‌گوید که وقتی سیگنال آنالوگ x(t) محدود به باند 0 تا W شود و زمانی که x(t) در هر T = 1/2W نمونه‌برداری شود، آنگاه سیگنال اصلی را می‌توان از طریق رابطه زیر به طور کامل بازتولید کرد:

در این رابطه، x(i/2W) مقدار نمونه‌برداری‌شده از x(t) در t = i/2W است (i یک عدد صحیح می‌باشد). و
2W = 1/T، نرخ نایکوئیست نامیده می‌شود.

به عنوان مثال، یک سیگنال تلفن معمولی را می توان در هر T = l/8000 [s] نمونه‌برداری کرد، زیرا پهنای باند W آن زیر 4 کیلوهرتز محدود شده است. فرکانس نمونه‌برداری برای پردازش دیجیتال سیگنال‌های گفتاری معمولا بین 6 تا 16 کیلوهرتز تنظیم می‌شود. حتی برای چندین صامت خاص، تنظیم فرکانس نمونه‌برداری روی 20 کیلوهرتز کافی است. برای سیگنال‌هایی که پهنای باند فرکانسی آنها مشخص نیست، از یک فیلتر پایین‌گذر برای محدود کردن پهنای باند ، قبل از نمونه‌برداری، استفاده می‌شود. هنگامی که سیگنال بر خلاف قضیه نمونه‌برداری، نمونه‌برداری می‌شود، اعوجاج aliasing رخ می‌دهد، که در آن، اجزای فرکانس بالای سیگنال دچار واپیچیدگی می‌شوند، همانطور که در شکل زیر نشان داده شده است. به سیگنال نمونه‌برداری شده که در حوزه زمان (time domain) ناپیوسته است اما در حوزه‌ی دامنه (amplitude domain) پیوسته است، سیگنال گسسته گفته می‌شود.

2.1.4.کوانتیزاسیون و کدینگ (Quantization and Coding)

در طول کوانتیزاسیون، کل محدوده‌ی دامنه پیوسته به زیر دامنه‌های محدود تقسیم می‌شود و به شکل موج‌هایی که دامنه آنها در یک زیر دامنه قرار می‌گیرند، مقادیر دامنه یکسانی نسبت داده می‌شود. شکل زیر مشخصه ورودی-خروجی یک کوانتایزر هشت سطحی (3 بیتی) را نشان می‌دهد، که در آن ∆ اندازه گام کوانتیزاسیون است. در این مثال، هر کد به گونه‌ای تخصیص داده شده است که مستقیماً مقدار دامنه را نشان می‌دهد. مشخصه کوانتیزاسیون هم به تعداد سطوح (levels) و هم به اندازه گام (step) کوانتیزاسیون ∆ بستگی دارد. هنگامی که سیگنال با B [bit] کوانتیزه می‌شود، تعداد سطوح معمولاً روی 2^B (دو به توان B) تنظیم می‌شود تا از کارآمدترین استفاده از کلمات کد باینری اطمینان حاصل شود. ∆ و B باید با هم انتخاب شوند تا به درستی محدوده سیگنال را پوشش دهند.

3.1.4. تبدیل آنالوگ به دیجیتال و دیجیتال به آنالوگ (A/D , D/A)

تبدیل آنالوگ به دیجیتال را با A/D و عکس آن را با D/A نمایش می‌دهند.

استفاده از فیلتر پایین‌گذر پیش از تبدیل A/D و نیز پس از تبدیل D/A به منظور حذف اعوجاج موجود در اجزای هارمونیک بالاتر ضروری است. رابطه بین مشخصه فیلتر پایین‌گذر و فرکانس تبدیل D/A باید همان الزامات اساسی برای فرایند نمونه‌برداری را برآورده کند.

در پردازش سیگنال گفتار، پیش‌تاکید (pre-emphasis)، یعنی فشرده‌سازی محدوده دینامیکی سیگنال توسط flat کردن شیب طیف، در افزایش SNR (نسبت سیگنال به نویز کوانتیزاسیون) موثر است. عمل پیش‌تاکید معمولاً با تأکید بر مولفه‌های فرکانس بالاتر تقریباً dB/oct 6 پیش از فیلتر پایین‌گذر برای تبدیل A/D انجام می‌شود. پیش‌تاکید را می‌توان همچنین پس از تبدیل A/D از طریق محاسبه دیفرانسیل یا از طریق اعمال فیلتر دیجیتالی مرتبه اول انجام داد:

1- α (z ^ -1)

مقدار آلفا تقریبا نزدیک 1 در نظر گرفته می‌شود

با این حال، به حداکثر رساندن SNR تا آنجا که ممکن است، مستلزم آن است که قبل از تبدیل A/D، تاکید اولیه صورت گیرد. فرآیند افزودن شیب 6 db/oct یا بازتولید شیب طیفی اصلی را de-emphasis می گویند.

از آنجایی که محدوده دینامیکی موج گفتار بزرگتر از 50 دسی بل است، 10 بیت یا بیشتر برای تبدیل A/D ضروری است. با این حال، زمانی که نرمال‌سازی بلوک در هر دوره کوتاه برای نرمال‌سازی تغییرات دامنه توسط ضرب نمودن یک مقدار ثابتِ اختصاص‌داده‌شده به دوره کوتاه (short period) در موج گفتار اعمال می شود، رزولشون کوانتیزاسیون کافی را می‌توان حتی با نرخ بیت 6 تا 7 بیت به دست آورد. از آنجایی که ضریب پیک گفتار 12 دسی‌بل است، حداکثر سطح مجاز مبدل A/D باید 12 دسی بل بالاتر از سطح موثر سیگنال گفتار ورودی تنظیم شود.

2.4.آنالیز طیفی:
1.2.4.ساختار طیف گفتار:

موج گفتار معمولاً با استفاده از ویژگی‌های طیفی نظیر طیف فرکانسی و تابع خودهمبستگی، به جای استفاده مستقیم از شکل موج، آنالیز می‌شود. دو دلیل مهم برای این موضوع وجود دارد. ابتدا اینکه موج گفتار با جمع امواج سینوسی که دامنه و فاز آن‌ها به کندی تغییر می‌کند قابل بازتولید خواهد بود. مورد دیگر این است که ویژگی های حیاتی برای درک گفتار توسط گوش انسان عمدتاً در اطلاعات طیفی گنجانده شده است، در حالیکه اطلاعات فازی چندان این پتانسیل را ندارد.

چگالی طیفی توان (power spectral density) در یک بازه کوتاه، یعنی طیف کوتاه‌مدتِ گفتار را می‌توان حاصل دو عنصر در نظر گرفت: پوشش طیفی (spectral envelope) که به آرامی به صورت تابعی از فرکانس تغییر می‌کند و ساختار ریز طیفی (spectral fine structure) که به سرعت تغییر می‌کند.

همانطور که در شکل زیر نشان داده شده، ساختار ریز طیفی الگوهای تناوبی را برای صداهای واکه‌دار (voiced sounds) تولید می‌کند، اما برای صداهای بی‌واکه(unvoiced sound) این الگوها را تولید نمی‌کند.

پوشش طیفی (spectral envelope)، یا ویژگی کلی طیفی، نه تنها ویژگی‌های تشدید و ضد تشدیدِ articulatory organs را منعکس می‌کند، بلکه شکل کلی طیف منبع گلوتال و ویژگی‌های انتشار (radiation) را در لب‌ها و سوراخ‌های بینی منعکس می‌کند. از سوی دیگر، ساختار ظریف طیفی با تناوب منبع صدا ارتباط دارد.

روش‌های استخراج پوشش طیفی را می‌توان به تحلیل پارامتریک (PA) و تحلیل ناپارامتریک (NPA) تقسیم کرد. در PA، مدلی که متناسب با سیگنال هدف باشد انتخاب شده و با تنظیم پارامترهای ویژگی که مدل را نشان می‌دهد، به سیگنال اعمال می شود. از سوی دیگر، روش‌های NPA عموماً می‌توانند برای سیگنال‌های مختلف اعمال شوند، زیرا آنها سیگنال‌ها را مدل‌سازی نمی‌کنند. اگر مدل کاملاً با سیگنال هدف مطابقت داشته باشد (فیت بشود)، روش‌های PA می‌توانند ویژگی‌های سیگنال را مؤثرتر از روش‌های NPA نشان دهند. روش‌های اصلی برای تجزیه و تحلیل طیف گفتار و ویژگی های طیفی در جدول زیر نشان داده شده است.

1.2.4.خودهمبستگی (autocorrelation) و تبدیل فوریه:

اگر x(n) یک دنباله زمانی نمونه‌برداری شده باشد آنگاه تابع خودهمبستگی‌اش را می‌توان چنین تعریف نمود:

که در آن N، تعداد نمونه‌ها در بازه آنالیز کوتاه مدت است. طول بازه یعنی NT (Tدوره نمونه‌برداری)، معمولاً در حدود 30 میلی ثانیه در نظر گرفته می‌شود. به طور خاص، فواصل (بازه‌های) حدود 20 و 40 میلی‌ثانیه اغلب نتایج خوبی را به ترتیب برای صدای زنانه و مردانه به ارمغان می‌آورند. طیف کوتاه مدت S(w) و خودهمبستگی کوتاه مدت ф(m)، جفتِ تبدیل فوریه را تشکیل میدهند؛

در روابط فوق، w یک فرکانس زاویه نرمال شده است که می تواند با w = 2пfT نمایش داده شود (f یک فرکانس real است). S(w) معمولاً مستقیماً از موج گفتار با استفاده از تبدیل فوریه گسسته (DFT) که توسط الگوریتم تبدیل فوریه سریع (FFT) تسهیل می‌شود، محاسبه می‌شود:

تابع خودهمبستگی را می‌توان با استفاده از DFT (FFT) در مقایسه با روش محاسبه همبستگی معمولی در زمانی که عناصر همبستگی مرتبه بالاتر مورد نیاز است، به سادگی محاسبه کرد. با این روش تابع خودهمبستگی به عنوان تبدیل‌فوریه‌معکوسِ طیف کوتاه مدت بدست می‌آید که با استفاده از معادله فوق محاسبه می‌شود.

3.2.4.تابع پنجره (window function):

به منظور استخراج N-sample interval از موج گفتار جهت محاسبه تابع خودهمبستگی و طیف، موج گفتار باید در یک پنجره زمانی مناسب ضرب شود. بنابراین x(n) موجود در دو معادله زیر (که قبلا نیز اشاره شدند) معمولا شکل موج اصلی نیست بلکه شکل موج موج ضربدر تابع پنجره است.

مطلوب است که تابع پنجره دو ویژگی را برآورده کند تا اعوجاج طیفی ناشی از windowing را کاهش دهد. یکی رزولوشن با فرکانس بالا است. دیگری یک نشت طیفی کوچک از سایر عناصر طیفی است که توسط کانولوشن ایجاد می شود.

از آنجایی که این دو الزام در واقع بر خلاف یکدیگر هستند و از آنجا که برآوردن هر دو غیرممکن است، چندین تابع پنجره پیشنهاد شده است. در این میان، پنجره Hamming، به صورت تعریف شده است:

از تابع همینگ معمولاً به عنوان تابع پنجره برای تجزیه و تحلیل گفتار استفاده می شود. این پنجره از این نظر مفید است که رزولوشن آن در حوزه فرکانس نسبتاً بالا بوده و نشت طیفی آن کم است

نکته: پنجره مستطیلی برای تجزیه و تحلیل یک موج گفتاری که محدوده دینامیکی زیادی از اجزای طیفی دارد، مناسب نیست.

پنجره دیگر نامش پنجره Hanning است که به صورت زیر تعریف می‌شود:

شکل این پنجره ها و طیف برای 10 دوره امواج سینوسی 1 کیلوهرتز استخراج شده با استفاده از این پنجره ها در شکل زیر نشان داده شده است:

رابطه مربوط بین دوره نمونه‌برداری، تعداد نمونه برای آنالیز و رزولوشن فرکانس نامی طیف به صورت زیر است:

هنگامی که طول پنجره آنالیز افزایش می‌یابد، رزولوشن فرکانسی با کاهش رزولوشن زمانی افزایش می‌یابد. از طرف دیگر، زمانی که طول پنجره آنالیز کوتاه می‌شود، با کاهش وضوح فرکانس، وضوح زمانی افزایش می‌یابد. این روابط را می‌توان به راحتی از این واقعیت درک کرد که ضرب شکل موج در یک تابع پنجره با میانگین متحرک طیف (moving average of the spectrum) در حوزه فرکانس ارتباط دارد. علاوه بر این، هنگامی که شکل موج در پنجره Hamming یا Hanning ضرب می‌شود، طول بازه آنالیز تقریباً 40 درصد کوتاهتر می شود زیرا شکل موج‌های نزدیک هر دو انتهای پنجره فشرده می شوند (همانطور که در شکل فوق دیدیم). این منجر به کاهش 40٪ در رزولوشن فرکانس می شود.

از این رو، ضرب موج گفتار در یک پنجره مناسب، نوسانات طیفی را به دلیل تغییر موقعیت تحریک گام در بازه آنالیز کاهش می‌دهد. این در تولید طیف های پایدار در طول تجزیه و تحلیل صداهای واکه‌دار clear pitch periodicity موثر است. از آنجایی که ضرب در تابع پنجره طول بازه آنالیز را کاهش می دهد، طول آنالیز باید به طور همپوشان در امتداد موج گفتار جابجا شود تا ردیابی طیف های متغیر با زمان تسهیل شود.

فاصله تحلیل (بازه تحلیل) زمانی کوتاهی که در یک تابع پنجره ضرب می شود و از موج گفتار استخراج می شود، فریم نامیده می شود. فاصله ی جابه‌جایی فریم (frameshifting )، فاصله فریم (frame interval) نامیده میشود

بلوک دیاگرام یک روش تحلیل گفتار معمولی در شکل زیر نشان داده شده است. همچنین در هر مرحله مقادیر پارامترهای معمولی و نمونه هایی از امواج گفتاری نشان داده شده است.

4.4.4.طیف‌نگار صوتی (sound spectrogram):
آنالیز طیف‌نگار صوتی روشی برای ترسیم تابع زمانی طیف گفتار با استفاده از نمودارهای چگالی است. ابزار مخصوصی که برای اندازه گیری و رسم طیف نگار صوت استفاده می شود، طیف نگار صدا نامیده می شود. شکل زیر نمونه ای از طیف نگارهای صوتی برای کلمه ژاپنی /ko:geN/ یا "Plateau" است که توسط یک گوینده مرد بیان می شود. همانطور که نشان داده شده، طیف نگار صدا دو نوع بازنمایی را ارائه می دهد: روشن و تاریک و کانتور.

در بازنمایی های تاریکی و روشنی، مناطق تاریک‌تر نشان دهنده ی مولفه‌های فرکانسی با شدت بالاتر هستند. بازنمایی های کانتور، مانند نقشه های کانتور، بزرگی (magnitude) تقریباً کوانتیزه می شود، و ناحیه ای که بزرگی در همان سطح کوانتیزاسیون قرار دارد، توسط همان سایه تاریکی تولید می شود.

معمولاً پهنای باند فیلتر میانگذر برای تجزیه و تحلیل فرکانس، یعنی رزولوشن فرکانس، بسته به هدف تجزیه و تحلیل، 300 هرتز یا 45 هرتز است. هنگامی که رزولوشن فرکانس 300 هرتز است، طول موثر بازه تحلیل گفتار تقریباً 3 میلی‌ثانیه است و زمانی که وضوح 45 هرتز باشد، طول به 22 میلی‌ثانیه می‌رسد. از آنجایی که این مبادله بین رزولوشن فرکانس و زمان اتفاق می‌افتد، ساختار زیر و بمی (pitch) گفتار با یک الگوی تکراریِ راه راه عمودی در امتداد محور زمان در مورد وضوح فرکانس 300 هرتز، و با یک راه راه افقی به طور مساوی نشان داده می‌شود. الگوی تکراری در امتداد محور فرکانس در مورد وضوح 45 هرتز، همانطور که در شکل فوق نشان داده شده است.

بسیاری از طیف‌نگارهای صوتی که در اصل توسط فناوری آنالوگ با استفاده از طیف‌نگار صدا تولید می‌شد، اکنون توسط فناوری دیجیتال از طریق رایانه‌ها و چاپگرهای آن تولید می‌شوند. روش دیجیتال به ویژه از این جهت سودمند است که امکان تنظیم آسان شرایط مختلف را فراهم می‌کند و از این نظر که طیف‌نگارها می‌توانند به صورت متوالی و خودکار با قابلیت تکرار خوب تولید شوند.

3.4. کپستروم (Cepstrum)
1.3.4. کپستروم و کاربردش:

کپستروم یا ضریب کپسترال c(r) به صورت تبدیل فوریه معکوس طیف دامنه لگاریتمی کوتاه مدت IX(w)I تعریف می شود.

اصطلاح cepstrum در اصل یک کلمه ابداع‌شده است که به معنای تبدیل معکوس طیف (inverse transform of the spectrum) است. به پارامتر مستقل برای کپستروم، quefrency گفته میشود، که از کلمه frequency تشکیل شده است. از آنجایی که کپستروم تبدیل معکوسِ تابعِ حوزه فرکانسی است، quefrency پارامتر حوزه زمان محسوب میشود.

ویژگی خاص کپستروم این است که امکان نمایش جداگانه پوشش طیفی (spectral envelope) و fine structure را فراهم می کند.

بر اساس مدل مدار معادل قابل جداسازی خطی، گفتار صوتی x(t) را می توان به عنوان پاسخِ فیلترِ معادلِ آرتیکولاسیون مجرای صوتی که توسط یک منبع شبه دوره ای g(t) هدایت می شود، در نظر گرفت. آنگاه x(t) را میتوان از کانولوشن g(t) با h(t) (پاسخ impulse مجرای صوتی) بدست آورد:

و بدین ترتیب تبدیل فوریه X(w) به صورت زیر محاسبه می گردد:

اگر g(t) یک تابع متناوب باشد، I X(w)I با طیف های خطی نشان داده می شود که بازه های (فواصل) فرکانسی آن معکوسِ دوره اصلی g(t) است. بنابراین، هنگامی که IX(w)l توسط تبدیل فوریه یک دنباله زمانی نمونه برداری شده برای یک دوره موج گفتاری کوتاه محاسبه می شود، پیک های تیز با فواصل مساوی در امتداد محور فرکانس نشان می دهد. لگاریتم آن یعنی log Ix(w)I به صورت زیر محاسبه میشود:

عبارت اول و دوم در سمت راست معادله فوق به ترتیب با ساختار ظریف طیفی (fine structure) و پوشش طیفی (spectral envelope ) مطابقت دارد. اولی الگوی تناوبی است و دومی الگوی کلی در امتداد محور فرکانس است.

کپستروم که تبدیل فوریه معکوسِ log IX(W)I است، به صورت زیر محاسبه میشود:

تابع اول در سمت راست معادله فوق، شکل‌ یک پیک در ناحیه high-quefrency را نشان می دهد و تابع دوم نشان دهنده تراکم (تجمع) در ناحیه low-quefrency از 0 تا 2 یا 4 میلی ثانیه است. دوره بنیادی منبع g(t) را می توان از پیک در ناحیه high-quefrency استخراج کرد. از سوی دیگر، تبدیل فوریه عناصر low-quefrency ، پوشش طیفی لگاریتمی را تولید می کند که از طریق تبدیل نمایی، پوشش طیفی خطی را می توان به دست آورد. حداکثر ترتیب عناصر low-quefrency مورد استفاده برای تبدیل، نرمیِ (smoothness) پوشش طیفی را مشخص می کند. به فرآیند جداسازی عناصر کپسترال به این دو عامل را liftering گفته میشود، که از کلمه filtering گرفته شده است.

هنگامی که مقدار کپستروم توسط DFT محاسبه می شود، لازم است که مقدار پایه تبدیل، N، به اندازه کافی بزرگ در نظر گرفته شود تا aliasing، مشابه آنچه در طول نمونه برداریِ شکل موج تولید می شود حذف گردد. آنگاه کپستروم برابر خواهد شد با:

مراحل فرآیند استخراج دوره بنیادی و پوشش طیفی با استفاده از روش کپسترال در شکل زیر آورده شده است:

نمونه هایی از نتایج استخراج شده در شکل زیر نشان داده شده است (گفتنی است مقادیر کپستروم نشان‌داده‌شده در این شکل، مقادیر مجذور کپستروم cn مذکور است):

2.3.4. آنالیز همومورفیک و LPC Cepstrum:

آنالیز کپسترال، که فرآیند جداسازی دو ویژگی کانولوشنی مرتبط توسط تبدیل رابطه به یک جمع است، نوعی آنالیز همومورفیک یا فیلترینگ (فیلترینگ همومورفیک) است. به طور کلی، آنالیز همومورفیک به نوعی از پردازش سیگنال اشاره دارد که سیستم غیرخطی (یا non-additive) را به عوامل مستقل تجزیه می‌کند، مشابه فیلتری که سیگنال‌های اضافه شده ی خطی را متمایز می‌کند. آنالیز هممورفیک از چندین روش خاص برای تبدیل رابطه به یک رابطه ی additive استفاده می کند.

معادله زیرنشان میدهد که طیفِ تمام‌قطبیِ H(z) برای چگالی طیفی سیگنال گفتار استفاده می شود. این امر با بسط دادن کپستروم به شکل مختلط انجام میشود؛ یعنی در شکل زیر که قبلا هم داشتیم بیاییم به جای بلوک‌های DFT، تبدیل لگاریتم و IDFT، به ترتیب از تبدیل Z دوگانه، تبدیل لگاریتمیِ مختلط و تبدیل Z دوگانه معکوس استفاده کنیم.

H(z) is the z-transform of the impulse response of an all-pole speech production system estimated by the linear predictive coding (LPC) analysis method

کپستروم رابطه زیر، به عنوان کپستروم LPC شناخته می شود، زیرا از طریق مدل LPC مشتق شده است. کپستروم اصلی گاهی اوقات cepstrum FFT نامیده می شود تا از کپستروم LPC متمایز شود.

شکل زیر پوشش طیفی محاسبه شده با استفاده از کپستروم استخراج شده به طور مستقیم از شکل موج را با پوشش محاسبه شده با استفاده از کپستروم LPC مقایسه می کند. در این شکل، طیف کوتاه مدت و پوشش طیفی استخراج شده با LPC (روش حداکثر درستنمایی) نیز برای مرجع نشان داده شده است. پوشش طیفی مشتق شده از کپستروم LPC به وضوح تمایل دارد تا قله های طیفی را با دقت بیشتری نسبت به پوشش طیفی به دست آمده از کپستروم FFT دنبال کند.

4.4.بانک فیلتر و آنالیز zero-crossing

1.4.4.بانک فیلتر دیجیتال:

بانک فیلتر دیجیتال، به طور خاص، مجموعه ای از فیلترهای میانگذر است. بانک فیلتر به مقدار نسبتاً کمی محاسبات نیاز داشته و بنابراین برای اجرای سخت افزاری کاملاً مناسب است. از آنجائیکه بین زمان (رزولوشن زمان) و رزولوشن فرکانس هر فیلتر میانگذر یک trade-off قطعی وجود دارد، لازم است پارامترهای مختلفی با توجه به اهداف مورد نظر طراحی شود. به طور کلی، فیلترهای میانگذر به گونه ای ساخته می شوند که فرکانس‌های مرکزی با فواصل مساوی در مقیاس فرکانس لگاریتمی با در نظر گرفتن مشخصه‌های شنوایی انسان توزیع شوند و به گونه ای که نقاط تضعیف 3 دسی بلِ (3-dB attenuation points) فیلترهای مجاور منطبق می‌شوند. خروجی هر فیلتر باند میانگذر تصحیح می‌شود، با محاسبه مقدار RMS(ریشه میانگین مربع) smooth می‌شود و هر 5 تا 20 میلی‌ثانیه نمونه‌برداری می‌شود تا مقادیری که پوشش طیفی را نشان می‌دهند به دست آید.

قسمت آنالیز طیفیِ آنالیز طیف‌نگار صوت معمولاً با استفاده از یک فیلتر میانگذر انجام می‌شود که فرکانس مرکزی آن به طور مداوم تغییر می‌کند. در آنجا موج گفتار ضبط شده به صورت مکرر پخش شده و توسط فیلتر آنالیز می شود.

2.4.4.آنالیز zero-crossing:

عدد گذار از صفر یا تلاقی‌صفرِ (zero-crossing) موج گفتار در یک بازه زمانی از پیش تعیین شده، که به عنوان تعداد دفعاتی که نقاط نمونه مجاور دارای علائم مثبت و منفی متفاوتی هستند محاسبه می شود، تقریباً با فرکانس مولفه طیفی اصلی مطابقت دارد. بر اساس این اصل، فرکانس‌های فرمانت را می توان با تجزیه و تحلیل zero-crossing به صورت زیر تخمین زد:

ابتدا موج گفتار از مجموعه ای از فیلترهای میانگذرِ چهار یا پنج اکتاوی عبور داده می شود و عدد توان و عدد تلاقی‌صفرِ خروجیِ تصحیح و صاف‌شده‌ی هر فیلتر، در فواصل زمانی کوتاه مانند 10 میلی ثانیه اندازه گیری می‌شود. هنگامی که توان یک فیلتر از آستانه از پیش تعیین شده فراتر می رود، این محدوده فرکانس دارای یک فرمانت در نظر گرفته می شود، با فرکانس فرمانت با نرخ zero-crossing تخمین زده می شود. این نرخ عبور از صفر همچنین می تواند برای تشخیص تناوب منبع صدا و همچنین برای تخمین دوره بنیادی استفاده شود.

اگرچه روش آنالیز zero-crossing به خوبی از جهت پیاده‌سازی سخت افزاری مناسب است، اما اشکال آن این است که به additive noise حساس است.

5.4.آنالیز از طریق سنتز (Analysis-by-Synthesis) (A-b-S):

تجزیه و تحلیل با سنتز (A-b-S)، ارائه شده در شکل زیر، فرآیند تعیین پارامترهایی است که سیستم را بر اساس یک مدل تولید سیگنال فرضی مشخص می کند. پارامترهای مدل در دوره کنترل فیدبک تکراری تنظیم می شوند تا خطا بین مقدار مشاهده شده و مقدار تولید شده توسط مدل به حداقل برسد. موارد مهم در A-b-S انتخاب مدل تولید مفروض، مقادیر پارامترهای اولیه، اندازه گیری ارزیابی خطا و الگوریتم کمینه سازی است. A-b-S نه تنها برای استخراج پارامترهای گفتار، بلکه برای بسیاری از کاربردها که در آنها می توان از یک مدل تولید استفاده کرد، مفید است. در طول استخراج فرکانس فرمانت بر اساس تکنیک A-b-S، پارامترهای زیر تنظیم می‌شوند: فرکانس‌ها و پهنای باند فرمانت اول تا سوم یا چهارم، فرکانس اصلی و همچنین پوشش طیفی منبع صوتی، و ویژگی‌های جبران طیفی کلی (overall spectral compensation) از جمله ویژگی های فرمانت مرتبه بالاتر.

میانگین مربعات خطای بین طیف های توان لگاریتمی گفتار مدل شده و گفتار مشاهده شده معمولاً به عنوان معیار ارزیابی خطا استفاده می شود. رزولوشن های استخراج فرکانس فرمانت از10 ± هرتز و ±20 هرتز به ترتیب برای فرمانت های اول و دوم به صورت تجربی به دست آمد.

اگرچه روش A-b-S در اصل بهتر از هر روش دیگری است، اما از آنجایی که محاسبات قابل توجهی مورد نیاز است مشکل ساز است. به طور خاص، به دلیل تعامل متقابل بین اثرات پارامترهای مختلف بر روی تولید پوشش طیفی، به تعداد زیادی تکرار کنترل فیدبک در طول تجزیه و تحلیل گفتار واقعی نیاز دارد.

6.4.سیستم های آنالیز-سنتز

1.6.4. ساختار سیستم آنالیز-سنتز:

آنالیز-سنتز فرآیندی است که در آن موج گفتار با استفاده از منبع صدا و پارامترهای articulation بازتولید (سنتز) می شود. پارامترها بر اساس مدار معادل خطی قابل جداسازی برای مکانیسم تولید گفتار استخراج می‌شوند. این پارامترها چهار نوع اطلاعات را مشخص می کنند:

1. تمایز بین voiced sound (منبع پالس) و unvoiced sound (منبع نویز)

2. دوره اساسی یا فرکانس اساسی صداهای واکه‌دار (voiced sound)

3. دامنه منبع

4. خصوصیات فیلتر خطی (رزونانس).

سه مورد اول اطلاعات منبع را ارائه می دهند، در حالی که آخرین پارامتر، اطلاعات پوشش طیفی (articulation) را ارائه می دهد.

برای اطمینان از بهبود کیفیت گفتار سنتز شده، بررسی دقیق سه رویه اصلی سیستم های تجزیه و تحلیل گفتار ضروری است. اولین مورد استخراج پارامترهایی است که دقیقاً تنها اطلاعات مهم شنیداری را با نادیده گرفتن اطلاعات اضافی موجود در امواج گفتاری منتقل می کند. دومی کدگذاری موثر پارامترهای ویژگی است. سوم، بازتولید گفتار اصلی تا حد امکان دقیق، واضح و طبیعی با استفاده از پارامترهای ویژگی کدگذاری شده است.

2.6.4. مثالی از سیستم های آنالیز-سنتز:

نمونه های عمده سیستم های تجزیه و تحلیل گفتار در جدول زیر خلاصه شده است. همانطور که نشان داده شده، نمونه اولیه سیستم تجزیه و تحلیل گفتار، Vocoder است که در سال 1939 اختراع شد. اصطلاح vocoder (رمزگذار صوتی) مخفف voice coder است. ساختار Vocoder در شکل زیر نشان داده شده است که در آن آنالیز طیفی از طریق یک بانک فیلتر میانگذر در بخش آنالیز (فرستنده)، به موج گفتار اعمال می شود. همزمان، شامل تناوب و دوره بنیادی برای سیگنال های متناوب آنالیز می شود. این سیگنال‌ها سپس به بخش سنتز (گیرنده) منتقل می‌شوند، جایی که سیگنال‌های منبع، بسته به وجود تناوب، توسط یک مولد پالس یا نویز تولید می‌شوند. سیگنال های منبع در هر باند فرکانسی با دامنه کنترل می شوند و از فیلترهای میانگذر که مشابه فرستنده هستند عبور می کنند. سپس سیگنال های خروجی فیلترهای میانگذر برای بازتولید گفتار اصلی جمع می شوند.

کلمه vocoder امروزه به طور گسترده ای برای بازنمایی تمام سیستم های آنالیز-گفتار استفاده می شود. original vocoder ، که از یک بانک فیلتر میانگذر برای تجزیه و تحلیل طیفی استفاده می کند، اکنون به عنوان channel vocoder شناخته می شود (Gold and Rader, 1967). اگرچه channel vocoder با افزایش تعداد کانال ها از نظر کیفیت بهبود یافته است، اما توانایی آن در بازتولید گفتار طبیعی محدود است. formant vocoder در استخراج دقیق فرکانس‌های فرمانت مشکل‌ساز است و correlation vocoder در بازتولید دقیق طیف مشکل دارد. در pattern matching vocoder، واج ها (phonemes ) در موج گفتار بر اساس الگوی فرکانس زمانی خروجی فیلتر میانگذر، با نمادهای واجی که منتقل می شوند، شناسایی می شوند (اسمیت، 1969). اگرچه این تکنیک بالاترین نرخ فشرده سازی را انجام می دهد، اما چندین مشکل حل نشده دارد. یکی ازین مشکلات، نحوه استخراج واج ها از گفتار پیوسته است. مشکل دیگر، نحوه اندازه گیری شباهت بین گفتار ورودی و الگوهای مرجع است. و اینکه چگونه گفتار طبیعی را بر اساس دنباله نماد واج ترکیب (سنتز) کنیم.

در Homomorphic vocoder، پوشش طیفی توسط ضرایب کپسترال کوفرانس های (quefrencies) مرتبه پایین تر (مثلا 30 عنصر) نشان داده می شود. علاوه بر این، تخمین pitch و تصمیمِ voiced/unvoiced بر اساس عناصر کوفرنسی مرتبه بالاتر انجام می شود.

در synthesizer ، یک مقدار تقریبی برای پاسخ ضربه با استفاده از عناصر فرکانس پایین ارسالی تولید می شود. به طور همزمان، تابع تحریک (دنباله ضربه یا نویز تصادفی)، که بر اساس اطلاعات pitch ، voiced/unvoiced و دامنه تولید می‌شود، با پاسخ ضربه کانوالو می‌شود. هنگامی که DFT ِ عناصر کوفرانسی مرتبه پایین به صورت نمایی میشوند و تبدیل فوریه معکوس گرفته می شود، پاسخ ضربه فاز صفر به دست می آید.

اگر عناصر کوفرنسی مرتبه پایین در lifter زیر ضرب شوند، حداقل پاسخ ضربه فاز به دست می آید:

نتایج تجربی نشان می‌دهد که بهترین کیفیت گفتار را می‌توان تحت شرایط مینیمم فاز، که نزدیک به گفتار طبیعی است، سنتز کرد.

روش دیگر سنتز گفتار، مبتنی بر رمزگذار صوتی همومورفیک است که از یک مجموعه فیلتر استفاده می کند تا مستقیماً ویژگی های دامنه لگاریتمی را تقریب بزند. مجموعه فیلتر سنتز در این روش از طریق اتصال آبشاری چندین فیلتر توسط تابع زیر ساخته می شود:

صدای سنتز شده مستقیماً بدون تبدیل کپستروم به یک پاسخ ضربه ای تولید می شود. ویژگی های دامنه لگاریتمیِ فیلترِ ساخته شده توسط اتصال آبشاریِ فیلترهای مرحله ی (n0+1) برابر است با:

مشخص شده است که با استفاده از این روش می توان صدای سنتز شده با کیفیت بالا را با نرخ بیت نسبتاً پایین به دست آورد.

7.4.استخراج Pitch:

در سیستم های تجزیه و تحلیل گفتار، لازم است پارامترهای منبع به موازات استخراج پارامترهای spectral envelope استخراج شوند.

پارامترهای منبع شامل ارتعاش تارهای صوتی (voiced/unvoiced)، فرکانس بنیادی برای voiced sound و دامنه منبع (source amplitude) است.

اگرچه استخراج دقیق فرکانس بنیادی (pitch extraction) یکی از مهمترین دغدغه های مطالعاتی از آغاز تحقیق تحلیل گفتار بوده است، اما هنوز رویکرد مشخصی مطرح نشده است. این مسئله در استخراج pitch از سه عامل ناشی می شود. اولاً، ارتعاش تارهای صوتی لزوماً دارای تناوب کامل به خصوص در ابتدا و انتهای صداهای واکه‌دار نیست. دوم، استخراج سیگنال منبع تارهای صوتی از موج گفتار جدا از افکت های مجرای صوتی دشوار است. سوم، محدوده دینامیکی فرکانس بنیادی بسیار بزرگ است.

با در نظر گرفتن این موارد، تحقیقات اخیر استخراج pitch از سه دیدگاه انجام شده است. یکی این است که چگونه می توان تناوب سیگنال های شبه تناوبی را به طور قابل اعتماد استخراج کرد. مورد دیگر نحوه اصلاح خطای استخراج pitch به دلیل اختلال تناوب است. دیگری نحوه حذف افکت های مجرای صوتی (فورمانت) است.

خطاهای عمده در استخراج pitch به خطاهای double-pitch و خطاهای half-pitch طبقه بندی می شوند. اولی خطاهایی هستند که هنگام استخراج فرکانس دو برابر بزرگتر از مقدار واقعی رخ می دهند. دومی خطاهایی هستند که هنگام استخراجِ نیم‌مقدارِ فرکانس اصلی واقعی ایجاد می شوند. گرایش به سمت این که کدام خطا بیشتر مستعد رخ دادن است به روش استخراج به کار گرفته شده بستگی دارد.

روشهای اصلی استخراج pitch در جدول زیر مشخص شده است. آنها را می توان به طور کلی به پردازش شکل موج (I)، پردازش همبستگی (I I) و پردازش طیفی (I I I) گروه بندی کرد. گروه I از روش هایی برای تشخیص پیک های تناوبی در شکل موج تشکیل شده است. روش‌های گروه I I بیشترین استفاده را در پردازش سیگنال دیجیتال گفتار دارند، زیرا پردازش همبستگی (correlation processing ) تحت تأثیر اعوجاج فاز در شکل موج قرار نمی‌گیرد، و از آنجایی که می‌توان آن را با یک پیکربندی سخت‌افزاری نسبتاً ساده تحقق بخشید. در میان روش‌های گروه I I I ، اصل استخراج pitch با استفاده از آنالیز کپسترال قبلاً توضیح داده شده است. روش همبستگی اصلاح شده و الگوریتم ردیابی فیلتر معکوس ساده شده (simplified inverse filter tracking ) (SIFT) که روش‌های همبستگی هستند ، و روش cepstral عموماً کارآمدترین هستند زیرا به آسانی اثرات مجرای صوتی را حذف می‌کنند.

تصمیم voiced/unvoiced معمولاً با استفاده از یک روش برای استخراج pitchگرفته می شود، زیرا به خاطر سادگی، نشانه های تصمیم گیری دوره ای/غیر دوره ای معمولاً به عنوان نشانه هایی برای تصمیمات voiced/unvoiced در نظر گرفته می شود. مقادیر پیک توابع خودهمبستگی (autocorrelation )یا خودهمبستگی اصلاح شده عموماً در تصمیم گیری اعمال می شوند. از آنجایی که این روش‌ها برای صوت های واکه دارِ غیر دوره‌ای (unperiodic voiced sounds) کار نمی‌کنند، بهبود دقت تصمیم با استفاده از چندین پارامتر دیگر به عنوان نشانه‌های اضافی تلاش شده است (آتال و رابینر، 1976). این پارامترها شامل انرژی گفتار، نرخ عبور از صفر، تابع خود همبستگی مرتبه اول، ضریب پیش بینی خطی مرتبه اول و انرژی سیگنال باقیمانده است.

مرجع اصلی:

Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui

آنالیز گفتار آنالیز سنتز صوت

آرمان پرناک

شاید از این پست‌ها خوشتان بیاید