1.تئوری آکوستیکال تولید گفتار:
مکانیزم تولید موج گفتار را میتوان به سه مرحله تقسیمبندی کرد:
الف) sound source production
ب) articulation by vocal tract
ج) radiation from the lips and/or nostrils
این مراحل را میتوان با مدارهای معادل الکتریکی بر اساس رابطه بین سیستمهای الکتریکی و آکوستیکال مشخص کرد. به طور خاص، منابع صدا (sound sources)، یا صدادار (واکهدار) هستند یا بدون صدا (بیواکه). یک منبع صوتیِ واکهدار را میتوان با یک مولد پالس یا امواج مثلثی نامتقارن که در هر دوره بنیادی تکرار میشوند، مدلسازی نمود. مقدار پیکِ موج منبع با بلندیِ صدا مرتبط است. از طرف دیگر، یک منبع صدای بیواکه را میتوان با یک مولد نویز سفید مدلسازی کرد که انرژی متوسط آن با بلندیِ صدا مرتبط است. آرتیکولاسیون (articulation ) را میتوان با اتصال آبشاری یا موازی چندین مدار تکرزونانس یا ضد تشدید مدل کرد که میتواند از طریق یک فیلتر دیجیتال چند مرحلهای محقق شود. در نهایت، انتشار (radiation) را می توان به صورت ماحصلِ یک منبع صدای پیستونی که به یک بافل صفحه بینهایت متصل است، مدل کرد. امپدانس انتشار با یک مدار آبشاری L-r نشان داده میشود، که در آن r اتلاف انرژی از طریق انتشار است.
فرآیند تولید گفتار را میتوان با ترکیب این مدارهای معادل الکتریکی همانطور که در شکل زیر نشان داده شده است، مشخص کرد. دقت شود که ویژگیهای تشدید (رزونانس) فقط به شکل مجرای صوتی بستگی دارد و نه به محل منبع صدا در طول تولید هر دو نوع مصوت و صامت. برعکس، ویژگیهای ضد رزونانس (ضدتشدید) در طول تولید نوع صامت در درجه اول به ویژگیهای ضد رزونانس مجرای صوتی بین گلوت و موقعیت منبع صدا بستگی دارد. اثرات تشدید و ضد تشدید معمولاً در محدوده فرکانس پایین خنثی میشوند.
ویژگیهای رزونانس برای مجرای صوتی منشعب، مانند آنهایی که برای تولید، از نوع خیشومی یعنی nasal-type production هستند، توسط مشخصه حفره دهانی به سمت جلو و عقب از پرده (velum) و توسط مشخصه مجرای بینی از پرده تا سوراخهای بینی مشخص میشوند. ویژگیهای ضد رزونانس صامتهای خیشومی توسط مشخصه رو به جلوی حفره دهان که از velum شروع میشود تعیین میگردد. از سوی دیگر، ویژگیهای ضد تشدید مصوتهای خیشومی به مشخصه مجرای بینی که از velum شروع میشود، بستگی دارند. شکل زیر نمونه ای از تغییر طیفی ناشی از nasalization مصوتِ /a/ است.
امپدانس انتشار، تمام فرکانسهای تشدید را با یک نرخ ثابت کاهش میدهد، اما پهنای باند آنها را افزایش میدهد. امپدانسِ متناهیِ منبعِ گلوتال، تمام فرکانسهای تشدید و پهنای باند را افزایش میدهد. با این حال، این اثرات برای تشدیدهای فرکانس بالا میتواند نادیده گرفته شود.
2.مدار معادل مکانیزم تولید گفتار:
مطابق شکل زیر، این مدار شامل منبع G(w)، آرتیکولاسیون H(w) و موج گفتار S(w) میباشد بطوریکه منبع از آرتیکولاسیون تفکیک داده شده است. بر این اساس، موج گفتار S(w) از طریق رابطه زیر محاسبه میشود:
S(w) = H(w). G(w)
منبع صدا توسط منبع پالس و منبع نویز سفید تقریب زده میشود و آرتیکولاسیونِ مجرای صوتی با مشخصه فیلترِ مدل تمام قطبی یا مدل قطب صفر نشان داده میشود. مشخصه کلیِ طیفی موج گلوتال در مشخصه فیلترِ مجرای صوتی همراه با مشخصه انتشار (radiation) گنجانده شده است. در نتیجه مشخصه طیفیِ G(w) مسطح (flat) است و H(w) یک فیلتر دیجیتالی با ضرایب متغیر زمانی (متغیر با زمان) است که شامل مشخصه پوشش طیفی منبع (source spectral envelope) و مشخصه انتشار علاوه بر مشخصه فیلتر مجرای صوتی است. از آنجائی که تغییر زمانی شکل مجرای صوتی در حین ادای گفتارِ پیوسته نسبتاً آهسته است، مشخصه انتقالیِ فیلتر دیجیتال با پارامترِ متغیربا زمان را میتوان به عنوان فیلتری که دارای مشخصههای تقریباً ثابت در دورههای کوتاه در نظر گرفت، مانند آنهایی که 10 الی 30 میلی ثانیه طول دارند.
3.مدل انتقالی مجرای صوتی:
از منظر شناسایی ویژگیها بهعنوان یک صدای زبانی، مهمترین زیرفرآیند مکانیزم تولید موج گفتار، آرتیکولاسیون مجرای صوتی است. طول مجرای صوتی بزرگسالان تقریباً 15 الی 17 سانتیمتر است و طول موجِ (λ) موج گفتاری در مجرای صوتی تقریباً 35 سانتی متر و 7 سانتی متر به ترتیب در 1 کیلوهرتز و 5 کیلوهرتز است. علاوه بر این، شعاع معادل مجرای صوتی زمانی که سطح مقطع مجرای صوتی تقریباً یک دایره باشد، کمتر از 2 سانتی متر است. بنابراین، در محدوده فرکانسی کمتر از 4-5 کیلوهرتز، λ/4 بزرگتر از شعاع معادل مجرای صوتی است. بنابراین، مجرای صوتی بهعنوان یک سیستم پارامتر توزیعشده از تیوب آکوستیک یکبعدی که مقطع آن به طور مداوم در حال تغییر است، تحلیل میشود. این بدان معنی است که انتقال موج گفتار را می توان مانند موج صفحه در نظر گرفت. اگرچه مجرای بینی در واقع به عنوان بخشی از مجرای صوتی وجود دارد، اما برای اهداف ساده از بحث حاضر در مورد ویژگی های اصلی دستگاه صوتی حذف شده است. تلفات گرمایی، تلفات ویسکوز و تلفات نشتی که همراه با انتقال امواج صوتی هستند، به اندازهای کوچک هستند که در شرایط عادی نادیده گرفته شوند. بنابراین این تلفات معمولاً در مدلسازی نادیده گرفته می شوند.
1.3.مدل موج پیشرونده: انتقال موج صوت در یک تیوب صوتی یک بعدی بدون تلفات دارای سطح مقطع غیریکنواخت را می توان با دو معادله دیفرانسیل جزئی همزمان نشان داد که شامل معادله تکانه و معادله بقای جرم است:
انتشار موج صوتی در مجرای صوتی را میتوان به طور کامل با نرخ مساحت یا با ضرایب بازتاب معادل توصیف کرد. این مدل را مدل تولید گفتار Kelly مینامند.
2.3.مدل رزونانس: در این مدل، اتصال تطبیق امپدانس (impedance-matching connection) با بخش منبع صدا در نظر گرفته شده است و تلفات در مجرای صوتی تنها به طور معادل توسط موج انتشار به سمت عقب در بخش منبع صدا در نظر گرفته می شود. دیواره مجرای صوتی واقعی کاملاً سفت نیست، اما دارای جرم و مقاومت محدود است. این اثر فرکانس رزونانس و پهنای باند را افزایش میدهد، به خصوص برای فرمانت های مرتبه پایینتر.
3.3.مدل تارهای صوتی: منبع صدای تارهای صوتی از پنج مشخصه فیزیکی اصلی تشکیل شده است:
1) فرکانس بنیادی هم به سرعت و هم به کندی نوسان میکند.
2) تغییرات سرعت حجم در دوره بنیادی (fundamental period) متناسب با تغییرات زمانی تابع ناحیه باز در چاکنای است و میتوان آن را با امواج مثلثی نامتقارن تقریب زد.
3) برای یک صدای قوی، glottal-closed-interval افزایش می یابد و موج مثلثی تیزتر میشود.
4) پوشش طیفی فرکانس موج گلوتال دارای انحراف (inclination) 12- الی 18- db/oct است
5) برهم کنش مجرای صوتی را نمی توان در ناحیه فرکانس زیر 500 هرتز نادیده گرفت و بر شکل موج در شروع ارتعاش تارهای صوتی تأثیر می گذارد.
یک مدل دو جرمی به عنوان یک مدل ارتعاش تارهای صوتی مورد بررسی قرار گرفته است که با موفقیت ارتعاش واقعی تارهای صوتی انسان را بیان می کند. همانطور که در شکل زیر نشان داده شده است، در این مدل، تارهای صوتی به دو قسمت تقسیم میشوند . فرض بر این است که تارهای صوتی به خاطر سادگی فقط در جهت عمودی حرکت می کنند.
نتایج نشان میدهد که نرخ تغییر فرکانس ارتعاش تارهای صوتی با توجه به تغییر فشار سابگلوتال 2 الی 3 هرتز در هر سانتی متر H2O است، و این که فقط کمی تحت تاثیر شکل دستگاه صوتی است. همبستگی قوی بین شکل مجرای صوتی (ویژگیهای تشدید) و شکل موج تارهای صوتی قابل مشاهده است. علاوه بر این، اختلاف فاز بین حالتهای ارتعاش برای قسمتهای بالایی و پایینی تار صوتی بین ۰ تا ۶۰ اینچ است. در نهایت، مدل نشان میدهد که ارتعاش تارهای صوتی را میتوان با فشار ساب گلوتال ، کشش تارهای صوتی، ناحیه باز شدن چاکنای در حالت خنثی و شکل مجرای صوتی تعیین کرد.
مرجع اصلی:Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui