خواندن ۶ دقیقه·۲ سال پیش

مدل‌های تولید گفتار

1.تئوری آکوستیکال تولید گفتار:

مکانیزم تولید موج گفتار را می‌توان به سه مرحله تقسیم‌بندی کرد:

الف) sound source production

ب) articulation by vocal tract

ج) radiation from the lips and/or nostrils

این مراحل را می‌توان با مدارهای معادل الکتریکی بر اساس رابطه بین سیستم‌های الکتریکی و آکوستیکال مشخص کرد. به طور خاص، منابع صدا (sound sources)، یا صدادار (واکه‌دار) هستند یا بدون صدا (بی‌واکه). یک منبع صوتیِ واکه‌دار را می‌توان با یک مولد پالس یا امواج مثلثی نامتقارن که در هر دوره بنیادی تکرار می‌شوند، مدل‌سازی نمود. مقدار پیکِ موج منبع با بلندیِ صدا مرتبط است. از طرف دیگر، یک منبع صدای بی‌واکه را می‌توان با یک مولد نویز سفید مدل‌سازی کرد که انرژی متوسط آن با بلندیِ صدا مرتبط است. آرتیکولاسیون (articulation ) را می‌توان با اتصال آبشاری یا موازی چندین مدار تک‌رزونانس یا ضد تشدید مدل کرد که می‌تواند از طریق یک فیلتر دیجیتال چند مرحله‌ای محقق شود. در نهایت، انتشار (radiation) را می توان به صورت ماحصلِ یک منبع صدای پیستونی که به یک بافل صفحه بی‌نهایت متصل است، مدل کرد. امپدانس انتشار با یک مدار آبشاری L-r نشان داده می‌شود، که در آن r اتلاف انرژی از طریق انتشار است.

فرآیند تولید گفتار را می‌توان با ترکیب این مدارهای معادل الکتریکی همانطور که در شکل زیر نشان داده شده است، مشخص کرد. دقت شود که ویژگی‌های تشدید (رزونانس) فقط به شکل مجرای صوتی بستگی دارد و نه به محل منبع صدا در طول تولید هر دو نوع مصوت و صامت. برعکس، ویژگی‌های ضد رزونانس (ضدتشدید) در طول تولید نوع صامت در درجه اول به ویژگی‌های ضد رزونانس مجرای صوتی بین گلوت و موقعیت منبع صدا بستگی دارد. اثرات تشدید و ضد تشدید معمولاً در محدوده فرکانس پایین خنثی می‌شوند.

ویژگی‌های رزونانس برای مجرای صوتی منشعب، مانند آنهایی که برای تولید، از نوع خیشومی یعنی nasal-type production هستند، توسط مشخصه حفره دهانی به سمت جلو و عقب از پرده (velum) و توسط مشخصه مجرای بینی از پرده تا سوراخ‌های بینی مشخص می‌شوند. ویژگی‌های ضد رزونانس صامت‌های خیشومی توسط مشخصه رو به جلوی حفره دهان که از velum شروع می‌شود تعیین می‌گردد. از سوی دیگر، ویژگی‌های ضد تشدید مصوت‌های خیشومی به مشخصه مجرای بینی که از velum شروع می‌شود، بستگی دارند. شکل زیر نمونه ای از تغییر طیفی ناشی از nasalization مصوتِ /a/ است.

امپدانس انتشار، تمام فرکانس‌های تشدید را با یک نرخ ثابت کاهش می‌دهد، اما پهنای باند آنها را افزایش می‌دهد. امپدانسِ متناهیِ منبعِ گلوتال، تمام فرکانس‌های تشدید و پهنای باند را افزایش می‌دهد. با این حال، این اثرات برای تشدیدهای فرکانس بالا می‌تواند نادیده گرفته شود.

2.مدار معادل مکانیزم تولید گفتار:

مطابق شکل زیر، این مدار شامل منبع G(w)، آرتیکولاسیون H(w) و موج گفتار S(w) می‌باشد بطوریکه منبع از آرتیکولاسیون تفکیک داده شده است. بر این اساس، موج گفتار S(w) از طریق رابطه زیر محاسبه می‌شود:

S(w) = H(w). G(w)

منبع صدا توسط منبع پالس و منبع نویز سفید تقریب زده می‌شود و آرتیکولاسیونِ مجرای صوتی با مشخصه فیلترِ مدل تمام قطبی یا مدل قطب صفر نشان داده می‌شود. مشخصه کلیِ طیفی موج گلوتال در مشخصه فیلترِ مجرای صوتی همراه با مشخصه انتشار (radiation) گنجانده شده است. در نتیجه مشخصه طیفیِ G(w) مسطح (flat) است و H(w) یک فیلتر دیجیتالی با ضرایب متغیر زمانی (متغیر با زمان) است که شامل مشخصه پوشش طیفی منبع (source spectral envelope) و مشخصه انتشار علاوه بر مشخصه فیلتر مجرای صوتی است. از آنجائی که تغییر زمانی شکل مجرای صوتی در حین ادای گفتارِ پیوسته نسبتاً آهسته است، مشخصه انتقالیِ فیلتر دیجیتال با پارامترِ متغیربا زمان را میتوان به عنوان فیلتری که دارای مشخصه‌های تقریباً ثابت در دوره‌های کوتاه در نظر گرفت، مانند آنهایی که 10 الی 30 میلی ثانیه طول دارند.

3.مدل انتقالی مجرای صوتی:

از منظر شناسایی ویژگی‌ها به‌عنوان یک صدای زبانی، مهم‌ترین زیرفرآیند مکانیزم تولید موج گفتار، آرتیکولاسیون مجرای صوتی است. طول مجرای صوتی بزرگسالان تقریباً 15 الی 17 سانتی‌متر است و طول موجِ (λ) موج گفتاری در مجرای صوتی تقریباً 35 سانتی متر و 7 سانتی متر به ترتیب در 1 کیلوهرتز و 5 کیلوهرتز است. علاوه بر این، شعاع معادل مجرای صوتی زمانی که سطح مقطع مجرای صوتی تقریباً یک دایره باشد، کمتر از 2 سانتی متر است. بنابراین، در محدوده فرکانسی کمتر از 4-5 کیلوهرتز، λ/4 بزرگتر از شعاع معادل مجرای صوتی است. بنابراین، مجرای صوتی به‌عنوان یک سیستم پارامتر توزیع‌شده از تیوب آکوستیک یک‌بعدی که مقطع آن به طور مداوم در حال تغییر است، تحلیل می‌شود. این بدان معنی است که انتقال موج گفتار را می توان مانند موج صفحه در نظر گرفت. اگرچه مجرای بینی در واقع به عنوان بخشی از مجرای صوتی وجود دارد، اما برای اهداف ساده از بحث حاضر در مورد ویژگی های اصلی دستگاه صوتی حذف شده است. تلفات گرمایی، تلفات ویسکوز و تلفات نشتی که همراه با انتقال امواج صوتی هستند، به اندازه‌ای کوچک هستند که در شرایط عادی نادیده گرفته شوند. بنابراین این تلفات معمولاً در مدلسازی نادیده گرفته می شوند.

1.3.مدل موج پیشرونده: انتقال موج صوت در یک تیوب صوتی یک بعدی بدون تلفات دارای سطح مقطع غیریکنواخت را می توان با دو معادله دیفرانسیل جزئی همزمان نشان داد که شامل معادله تکانه و معادله بقای جرم است:

انتشار موج صوتی در مجرای صوتی را می‌توان به طور کامل با نرخ مساحت یا با ضرایب بازتاب معادل توصیف کرد. این مدل را مدل تولید گفتار Kelly می‌نامند.

2.3.مدل رزونانس: در این مدل، اتصال تطبیق امپدانس (impedance-matching connection) با بخش منبع صدا در نظر گرفته شده است و تلفات در مجرای صوتی تنها به طور معادل توسط موج انتشار به سمت عقب در بخش منبع صدا در نظر گرفته می شود. دیواره مجرای صوتی واقعی کاملاً سفت نیست، اما دارای جرم و مقاومت محدود است. این اثر فرکانس رزونانس و پهنای باند را افزایش می‌دهد، به خصوص برای فرمانت های مرتبه پایین‌تر.

3.3.مدل تارهای صوتی: منبع صدای تارهای صوتی از پنج مشخصه فیزیکی اصلی تشکیل شده است:

1) فرکانس بنیادی هم به سرعت و هم به کندی نوسان می‌کند.

2) تغییرات سرعت حجم در دوره بنیادی (fundamental period) متناسب با تغییرات زمانی تابع ناحیه باز در چاکنای است و می‌توان آن را با امواج مثلثی نامتقارن تقریب زد.

3) برای یک صدای قوی، glottal-closed-interval افزایش می یابد و موج مثلثی تیزتر می‌شود.

4) پوشش طیفی فرکانس موج گلوتال دارای انحراف (inclination) 12- الی 18- db/oct است

5) برهم کنش مجرای صوتی را نمی توان در ناحیه فرکانس زیر 500 هرتز نادیده گرفت و بر شکل موج در شروع ارتعاش تارهای صوتی تأثیر می گذارد.

یک مدل دو جرمی به عنوان یک مدل ارتعاش تارهای صوتی مورد بررسی قرار گرفته است که با موفقیت ارتعاش واقعی تارهای صوتی انسان را بیان می کند. همانطور که در شکل زیر نشان داده شده است، در این مدل، تارهای صوتی به دو قسمت تقسیم می‌شوند . فرض بر این است که تارهای صوتی به خاطر سادگی فقط در جهت عمودی حرکت می کنند.

نتایج نشان می‌دهد که نرخ تغییر فرکانس ارتعاش تارهای صوتی با توجه به تغییر فشار ساب‌گلوتال 2 الی 3 هرتز در هر سانتی متر H2O است، و این که فقط کمی تحت تاثیر شکل دستگاه صوتی است. همبستگی قوی بین شکل مجرای صوتی (ویژگی‌های تشدید) و شکل موج تارهای صوتی قابل مشاهده است. علاوه بر این، اختلاف فاز بین حالت‌های ارتعاش برای قسمت‌های بالایی و پایینی تار صوتی بین ۰ تا ۶۰ اینچ است. در نهایت، مدل نشان می‌دهد که ارتعاش تارهای صوتی را می‌توان با فشار ساب گلوتال ، کشش تارهای صوتی، ناحیه باز شدن چاکنای در حالت خنثی و شکل مجرای صوتی تعیین کرد.

مرجع اصلی:Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui