آرمان پرناک
آرمان پرناک
خواندن ۲۵ دقیقه·۶ ماه پیش

سنتز گفتار

اصول سنتز گفتار:

سنتز گفتار فرآیندی است که به طور مصنوعی گفتار را برای کاربردهای مختلف تولید می کند و وابستگی به استفاده از صدای ضبط شده فرد را کاهش می دهد. روش‌های سنتز گفتار، ماشین را قادر می‌سازد تا دستورالعمل‌ها یا اطلاعات را از طریق «صحبت کردن» به کاربر منتقل کند. این برنامه‌ها شامل سرویس ارائه اطلاعات از طریق تلفن، نظیر خدمات بانکی و خدمات دایرکتوری، خدمات مختلف رزرو، اعلامیه‌های عمومی، ایستگاه های قطار، خواندن نسخه‌های خطی برای جمع‌بندی، خواندن ایمیل‌ها، فکس‌ها و صفحات وب از طریق تلفن، خروجی صدا در سیستم‌های ترجمه خودکار، و تجهیزات ویژه برای افراد معلول، مانند واژه‌پرداز با قابلیت خواندن و کتاب‌خوانی برای نابینایان.

پیشرفت در فناوری LSI/کامپیوتر و تکنیک های LPC به طور جمعی به پیشرفت تحقیقات سنتز گفتار کمک کرده است. علاوه بر این، خدمات تامین اطلاعات در حال حاضر در طیف وسیع تری از زمینه های کاربردی در دسترس است. تحقیق سنتز گفتار ارتباط نزدیکی با تحقیق در استخراج واحدهای اساسی اطلاعاتی حمل شونده در امواج گفتار و مکانیسم تولید گفتار دارد.

فناوری پاسخ صوتی که برای انتقال پیام از طریق گفتار سنتزشده طراحی شده است چندین مزیت برای انتقال اطلاعات دارد:

الف) هر کسی می تواند به راحتی پیام را بدون فعالیت یا تمرکز شدیدی درک کند ب) پیام را می توان حتی زمانی که شنونده درگیر فعالیت های دیگری مانند راه رفتن، دست زدن به یک شی یا نگاه کردن به چیزی است دریافت کرد ج) از شبکه تلفن معمولی می توان برای دسترسی آسان و از راه دور به اطلاعات استفاده کرد د)این شکل از پیام در اصل یک فرم ارتباطی بدون کاغذ است.

گفته می شود که اولین synthesizer گفتار در سال 1779ساخته شده است. شکل زیر ساختار یک synthesizer گفتار مکانیکی را نشان می دهد که در سال 1791 ساخته شد. این synthesizer ، که قادر به تولید هم مصوت و هم صامت است، برای شبیه سازی ارگان هایarticulatory انسان در نظر گرفته شده بود. صداهایی که از ارتعاش نی‌ها نشات می‌گیرند، توسط رزونانس یک لوله چرمی تعدیل شده و به صورت موج گفتاری تابش می‌شوند. صداهای اصطکاکی از طریق سوت های «S» و «SH» تولید می شد. ظاهراً این synthesizer قادر به تولید کلمات متشکل از 19 صامت و 5 مصوت بوده است. البته، synthesizer های گفتار با ساختار مکانیکی اولیه، نمی توانستند گفتار سنتز شده با کیفیت بالا تولید کنند، زیرا تغییر مداوم و سریع شکل دستگاه صوتی دشوار بود.

اولین synthesizer با ساختار الکتریکی در سال 1922 توسط جی کیو استوارت ساخته شد. با تنظیم دقیق مدارها، مصوت های پایدار می توانستند توسط این synthesizer تولید شوند.

اولین synthesizer که در واقع موفق به تولید گفتار پیوسته شد، voder بود که توسط اچ.دادلی در سال 1939 ساخته شد. این synthesizer به ترتیب با کنترل دوره اصلی و ویژگی های فیلتر میانگذر با استفاده از پدال پا و 10 کلید انگشت، گفتار پیوسته را تولید کرد. Voder، به عنوان نمونه اولیه سنتز کننده گفتار برای Vocoder ، به یک بلوک پایه اصلی برای تحقیقات اخیر سنتز گفتار تبدیل شد. ساختار voder، بر اساس مدل مدار معادل قابل جداسازی خطی، هنوز در synthesizer گفتار فعلی استفاده می شود.

روش های سنتز گفتار فعلی را می توان به سه نوع تقسیم کرد:

الف)سنتز بر اساس کدگذاری شکل موج، که در آن از امواج گفتاری صدای ضبط شده انسان که پس از کدگذاری شکل موج یا بلافاصله پس از ضبط ذخیره می شود برای تولید پیام های مورد نظر استفاده می شود. ب)سنتز بر اساس روش آنالیز-سنتز، که در آن امواج گفتاری صدای ضبط شده انسان با روش آنالیز-سنتز به دنباله های پارامتر تبدیل می شود و ذخیره می شود، همراه با یک synthesizer گفتار که توسط پارامترهای به هم پیوسته (concatenated) برای تولید پیام هدایت می شود. ج)سنتز بوسیله قاعده ،که در آن گفتار بر اساس قواعد آوایی و زبانی از دنباله حروف یا دنباله نمادهای واجی و ویژگی های prosodic تولید می شود.

اصول این سه روش و مقایسه ویژگی های آنها به ترتیب در شکل زیر و جدول زیر ارائه شده است.



سیستم‌های سنتز مبتنی بر روش کدینگِ شکل موج، ساده هستند و گفتار با کیفیت بالایی ارائه می‌کنند، اما versatility پایینی نیز از خود نشان می‌دهند، یعنی پیام‌ها فقط به شکل ضبط شده قابل استفاده هستند. از سوی دیگر، سیستم‌های سنتز بر اساس قاعده، از versatility بالایی برخوردارند، اما از طرف دیگر بسیار پیچیده و هنوز کیفیت محدودی دارند. در موارد عملی، انتخاب مناسب ترین روش برای اهداف با در نظر گرفتن عملکرد و ویژگی های هر روش مطلوب است.


سنتز مبتنی بر کدینگِ شکل موج:

همانطور که گفته شد سنتز بر اساس کدگذاری شکل موج روشی است که به وسیله آن واحدهای سگمنتالِ کوتاه از صدای انسان، معمولاً کلمات یا عبارات، ذخیره می‌شوند و با انتخاب و اتصال واحدهای مناسب، گفتار جمله مورد نظر سنتز می‌شود. در این روش، کیفیت گفتار جمله سنتز شده به طور کلی تحت تأثیر کیفیت تداوم (پیوستگی) ویژگی‌های آکوستیکی در اتصالات بین واحدها قرار می‌گیرد. ویژگی‌های آکوستیکی شامل پوشش طیفی (spectral envelope )، دامنه (amplitude )، فرکانس پایه(fundamental frequency) و نرخ صحبت (speaking rate) است. اگر واحدهای بزرگی مانند عبارات یا جملات ذخیره و استفاده شوند، کیفیت (واضح، قابل فهم و طبیعی بودن) گفتار ترکیب شده بهتر است، اگرچه تنوع کلمات یا جملات قابل ترکیب محدود است. از سوی دیگر، هنگامی که از واحدهای کوچک مانند هجاها یا واج ها استفاده می شود، طیف گسترده ای از کلمات و جملات را می توان سنتز کرد اما کیفیت گفتار تا حد زیادی کاهش می یابد.
(یادآوری: آکوستیک به صدایی گفته می شود که توسط منابع طبیعی مانند سازها یا صدای انسان تولید می شود و از طریق هوا به گوش می رسد. همچنین می تواند به ویژگی های صدا در حین حرکت در یک فضا، مانند reverberation و absorption اشاره کند).

در سیستم‌های عملی که معمولاً در حال حاضر در دسترس هستند، کلمات و عبارات ذخیره می‌شوند و کلمات درج می‌شوند یا با عباراتی مرتبط می‌شوند تا یک گفتار جمله دلخواه را تولید کنند. از آنجایی که الگوی pitch هر کلمه با توجه به موقعیت آن در جملات مختلف تغییر می کند، لازم است تغییراتی از همان کلمات با inflectionهای صعودی، مسطح، و نزولی ذخیره شود. inflectionانتخاب شده همچنین به این بستگی دارد که آیا جمله بیانگر سؤال، گزاره یا تعجب است.
دو مشکل عمده در به هم پیوستن کلمات برای تولید جملات وجود دارد (کلات، 1987). اولاً یک جمله گفتاری، با توالی کلماتی که به صورت مجزا بیان می شود بسیار متفاوت است. در یک جمله، کلمات زمانی که به صورت مجزا گفته می شوند به اندازه ی نصف مدت زمانشان کوتاه هستند و باعث می شود که گفتار پیوسته کُند به نظر برسد. ثانیاً، الگوی تکیه جمله (sentence stress pattern )، ریتم و آهنگ (intonation )، که وابسته به عوامل نحوی و معنایی هستند، هنگامی که کلمات به سادگی به هم متصل می شوند، حتی اگر چندین گونه از یک کلمه ذخیره شده باشند، به طور مخرب غیرطبیعی هستند.

به منظور حل چنین مشکلاتی، اخیراً از روش‌های سنتز الحاق واحدهای واجی (روش هایی که واج ها را به هم concatenate میکنند) به طور گسترده استفاده شده است. تسریع پردازش کامپیوتری و کاهش قیمت حافظه باعث پیشرفت این روش ها شده است. در این روش‌ها تعداد زیادی واحدهای واجی یا زیرواج‌ها (کوتاه‌تر از واج‌ها) مربوط به آلوفون‌ها (allophones) و تغییرات pitch ذخیره می‌شوند و مناسب‌ترین واحدها بر اساس قوانین و معیارهای ارزیابی انتخاب می‌شوند و برای سنتز گفتار به هم متصل می‌شوند. روش‌های متعددی برای همپوشانی و اضافه کردن امواج گفتار با طول pitch (pitch-length speech waves) با توجه به دوره pitch سنتز گفتار و روش‌های مختلف کنترل ویژگی‌های prosodic توسط تکرارکردن یا نازک کردن شکل موج‌های pitch ایجاد شده‌اند. این روش ها می توانند جملات نامحدود را حتی اگر واحدها توسط شکل موج گفتار ذخیره می شوند، سنتز کنند. نمونه‌های معمولی روش‌ها عبارتند از TD-PSOLA و HNM که در ادامه توضیح داده شده‌اند.

به منظور کاهش نیاز به اندازه حافظه، واحدها گاهی اوقات با روش های کدگذاری شکل موج مانند ADPCM به جای ذخیره سازی ساده با امواج گفتاری آنالوگ یا دیجیتال فشرده می شوند. سنتز برگرفته از روش آنالیز - سنتز، شکل پیشرفته ای از این روش از نظر کاهش اطلاعات و کنترل پذیری آن محسوب میشود.

روش TD-PSOLA: این روش که مخفف Time Domain Pitch Synchronous OverLap Add و مربوط به سال 1990 است، یکی از محبوب‌ترین روش‌های الحاق شکل موج pitch-synchronous است. این روش بر مدل تولید گفتار توصیف شده توسط چارچوب سینوسی متکی است. بخش "آنالیز" شامل استخراج سیگنال های تحلیل کوتاه مدت توسط ضرب شکل موج گفتار در دنباله ای از پنجره های انالیزِ ترجمه شده با زمان است. پنجره های آنالیز در اطراف لحظه های بسته شدن گلوتال قرار دارند و طول آنها متناسب با local pitch period است. در طول فریم های unvoiced، لحظه های زمانی تحلیل با یک نرخ ثابت تنظیم می شوند. در طول فرآیند "سنتز"، یک نگاشت بین لحظه های زمانی سنتز و لحظه های زمانی آنالیز با توجه به اصلاحات prosodic مورد نظر تعیین می شود. این فرآیند مشخص می‌کند که کدام یک از سیگنال‌های تحلیل کوتاه مدت حذف یا تکرار شوند تا سیگنالِ synthetic نهایی تشکیل شود.

روشHNM : این روش مخفف Harmonic Plus Noise Model و مربوط به سال 1993 است. این روش بر اساس یک بازنماییِ pitch-synchronous harmonic-plus-noise سیگنال گفتار است. این طیف به دو باند تقسیم می‌شود که باند پایین فقط توسط امواج سینوسی که به صورت هارمونیک نمایش داده می‌شوند با دامنه‌ها و فرکانس‌های آهسته متفاوت نشان داده می‌شوند. محتوای فرکانس باند بالا توسط یک مدل AR متغیر با زمان مدل‌سازی می‌شود. ساختار حوزه زمان آن با یک تابع energy-envelope خطی piecewise نشان داده می شود. یک پارامتر متغیر با زمان که به عنوان حداکثر فرکانس صدا شناخته می شود، حد بین دو باند را تعیین می کند. در طول فریم های unvoiced، حداکثر فرکانس صدا بر روی صفر تنظیم می شود. در زمان سنتز، فریم‌های HNM به هم متصل می‌شوند و prosody ِ واحدها با توجه به prosody مدنظر تغییر می‌یابد.


سنتز مبتنی بر آنالیز-سنتز:

در سنتز به روش آنالیز-سنتز، کلمات یا عبارات گفتار انسان بر اساس مدل تولید گفتار آنالیز شده و به عنوان توالی زمانی پارامترهای ویژگی ذخیره می‌شوند. دنباله پارامترهای واحدهای مناسب متصل میشوند و به یک synthesizer گفتار داده می شوند تا پیام گفتاری مورد نظر را تولید کنند. از آنجایی که واحدها توسط پارامترهای پوشش طیفی و منبع ذخیره می شوند، مقدار اطلاعات بسیار کمتر از روش قبلیِ ذخیره‌سازی با شکل موج است، اگرچه طبیعی بودن گفتار سنتز شده اندکی کاهش می یابد. علاوه بر این، این روش از این جهت سودمند است که با کنترل پارامترها می توان تغییر نرخ صحبت و smoothسازی pitch و تغییرات طیفی در اتصالات را انجام داد. برای این منظور از Vocoderهای کانالی و synthesizerهای گفتار مبتنی بر روش های آنالیز LPC مانند روش های LSP و PARCOR و یا روش های آنالیز کپسترال استفاده می شود.

سنتز گفتار مبتنی بر واج همچنین می تواند با روش آنالیز - سنتز پیاده سازی شود که در آن توالی برداری پارامتر ویژگی هر allophone توسط یک مدل ذخیره یا تولید می شود. اخیراً روشی با استفاده از HMM (مدل‌های مارکوف پنهان) برای مدل‌سازی فرآیند تولید پارامتر ویژگی برای هر آلوفون توسعه یافته است. در این روش، یک توالی بردار پارامتری متشکل از cepstra و delta-cepstra برای یک جمله مورد نظر به طور خودکار توسط الحاق HMM های آلوفون بر اساس معیار حداکثرسازی احتمال تولید می شود. از آنجایی که delta-cepstra در فرآیند به حداکثر رساندن احتمال در نظر گرفته می شود، یک توالی پارامتر نرم (smooth) به دست می آید.


سنتز مبتنی بر مکانیزم تولید گفتار:

دو روش قادر به تولید گفتار با تکثیر الکتروآکوستیک مکانیزم تولید گفتار هستند؛روش vocal tract analog است که انتشار موج صوتی را در مجرای صوتی شبیه‌سازی می کند و روش دیگر terminal analog است که ساختار طیف فرکانس را شبیه‌سازی می‌کند، یعنی ویژگی‌های تشدید و ضد تشدید، که در نتیجه articulation را بازتولید می‌کند. اگرچه در سال‌های اولیه، این روش‌ها با پردازش آنالوگ با استفاده از رایانه‌های آنالوگ یا مدارهای رزونانس متغیر محقق می‌شدند، اکثر سیستم‌های اخیر به دلیل پیشرفت در مدارها و رایانه‌های دیجیتال و سهولت کنترل از پردازش دیجیتال استفاده می‌کنند.

(یادآوری: Articulation، به مکانیک تولید گفتار اشاره دارد و شامل حرکت و تنظیم اندام های گفتاری نظیر لب ها، زبان، گونه ها،و فک حنجره برای تولید یک صدا یا واج خاص است. واج یک حرکت مفصلی خاص است، مانند تشکیل مصوت [i] یا صامت [b] ).

روش vocal tract analog: مجرای صوتی توسط یک اتصال آبشاری از tubeهای مستقیم با سطوح مقطع مختلف، که هر یک دارای یک طول کوتاه است، نشان داده می شود. امواج صوتی در tubeها به امواج رو به جلو و عقب تقسیم می شوند. انتشار موج صوتی (Acoustic wave propagation) در مجرای صوتی با ادغام بازتاب (reflection ) و نفوذِ (penetration ) امواج رو به جلو و عقب در هر مرز بین tubeهای مجاور نشان داده می شود. مقدار بازتاب و نفوذ در مرز توسط ضریب بازتاب تعیین می شود که میزان عدم تطابق در امپدانس صوتی را نشان می دهد. synthesizerگفتار مبتنی بر روش آنالوگ مجرای صوتی به ویژه در سنتز صداهای گذار (transitional ) مانند صامت ها مؤثر است، زیرا می تواند دقیقاً نحوه ی دینامیکیِ articulation در مجرای صوتی را شبیه سازی کند. علاوه بر این، این روش به راحتی با اطلاعات آوایی منتقل شده توسط موج گفتار مرتبط است. با این حال، گفتار سنتز شده با کیفیت بالا هنوز به دست نیامده است، زیرا حرکت اندام های articulatoryبه اندازه کافی برای ارائه قوانین کنترل مناسب روشن نشده است.

روش terminal analog: این روش، مکانیسم تولید گفتار را با استفاده از یک ساختار الکتریکی متشکل از اتصال آبشاری یا موازی چندین مدار تشدید (فرمانت) و ضدتشدید(ضد فرمانت) شبیه‌سازی می‌کند. فرکانس تشدید یا ضدتشدید و پهنای باند هر مدار متغیر است. این روش را روش سنتز نوع فرمانت نیز می نامند. اتصال آبشاری مدارهای تشدید و ضد تشدید از این جهت سودمند است که نسبت‌های دامنه متقابل بین فرمانت‌ها و آنتی‌فرمانت‌ها به طور خودکار تعیین می‌شوند. این امکان پذیر است زیرا ویژگی های انتقال دستگاه صوتی را می توان مستقیماً با این روش نشان داد. از سوی دیگر، اتصال موازی از این جهت سودمند است که شکل طیفی نهایی را می‌توان دقیقاً شبیه‌سازی کرد. چنین شبیه‌سازی دقیقی با این واقعیت امکان‌پذیر می‌شود که دامنه هر فرمانت و آنتی‌فرمانت را می‌توان به طور مستقل نشان داد، حتی اگر این روش مستقیماً ویژگی‌های انتقال دستگاه صوتی را نشان ندهد. بنابراین، اتصال آبشاری برای گفتار مصوت با ساختار طیفی واضح مناسب است و اتصال موازی برای صداهای بینی و اصطکاکی که دارای چنان ساختار طیفی پیچیده‌ای هستند که ساختار قطب و صفر آنها را نمی‌توان به راحتی استخراج کرد، بهتر است.


سنتز بر اساس قاعده

-اصول سنتز بر اساس قاعده:

سنتز با قاعده روشی برای تولید هر کلمه یا جمله ای است که بر اساس دنباله ای از نمادهای آوایی/هجایی یا حروف است. در این روش، پارامترهای ویژگی برای واحدهای کوچک اساسی گفتار مانند هجاها، واج ها یا گفتار one-pitch-period ذخیره شده و توسط قوانینی به هم متصل می شوند. در عین حال، ویژگی‌های prosodic مانند pitch و دامنه نیز توسط قوانین کنترل می‌شوند. کیفیت واحدهای اساسی برای سنتز و همچنین قوانین کنترل (اطلاعات کنترل و مکانیسم های کنترل) برای پارامترهای صوتی نقش بسیار مهمی در این روش ایفا می کنند و آنها باید بر اساس ویژگی های آوایی و زبانی گفتار طبیعی باشند. علاوه بر این، برای تولید گفتار طبیعی و متمایز، انتقال‌های زمانی pitch، استرس (stress) و طیف باید نرم ( smooth) باشند و سایر ویژگی‌ها مانند مکان‌های مکث و مدت زمان باید مناسب باشند.
آنالوگ مجرای صوتی، آنالوگ ترمینال و synthesizerهای گفتار LPC به طور گسترده برای تولید گفتار استفاده می شد. روش های مبتنی بر شکل موج اخیراً بسیار محبوب شده اند. پارامترهای ویژگی برای واحدهای اساسی از گفتار طبیعی استخراج می شوند یا به طور مصنوعی ایجاد می شوند. هنگامی که واج ها به عنوان واحدهای اساسی برای تولید گفتار در نظر گرفته می شوند، ظرفیت حافظه می تواند بسیار کاهش یابد، زیرا تعداد واج ها معمولاً بین 30 تا 50 است. با این حال، قوانین اتصال واج ها به قدری پیچیده است که دست یافتن به گفتاری با کیفیت بالا دشوار است. بنابراین، واحدهای بزرگتر از واج یا واحدهای آلوفون (context-dependent phoneme) اغلب مورد استفاده قرار می گیرند. در مورد دوم، هزاران یا ده ها هزار واحد برای سنتز گفتار با کیفیت بالا لازم است.

برای زبان ژاپنی، 100 هجا CV (C یک صامت است، V یک مصوت است) مربوط به نمادها در هجای ژاپنی "Kana" اغلب به عنوان این واحدها استفاده می شود. واحدهای CVC نیز برای به دست آوردن گفتار با کیفیت بالا به کار گرفته شده اند. تعداد هجاهای CVC که در ژاپنی ظاهر می شوند بسیار زیاد است، چیزی بین 5000 تا 6000. بنابراین، ترکیبی از تقریباً 1000 هجا CVC که اغلب در ژاپنی ظاهر می شوند همراه با تقریباً 200 هجا CV/VC برای ترکیب جملات ژاپنی استفاده شده است. ترکیبی از بین 700 تا 800 واحد VCV نیز تلاش شده است.

در مقابل، زبان انگلیسی دارای بیش از 3500 هجا است که با در نظر گرفتن آلوفون ها (تغییرهای آوایی) به 10000 هجا می رسد. بنابراین، هجاها معمولاً به واحدهای کوچکتر، مانند dyad، diphone (هر دو تقریباً 400 تا 1000 واحد دارند)، یا نیم‌هجاها (تقریباً 1000) تجزیه می شوند. این واحدها اساساً از واج های منفرد و انتقال (transition) بین واج های همسایه تشکیل شده اند. اگرچه نیم‌هجاها کمی بزرگتر از دو واحد دیگر هستند، اما همه واحدها به گونه ای ساخته شده اند که ممکن است با استفاده از قوانین ساده به هم متصل شوند.

در سیستم های مبتنی بر واج، سنتز با انتخاب اهداف برای هر پارامتر کنترل برای هر بخش آوایی آغاز می شود. گاهی اوقات اهداف با قوانینی اصلاح می شوند که ویژگی های بخش های همسایه را در نظر می گیرند. سپس انتقال بین اهداف بر اساس قوانینی محاسبه می‌شود که در پیچیدگی از نرمسازی (smoothing) ساده تا اجرای نسبتاً پیچیده تئوری مکان‌ها متغیر است. بیشتر تعاملات نرمسازی شامل بخش‌هایی در مجاورت یکدیگر است، اما قوانین همچنین اثرات متقابل articulatory/آکوستیکی را ارائه می‌کنند که بیش از بخش مجاور را شامل می‌شود. از آنجایی که ساختن این قوانین هنوز بسیار دشوار است، روش‌های سنتز که واحدهای واجی وابسته به زمینه (context-dependent phoneme units) را به هم متصل می‌کنند، اکنون به طور گسترده مورد استفاده قرار می‌گیرند.

پارامترهای کنترل برای آهنگ صدا (intonation)، لهجه(accent)، استرس، مکث (pause) و مدت زمان به صورت دستی وارد سیستم می‌شدند تا گفتار جمله‌ای با کیفیت بالا سنتز شود. با این حال، به دلیل دشواری وارد کردن این پارامترها، تبدیل متن به گفتار، که در آن این پارامترهای کنترلی به طور خودکار بر اساس ترتیب حروف (توالی حروف) تولید می شوند، معرفی شده است. این سیستم می تواند توانایی انسان را در خواندنِ متونِ نوشتاری، یعنی تبدیل متن نامحدود به گفتار بفهمد. این اساساً هدف نهایی سنتز گفتار است. با این حال، ساختن چنین سیستم تبدیل متن به گفتار، نیاز به روشن شدن چگونگی درک جملات توسط افراد با استفاده از دانش نحو و معناشناسی دارد. برای اینکه کاملاً مؤثر باشد، این فرآیند درک باید سپس به برنامه های رایانه ای تبدیل شود.

-کنترل ویژگی های prosodic:

در ویژگی های نوای گفتار (prosodic)، intonation و accent بیشترین اهمیت را در بهبود کیفیت گفتار سنتز دارند.

فرکانس پایه، بلندی صدا و مدت زمان به این ویژگی ها مربوط می شوند. در دوره ی گفتار بین مکث ها، یعنی مدت زمان (دوره ی ) گفته با یک نفس، فرکانس گام ( pitch ) معمولاً در شروع زیاد است و به دلیل کاهش فشار ساب‌گلوتال به تدریج به سمت پایان کاهش می یابد. این ویژگی مولفه آهنگ صدای پایه (basic intonation component) نامیده می شود. الگوی pitch ِ هر جمله، با افزودن مولفه های لهجه یِ الگوی pitch به مولفه آهنگ صدای پایه تولید می شود. مولفه های لهجه بر اساس جایگاه لهجه (آکسان) برای هر کلمه یا هجا تعیین می شود.
(یادآوری1: در زبان‌شناسی، لهجه یا آکسان به گونه‌ای از طرز تلفظ‌های ویژه یک گروه زبانی گویند. لهجه‌ها معمولاً با مناطق جغرافیایی ویژه ارتباط دارند. اگر مجموعه تلفظ‌های دو دسته از گویشوران یک زبان به گونه‌ای باشد که همدیگر را نسبتاً آسان بفهمند صحبت از لهجه می‌کنیم و اگر تفاوت‌های تلفظی یا دستوری به‌گونه‌ای باشد که درک متقابل با ایرادات و دشواری‌هایی روبرو باشد از گویش (dialect) صحبت می‌کنیم).

(یادآوری2:

یک Clause (جمله‌واره) گروهی از کلمات‌اند که شامل یک فاعل و یک فعل می‌شوند. یک جمله‌واره یا بند ممکن است بخشی از یک جمله و یا به تنهایی یک جمله باشند.

یک Phrase (گروه) از کنار هم قرار گرفتن چند تا کلمه در کنار هم درست میشود. این کلمات می‌توانند با هم در یک گروه باشند، اما بدون فاعل یا یک فعل.

جملات ساده (Simple Sentences) در زبان انگلیسی به جملاتی گفته میشوند که حداقل یک فاعل و یک فعل داشته باشند و معنی کاملی را برسانند.)

شکل زیر نمونه‌ای از مکانیزم تولید الگوی pitch را برای جمله گفتاری ژاپنی نشان می‌دهد که در آن الگوی pitch با برهم نهی (superposition ) اجزای عبارت (phrase components ) و اجزای آکسان (لهجه) بیان می‌شود. مولفه‌ی لهجه برای هر عبارت در نهایت با توجه به روابط نحوی (syntactic) موجود بین عبارات تعیین می شود.

در یک سیستم سنتز گفتار موفق برای انگلیسی، الگویpitch بر حسب تکانه‌ها (impulses ) و دستورات مرحله‌ای که به یک فیلتر نرمسازی خطی داده می‌شود، مدل‌سازی می‌شود. مطابق با " hat theory " آهنگ صدا (intonation)، یک صعود پله ای در نزدیکی شروع اولین stressed vowel (مصوت تکیه دار) قرار می گیرد. یک سقوط پله ای در نزدیکی شروع مصوتِ تکیه‌دار نهایی قرار میگیرد. این بالا و پایین رفتن باعث ایجاد واحدهای نحوی می شود. تکیه همچنین در این سیستمِ قاعده با ایجاد یک افزایش موضعی اضافی بر روی مصوت تکیه‌دار با استفاده از دستورات تکانه‌ای یا ضربه‌ای (impulse) آشکار می شود. مقدار افزایش برای اولین مصوت تکیه‌دارِ یک واحد نحوی، بیشترین و پس از آن ،کوچکتر است. در نهایت، اثرات محلی کوچکِ بخش‌های آوایی با دستورات موقعیت‌یابی برای شبیه‌سازی افزایش صامت‌های بی‌صدا (voiceless) و مصوت‌های بالا(بلند) اضافه می‌شود. یک خط انحراف تدریجی (the basic intonation component) نیز در ورودی های فیلتر smoothing گنجانده شده است.

شکل زیر، سه الگوی intonation معمولی clause-final را نشان می‌دهد

شکل زیر، نمونه ای از یک pitch "الگوی کلاه" بلند و پایین بین لبه و بالای کلاه برای یک جمله دو بندی (two-clause sentence) است.

نمونه ای از commandهای پله ای و ضربه ای (step and impulsive commands) برای جمله انگلیسی ذکر شده، و همچنین الگوی pitch تولید شده توسط این دستورات و قوانین، در شکل زیر آورده شده است.

کنترل مدت زمان (duration control) برای هر واج نیز یک مسئله مهم در ترکیب گفتار با کیفیت بالا است. مدت زمان هر واج در گفتار پیوسته توسط عوامل بسیاری مانند ویژگی های خاص هر واج، تأثیر واج های مجاور، تعداد واج ها و همچنین مکان آنها در کلمه تعیین می شود. مدت زمان هر واج نیز به عنوان تابعی از بافت جمله تغییر می کند. به طور خاص، مصوت پایانی جمله، مانند مصوت‌های تکیه‌دار (stressed vowels) و صامت‌هایی که قبل از آنها در همان هجا قرار دارند، طولانی‌تر می‌شوند، در حالی که مصوت‌های قبل از صامت‌های بی‌صدا (voiceless consonants) کوتاه می‌شوند


تبدیل متن به گفتار:

یک سیستم تبدیل متن به گفتار تولید شده طیف وسیعی از کاربردها را در تعدادی از زمینه ها پیدا می کند. این موارد از دسترسی به ایمیل ها و انواع پایگاه های داده از طریق تلفن صوتی تا خواندن برای نابینایان را شامل می شود. شکل زیر عناصر اصلی تبدیل متن به گفتار را نشان می دهد (سال 1986).

متن ورودی اغلب شامل اختصارات، اعداد رومی، تاریخ، زمان، فرمول ها و علائم نگارشی است. سیستم توسعه‌یافته باید این قابلیت را داشته باشد که ابتدا آن‌ها را به شکلی معقول و استاندارد تبدیل کند و سپس آنها را به یک رونویسی (transcription) آوایی گسترده ترجمه کند. این کار با استفاده از یک فرهنگ لغت تلفظ بزرگ همراه با قوانین حروف به صدا (letter-to-sound rules) مناسب انجام می شود.

در سیستم MITalk-79، که یکی از پیشگام‌ترین سیستم‌های تبدیل متن به گفتار انگلیسی است که هنوز توسعه یافته است، 12000 morphs ، که 98 درصد جملات انگلیسی معمولی را پوشش می‌دهند، به عنوان بخش‌های صوتی پایه استفاده می‌شوند. Morphها ، کوچکتر از واژگان (words) بوده و، حداقل واحدهای رشته حروف با معنای زبانی هستند. آنها شامل پایه ها(stems)، پیشوند و پسوند تشکیل شده است. برای مثال، کلمه « changeable» به morph‌های « change» و « able» تجزیه می‌شود. فرهنگ لغت morphاملا و تلفظ هر morph، قوانینی برای ارتباط با سایر morphها، و قوانینی برای تغییرات وابسته به نحو را ذخیره می‌کند.

دنباله‌های واجی برای کلمات کم بسامد به‌جای آماده‌سازی morphها برای آنها، با قوانین حرف به صدا تولید می‌شوند. این بر اساس این واقعیت است که تبدیل نامنظم حروف به صدا معمولاً برای کلمات متداول اتفاق می افتد، اگرچه تلفظ کلمات نادر از قوانین منظم در انگلیسی پیروی می کند.

سیستم MITalk-79 رشته‌های کلمات را با استفاده از morph dictionary توسط یک فرآیند بازگشتی از چپ به راست به رشته‌های morph (واژ) تبدیل می‌کند. سپس هر کلمه به دنباله ای از واج ها تبدیل می شود. علاوه بر این، stress (تکیه) در هر کلمه با توجه به تأثیر پیشوندها، پسوندها، the word compound و قسمتی از گفتار تعیین می شود. ویژگی‌های prosodic ِ سطح جمله، بر اساس تحلیل نحوی و معنایی اضافه می‌شوند و گفتار جمله در نهایت با استفاده از synthesizer گفتار آنالوگ پایانی که در شکل زیر معرفی شده است، سنتز می‌شود.

کیفیت گفتار سنتز شده توسط سیستم MITalk-79 با درک واج در کلمات مجزا، قابل فهم بودن کلمه در گفتار جمله و درک جمله ارزیابی شد. نتایج تجربی تأیید کرد که میزان خطای آزمون درک واج 6.9 درصد و امتیاز قابل فهم بودن کلمه به ترتیب 93.2 درصد و 78.7 درصد در جملات عادی و جملات بی معنی است. سیستم DECtalk که موفق ترین سیستم تبدیل متن به گفتار تجاری سازی شده است، بر اساس اصلاحات فناوری مورد استفاده در سیستم MITalk-79 است.


سنتز گفتار مبتنی بر corpus:

همانطور که گفته شد، روش‌های سنتز گفتار با تکیه بر تعداد زیادی واحد شکل موج کوتاه که pitch و زمینه (context) آوایی قبلی و بعدی را پوشش می‌دهند، اکنون به طور گسترده استفاده می‌شوند. واحدهای شکل موج معمولاً با استفاده از یک پایگاه داده بزرگ گفتار (corpus) ساخته و ذخیره می شوند. مناسب‌ترین واحدهایی که نزدیک‌ترین بافت آوایی و فرکانس زیر و بم را به گفتار مورد نظر دارند و کمترین اعوجاج الحاق را بین واحدهای مجاور ایجاد می‌کنند، بر اساس قوانین و معیارهای ارزیابی انتخاب شده و به هم الحاق می‌شوند. واحدها یا مستقیماً متصل می شوند یا در مرز درون یابی می شوند. اگر تعداد واحدها به اندازه کافی زیاد باشد و قاعده انتخاب مناسب باشد، می توان گفتار سنتز شده نرم (smooth) را بدون اعمال درون یابی به دست آورد. به جای ذخیره واحدهای طول یکپارچه مانند واج، روش‌های استفاده از واحدهای طول متغیر با توجه به مقدار داده و نوع گفتاری که سنتز میشود، نیز بررسی شده است.

عوامل اصلی تعیین کننده کیفیت گفتار سنتز شده در این روش ها عبارتند از: 1) پایگاه داده گفتار 2) روشهای استخراج واحدهای پایه 3) اقدامات ارزیابی برای انتخاب مناسب ترین واحدها 4) روش های کارآمد برای جستجوی واحدهای اساسی.


روش سنتز گفتار COC (Context-Oriented-Clustering):

این روش در استفاده از خوشه‌بندی درخت تصمیم سلسه مراتبی در انتخاب واحد برای سنتز گفتار پیشگام بوده است. این روش ابتدا برای زبان ژاپنی پیشنهاد شد و بعداً به انگلیسی نیز گسترش یافت. در این رویکرد، تمام نمونه‌های یک واج مفروض در پایگاه‌داده‌ای تک‌گوینده با گفتار پیوسته در کلاس‌های هم ارزی (equivalence classes) با توجه به بافتهای واجی قبلی و بعدی خود خوشه‌بندی می‌شوند. درخت‌های تصمیم که خوشه‌بندی را انجام می‌دهند به‌طور خودکار ساخته می‌شوند تا شباهت صوتی را در کلاس‌های هم ارزی به حداکثر برسانند. شکل زیر نمونه ای از خوشه بندی درخت تصمیم را برای واج /a/ نشان می دهد. این رویکرد مشابه روشی است که در سیستم‌های تشخیص گفتار مدرن برای تولید مدل‌های مارکوف پنهان در زمینه‌های آوایی مختلف استفاده می‌شود.

در این سیستم های سنتز، پارامترها یا بخش ها از پایگاه داده استخراج می شوند تا هر برگ درخت را نشان دهند. در طول سنتز، از درختان برای به دست آوردن توالی واحد مورد نیاز برای تولید جمله مورد نظر استفاده می شود. یکی از ویژگی های کلیدی این روش این است که ساخت درخت به طور خودکار تعیین می کند که کدام یک از اثرات بافت (context effects) از نظر تأثیر آنها بر ویژگی های آکوستیک گفتار مهم ترین هستند و بنابراین شناسایی خودکار برگ حاوی بخش ها یا پارامترهای مناسب برای سنتز یک بافت (context) مفروض در طول سنتز را امکان پذیر می کند، حتی زمانیکه context مورد نیاز در آموزش دیده نمیشود. نشان داده شده است که با الحاق واحدهای واجی وابسته به phoneme-context ، می توان گفتار smooth را سنتز کرد.

روش COC برای استفاده از مجموعه‌ای از مدل‌های مارکوف پنهان وابسته به context خوشه‌بندی شده با درخت تصمیم متقاطع کلمه (cross-word) و تعریف مجموعه‌ای از واحدهای subphone برای استفاده در یک concatenation synthesizer گسترش یافت. در طول سنتز گفتار مورد نیاز، مشخص شده به عنوان رشته ای از کلمات با تلفظ آوایی شناخته شده، به عنوان دنباله ای از این حالت های خوشه ای با استفاده از یک synthesizer الحاق شکل موج TD-PSOLA تولید شد. یک روش برای استفاده از امتیازات احتمال HMM برای انتخاب مناسب ترین واحدهای پایه نیز بررسی شده است.


روش CHATR: یک روش مبتنی بر corpus (مجموعه داده) برای تولید گفتار با انتخاب بخش‌های مناسب گفتار با توجه به برچسب‌گذاری (labeling) است که اثرات prosodic و همچنین واجی را بر شکل موج گفتار نشان می‌دهد. برچسب‌گذاری تنوع گفتار در داده‌های طبیعی، یک رویکرد عمومی را برای سنتز فعال کرده است که به راحتی با زبان‌های جدید و گویندگان جدید با تغییر کمی در الگوریتم اصلی سازگار می‌شود. شکل زیر جریان داده در CHATR را خلاصه می کند. این نشان می دهد که پردازش (در اینجا به شکل لوله نشان داده شده است) در دو مرحله اصلی رخ می دهد: در مرحله آنالیز اولیه پایگاه داده (خارج از خط) (off-line) (in the initial (off-line) database analysis ) و مرحله رمزگذاری (encoding) برای ارائه جداول شاخص (index tables) و پایگاه های دانش prosodic و در مرحله سنتز بعدی (آنلاین) برای پیش بینی prosody و انتخاب واحد. الحاق شکل موج (Waveform concatenation) در حال حاضر ساده ترین بخش CHATR است، زیرا بخش های شکل موج خام که نقاط شاخص (index) برای نامزدهای انتخاب شده به سادگی به آنها الحاق (concatenate) می شود.

صرف نظر از پیشرفت اخیر در سنتز گفتار، بسیاری از مسائل تحقیقاتی همچنان باقی مانده است، از جمله: 1) بهبود طبیعی بودن به ویژه prosody در گفتار سنتز 2) کنترل سبک (استایل) صحبت کردن، مانند سبک خواندن یا دیالوگ و کیفیت گفتار 3) بهبود دقت تحلیل متن.


مرجع اصلی:

Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui




سنتز گفتارپردازش گفتارصوت شناسی
شاید از این پست‌ها خوشتان بیاید