سنتز گفتار فرآیندی است که به طور مصنوعی گفتار را برای کاربردهای مختلف تولید می کند و وابستگی به استفاده از صدای ضبط شده فرد را کاهش می دهد. روشهای سنتز گفتار، ماشین را قادر میسازد تا دستورالعملها یا اطلاعات را از طریق «صحبت کردن» به کاربر منتقل کند. این برنامهها شامل سرویس ارائه اطلاعات از طریق تلفن، نظیر خدمات بانکی و خدمات دایرکتوری، خدمات مختلف رزرو، اعلامیههای عمومی، ایستگاه های قطار، خواندن نسخههای خطی برای جمعبندی، خواندن ایمیلها، فکسها و صفحات وب از طریق تلفن، خروجی صدا در سیستمهای ترجمه خودکار، و تجهیزات ویژه برای افراد معلول، مانند واژهپرداز با قابلیت خواندن و کتابخوانی برای نابینایان.
پیشرفت در فناوری LSI/کامپیوتر و تکنیک های LPC به طور جمعی به پیشرفت تحقیقات سنتز گفتار کمک کرده است. علاوه بر این، خدمات تامین اطلاعات در حال حاضر در طیف وسیع تری از زمینه های کاربردی در دسترس است. تحقیق سنتز گفتار ارتباط نزدیکی با تحقیق در استخراج واحدهای اساسی اطلاعاتی حمل شونده در امواج گفتار و مکانیسم تولید گفتار دارد.
فناوری پاسخ صوتی که برای انتقال پیام از طریق گفتار سنتزشده طراحی شده است چندین مزیت برای انتقال اطلاعات دارد:
الف) هر کسی می تواند به راحتی پیام را بدون فعالیت یا تمرکز شدیدی درک کند ب) پیام را می توان حتی زمانی که شنونده درگیر فعالیت های دیگری مانند راه رفتن، دست زدن به یک شی یا نگاه کردن به چیزی است دریافت کرد ج) از شبکه تلفن معمولی می توان برای دسترسی آسان و از راه دور به اطلاعات استفاده کرد د)این شکل از پیام در اصل یک فرم ارتباطی بدون کاغذ است.
گفته می شود که اولین synthesizer گفتار در سال 1779ساخته شده است. شکل زیر ساختار یک synthesizer گفتار مکانیکی را نشان می دهد که در سال 1791 ساخته شد. این synthesizer ، که قادر به تولید هم مصوت و هم صامت است، برای شبیه سازی ارگان هایarticulatory انسان در نظر گرفته شده بود. صداهایی که از ارتعاش نیها نشات میگیرند، توسط رزونانس یک لوله چرمی تعدیل شده و به صورت موج گفتاری تابش میشوند. صداهای اصطکاکی از طریق سوت های «S» و «SH» تولید می شد. ظاهراً این synthesizer قادر به تولید کلمات متشکل از 19 صامت و 5 مصوت بوده است. البته، synthesizer های گفتار با ساختار مکانیکی اولیه، نمی توانستند گفتار سنتز شده با کیفیت بالا تولید کنند، زیرا تغییر مداوم و سریع شکل دستگاه صوتی دشوار بود.
اولین synthesizer با ساختار الکتریکی در سال 1922 توسط جی کیو استوارت ساخته شد. با تنظیم دقیق مدارها، مصوت های پایدار می توانستند توسط این synthesizer تولید شوند.
اولین synthesizer که در واقع موفق به تولید گفتار پیوسته شد، voder بود که توسط اچ.دادلی در سال 1939 ساخته شد. این synthesizer به ترتیب با کنترل دوره اصلی و ویژگی های فیلتر میانگذر با استفاده از پدال پا و 10 کلید انگشت، گفتار پیوسته را تولید کرد. Voder، به عنوان نمونه اولیه سنتز کننده گفتار برای Vocoder ، به یک بلوک پایه اصلی برای تحقیقات اخیر سنتز گفتار تبدیل شد. ساختار voder، بر اساس مدل مدار معادل قابل جداسازی خطی، هنوز در synthesizer گفتار فعلی استفاده می شود.
روش های سنتز گفتار فعلی را می توان به سه نوع تقسیم کرد:
الف)سنتز بر اساس کدگذاری شکل موج، که در آن از امواج گفتاری صدای ضبط شده انسان که پس از کدگذاری شکل موج یا بلافاصله پس از ضبط ذخیره می شود برای تولید پیام های مورد نظر استفاده می شود. ب)سنتز بر اساس روش آنالیز-سنتز، که در آن امواج گفتاری صدای ضبط شده انسان با روش آنالیز-سنتز به دنباله های پارامتر تبدیل می شود و ذخیره می شود، همراه با یک synthesizer گفتار که توسط پارامترهای به هم پیوسته (concatenated) برای تولید پیام هدایت می شود. ج)سنتز بوسیله قاعده ،که در آن گفتار بر اساس قواعد آوایی و زبانی از دنباله حروف یا دنباله نمادهای واجی و ویژگی های prosodic تولید می شود.
اصول این سه روش و مقایسه ویژگی های آنها به ترتیب در شکل زیر و جدول زیر ارائه شده است.
سیستمهای سنتز مبتنی بر روش کدینگِ شکل موج، ساده هستند و گفتار با کیفیت بالایی ارائه میکنند، اما versatility پایینی نیز از خود نشان میدهند، یعنی پیامها فقط به شکل ضبط شده قابل استفاده هستند. از سوی دیگر، سیستمهای سنتز بر اساس قاعده، از versatility بالایی برخوردارند، اما از طرف دیگر بسیار پیچیده و هنوز کیفیت محدودی دارند. در موارد عملی، انتخاب مناسب ترین روش برای اهداف با در نظر گرفتن عملکرد و ویژگی های هر روش مطلوب است.
همانطور که گفته شد سنتز بر اساس کدگذاری شکل موج روشی است که به وسیله آن واحدهای سگمنتالِ کوتاه از صدای انسان، معمولاً کلمات یا عبارات، ذخیره میشوند و با انتخاب و اتصال واحدهای مناسب، گفتار جمله مورد نظر سنتز میشود. در این روش، کیفیت گفتار جمله سنتز شده به طور کلی تحت تأثیر کیفیت تداوم (پیوستگی) ویژگیهای آکوستیکی در اتصالات بین واحدها قرار میگیرد. ویژگیهای آکوستیکی شامل پوشش طیفی (spectral envelope )، دامنه (amplitude )، فرکانس پایه(fundamental frequency) و نرخ صحبت (speaking rate) است. اگر واحدهای بزرگی مانند عبارات یا جملات ذخیره و استفاده شوند، کیفیت (واضح، قابل فهم و طبیعی بودن) گفتار ترکیب شده بهتر است، اگرچه تنوع کلمات یا جملات قابل ترکیب محدود است. از سوی دیگر، هنگامی که از واحدهای کوچک مانند هجاها یا واج ها استفاده می شود، طیف گسترده ای از کلمات و جملات را می توان سنتز کرد اما کیفیت گفتار تا حد زیادی کاهش می یابد.
(یادآوری: آکوستیک به صدایی گفته می شود که توسط منابع طبیعی مانند سازها یا صدای انسان تولید می شود و از طریق هوا به گوش می رسد. همچنین می تواند به ویژگی های صدا در حین حرکت در یک فضا، مانند reverberation و absorption اشاره کند).
در سیستمهای عملی که معمولاً در حال حاضر در دسترس هستند، کلمات و عبارات ذخیره میشوند و کلمات درج میشوند یا با عباراتی مرتبط میشوند تا یک گفتار جمله دلخواه را تولید کنند. از آنجایی که الگوی pitch هر کلمه با توجه به موقعیت آن در جملات مختلف تغییر می کند، لازم است تغییراتی از همان کلمات با inflectionهای صعودی، مسطح، و نزولی ذخیره شود. inflectionانتخاب شده همچنین به این بستگی دارد که آیا جمله بیانگر سؤال، گزاره یا تعجب است.
دو مشکل عمده در به هم پیوستن کلمات برای تولید جملات وجود دارد (کلات، 1987). اولاً یک جمله گفتاری، با توالی کلماتی که به صورت مجزا بیان می شود بسیار متفاوت است. در یک جمله، کلمات زمانی که به صورت مجزا گفته می شوند به اندازه ی نصف مدت زمانشان کوتاه هستند و باعث می شود که گفتار پیوسته کُند به نظر برسد. ثانیاً، الگوی تکیه جمله (sentence stress pattern )، ریتم و آهنگ (intonation )، که وابسته به عوامل نحوی و معنایی هستند، هنگامی که کلمات به سادگی به هم متصل می شوند، حتی اگر چندین گونه از یک کلمه ذخیره شده باشند، به طور مخرب غیرطبیعی هستند.
به منظور حل چنین مشکلاتی، اخیراً از روشهای سنتز الحاق واحدهای واجی (روش هایی که واج ها را به هم concatenate میکنند) به طور گسترده استفاده شده است. تسریع پردازش کامپیوتری و کاهش قیمت حافظه باعث پیشرفت این روش ها شده است. در این روشها تعداد زیادی واحدهای واجی یا زیرواجها (کوتاهتر از واجها) مربوط به آلوفونها (allophones) و تغییرات pitch ذخیره میشوند و مناسبترین واحدها بر اساس قوانین و معیارهای ارزیابی انتخاب میشوند و برای سنتز گفتار به هم متصل میشوند. روشهای متعددی برای همپوشانی و اضافه کردن امواج گفتار با طول pitch (pitch-length speech waves) با توجه به دوره pitch سنتز گفتار و روشهای مختلف کنترل ویژگیهای prosodic توسط تکرارکردن یا نازک کردن شکل موجهای pitch ایجاد شدهاند. این روش ها می توانند جملات نامحدود را حتی اگر واحدها توسط شکل موج گفتار ذخیره می شوند، سنتز کنند. نمونههای معمولی روشها عبارتند از TD-PSOLA و HNM که در ادامه توضیح داده شدهاند.
به منظور کاهش نیاز به اندازه حافظه، واحدها گاهی اوقات با روش های کدگذاری شکل موج مانند ADPCM به جای ذخیره سازی ساده با امواج گفتاری آنالوگ یا دیجیتال فشرده می شوند. سنتز برگرفته از روش آنالیز - سنتز، شکل پیشرفته ای از این روش از نظر کاهش اطلاعات و کنترل پذیری آن محسوب میشود.
روش TD-PSOLA: این روش که مخفف Time Domain Pitch Synchronous OverLap Add و مربوط به سال 1990 است، یکی از محبوبترین روشهای الحاق شکل موج pitch-synchronous است. این روش بر مدل تولید گفتار توصیف شده توسط چارچوب سینوسی متکی است. بخش "آنالیز" شامل استخراج سیگنال های تحلیل کوتاه مدت توسط ضرب شکل موج گفتار در دنباله ای از پنجره های انالیزِ ترجمه شده با زمان است. پنجره های آنالیز در اطراف لحظه های بسته شدن گلوتال قرار دارند و طول آنها متناسب با local pitch period است. در طول فریم های unvoiced، لحظه های زمانی تحلیل با یک نرخ ثابت تنظیم می شوند. در طول فرآیند "سنتز"، یک نگاشت بین لحظه های زمانی سنتز و لحظه های زمانی آنالیز با توجه به اصلاحات prosodic مورد نظر تعیین می شود. این فرآیند مشخص میکند که کدام یک از سیگنالهای تحلیل کوتاه مدت حذف یا تکرار شوند تا سیگنالِ synthetic نهایی تشکیل شود.
روشHNM : این روش مخفف Harmonic Plus Noise Model و مربوط به سال 1993 است. این روش بر اساس یک بازنماییِ pitch-synchronous harmonic-plus-noise سیگنال گفتار است. این طیف به دو باند تقسیم میشود که باند پایین فقط توسط امواج سینوسی که به صورت هارمونیک نمایش داده میشوند با دامنهها و فرکانسهای آهسته متفاوت نشان داده میشوند. محتوای فرکانس باند بالا توسط یک مدل AR متغیر با زمان مدلسازی میشود. ساختار حوزه زمان آن با یک تابع energy-envelope خطی piecewise نشان داده می شود. یک پارامتر متغیر با زمان که به عنوان حداکثر فرکانس صدا شناخته می شود، حد بین دو باند را تعیین می کند. در طول فریم های unvoiced، حداکثر فرکانس صدا بر روی صفر تنظیم می شود. در زمان سنتز، فریمهای HNM به هم متصل میشوند و prosody ِ واحدها با توجه به prosody مدنظر تغییر مییابد.
در سنتز به روش آنالیز-سنتز، کلمات یا عبارات گفتار انسان بر اساس مدل تولید گفتار آنالیز شده و به عنوان توالی زمانی پارامترهای ویژگی ذخیره میشوند. دنباله پارامترهای واحدهای مناسب متصل میشوند و به یک synthesizer گفتار داده می شوند تا پیام گفتاری مورد نظر را تولید کنند. از آنجایی که واحدها توسط پارامترهای پوشش طیفی و منبع ذخیره می شوند، مقدار اطلاعات بسیار کمتر از روش قبلیِ ذخیرهسازی با شکل موج است، اگرچه طبیعی بودن گفتار سنتز شده اندکی کاهش می یابد. علاوه بر این، این روش از این جهت سودمند است که با کنترل پارامترها می توان تغییر نرخ صحبت و smoothسازی pitch و تغییرات طیفی در اتصالات را انجام داد. برای این منظور از Vocoderهای کانالی و synthesizerهای گفتار مبتنی بر روش های آنالیز LPC مانند روش های LSP و PARCOR و یا روش های آنالیز کپسترال استفاده می شود.
سنتز گفتار مبتنی بر واج همچنین می تواند با روش آنالیز - سنتز پیاده سازی شود که در آن توالی برداری پارامتر ویژگی هر allophone توسط یک مدل ذخیره یا تولید می شود. اخیراً روشی با استفاده از HMM (مدلهای مارکوف پنهان) برای مدلسازی فرآیند تولید پارامتر ویژگی برای هر آلوفون توسعه یافته است. در این روش، یک توالی بردار پارامتری متشکل از cepstra و delta-cepstra برای یک جمله مورد نظر به طور خودکار توسط الحاق HMM های آلوفون بر اساس معیار حداکثرسازی احتمال تولید می شود. از آنجایی که delta-cepstra در فرآیند به حداکثر رساندن احتمال در نظر گرفته می شود، یک توالی پارامتر نرم (smooth) به دست می آید.
دو روش قادر به تولید گفتار با تکثیر الکتروآکوستیک مکانیزم تولید گفتار هستند؛روش vocal tract analog است که انتشار موج صوتی را در مجرای صوتی شبیهسازی می کند و روش دیگر terminal analog است که ساختار طیف فرکانس را شبیهسازی میکند، یعنی ویژگیهای تشدید و ضد تشدید، که در نتیجه articulation را بازتولید میکند. اگرچه در سالهای اولیه، این روشها با پردازش آنالوگ با استفاده از رایانههای آنالوگ یا مدارهای رزونانس متغیر محقق میشدند، اکثر سیستمهای اخیر به دلیل پیشرفت در مدارها و رایانههای دیجیتال و سهولت کنترل از پردازش دیجیتال استفاده میکنند.
(یادآوری: Articulation، به مکانیک تولید گفتار اشاره دارد و شامل حرکت و تنظیم اندام های گفتاری نظیر لب ها، زبان، گونه ها،و فک حنجره برای تولید یک صدا یا واج خاص است. واج یک حرکت مفصلی خاص است، مانند تشکیل مصوت [i] یا صامت [b] ).
روش vocal tract analog: مجرای صوتی توسط یک اتصال آبشاری از tubeهای مستقیم با سطوح مقطع مختلف، که هر یک دارای یک طول کوتاه است، نشان داده می شود. امواج صوتی در tubeها به امواج رو به جلو و عقب تقسیم می شوند. انتشار موج صوتی (Acoustic wave propagation) در مجرای صوتی با ادغام بازتاب (reflection ) و نفوذِ (penetration ) امواج رو به جلو و عقب در هر مرز بین tubeهای مجاور نشان داده می شود. مقدار بازتاب و نفوذ در مرز توسط ضریب بازتاب تعیین می شود که میزان عدم تطابق در امپدانس صوتی را نشان می دهد. synthesizerگفتار مبتنی بر روش آنالوگ مجرای صوتی به ویژه در سنتز صداهای گذار (transitional ) مانند صامت ها مؤثر است، زیرا می تواند دقیقاً نحوه ی دینامیکیِ articulation در مجرای صوتی را شبیه سازی کند. علاوه بر این، این روش به راحتی با اطلاعات آوایی منتقل شده توسط موج گفتار مرتبط است. با این حال، گفتار سنتز شده با کیفیت بالا هنوز به دست نیامده است، زیرا حرکت اندام های articulatoryبه اندازه کافی برای ارائه قوانین کنترل مناسب روشن نشده است.
روش terminal analog: این روش، مکانیسم تولید گفتار را با استفاده از یک ساختار الکتریکی متشکل از اتصال آبشاری یا موازی چندین مدار تشدید (فرمانت) و ضدتشدید(ضد فرمانت) شبیهسازی میکند. فرکانس تشدید یا ضدتشدید و پهنای باند هر مدار متغیر است. این روش را روش سنتز نوع فرمانت نیز می نامند. اتصال آبشاری مدارهای تشدید و ضد تشدید از این جهت سودمند است که نسبتهای دامنه متقابل بین فرمانتها و آنتیفرمانتها به طور خودکار تعیین میشوند. این امکان پذیر است زیرا ویژگی های انتقال دستگاه صوتی را می توان مستقیماً با این روش نشان داد. از سوی دیگر، اتصال موازی از این جهت سودمند است که شکل طیفی نهایی را میتوان دقیقاً شبیهسازی کرد. چنین شبیهسازی دقیقی با این واقعیت امکانپذیر میشود که دامنه هر فرمانت و آنتیفرمانت را میتوان به طور مستقل نشان داد، حتی اگر این روش مستقیماً ویژگیهای انتقال دستگاه صوتی را نشان ندهد. بنابراین، اتصال آبشاری برای گفتار مصوت با ساختار طیفی واضح مناسب است و اتصال موازی برای صداهای بینی و اصطکاکی که دارای چنان ساختار طیفی پیچیدهای هستند که ساختار قطب و صفر آنها را نمیتوان به راحتی استخراج کرد، بهتر است.
-اصول سنتز بر اساس قاعده:
سنتز با قاعده روشی برای تولید هر کلمه یا جمله ای است که بر اساس دنباله ای از نمادهای آوایی/هجایی یا حروف است. در این روش، پارامترهای ویژگی برای واحدهای کوچک اساسی گفتار مانند هجاها، واج ها یا گفتار one-pitch-period ذخیره شده و توسط قوانینی به هم متصل می شوند. در عین حال، ویژگیهای prosodic مانند pitch و دامنه نیز توسط قوانین کنترل میشوند. کیفیت واحدهای اساسی برای سنتز و همچنین قوانین کنترل (اطلاعات کنترل و مکانیسم های کنترل) برای پارامترهای صوتی نقش بسیار مهمی در این روش ایفا می کنند و آنها باید بر اساس ویژگی های آوایی و زبانی گفتار طبیعی باشند. علاوه بر این، برای تولید گفتار طبیعی و متمایز، انتقالهای زمانی pitch، استرس (stress) و طیف باید نرم ( smooth) باشند و سایر ویژگیها مانند مکانهای مکث و مدت زمان باید مناسب باشند.
آنالوگ مجرای صوتی، آنالوگ ترمینال و synthesizerهای گفتار LPC به طور گسترده برای تولید گفتار استفاده می شد. روش های مبتنی بر شکل موج اخیراً بسیار محبوب شده اند. پارامترهای ویژگی برای واحدهای اساسی از گفتار طبیعی استخراج می شوند یا به طور مصنوعی ایجاد می شوند. هنگامی که واج ها به عنوان واحدهای اساسی برای تولید گفتار در نظر گرفته می شوند، ظرفیت حافظه می تواند بسیار کاهش یابد، زیرا تعداد واج ها معمولاً بین 30 تا 50 است. با این حال، قوانین اتصال واج ها به قدری پیچیده است که دست یافتن به گفتاری با کیفیت بالا دشوار است. بنابراین، واحدهای بزرگتر از واج یا واحدهای آلوفون (context-dependent phoneme) اغلب مورد استفاده قرار می گیرند. در مورد دوم، هزاران یا ده ها هزار واحد برای سنتز گفتار با کیفیت بالا لازم است.
برای زبان ژاپنی، 100 هجا CV (C یک صامت است، V یک مصوت است) مربوط به نمادها در هجای ژاپنی "Kana" اغلب به عنوان این واحدها استفاده می شود. واحدهای CVC نیز برای به دست آوردن گفتار با کیفیت بالا به کار گرفته شده اند. تعداد هجاهای CVC که در ژاپنی ظاهر می شوند بسیار زیاد است، چیزی بین 5000 تا 6000. بنابراین، ترکیبی از تقریباً 1000 هجا CVC که اغلب در ژاپنی ظاهر می شوند همراه با تقریباً 200 هجا CV/VC برای ترکیب جملات ژاپنی استفاده شده است. ترکیبی از بین 700 تا 800 واحد VCV نیز تلاش شده است.
در مقابل، زبان انگلیسی دارای بیش از 3500 هجا است که با در نظر گرفتن آلوفون ها (تغییرهای آوایی) به 10000 هجا می رسد. بنابراین، هجاها معمولاً به واحدهای کوچکتر، مانند dyad، diphone (هر دو تقریباً 400 تا 1000 واحد دارند)، یا نیمهجاها (تقریباً 1000) تجزیه می شوند. این واحدها اساساً از واج های منفرد و انتقال (transition) بین واج های همسایه تشکیل شده اند. اگرچه نیمهجاها کمی بزرگتر از دو واحد دیگر هستند، اما همه واحدها به گونه ای ساخته شده اند که ممکن است با استفاده از قوانین ساده به هم متصل شوند.
در سیستم های مبتنی بر واج، سنتز با انتخاب اهداف برای هر پارامتر کنترل برای هر بخش آوایی آغاز می شود. گاهی اوقات اهداف با قوانینی اصلاح می شوند که ویژگی های بخش های همسایه را در نظر می گیرند. سپس انتقال بین اهداف بر اساس قوانینی محاسبه میشود که در پیچیدگی از نرمسازی (smoothing) ساده تا اجرای نسبتاً پیچیده تئوری مکانها متغیر است. بیشتر تعاملات نرمسازی شامل بخشهایی در مجاورت یکدیگر است، اما قوانین همچنین اثرات متقابل articulatory/آکوستیکی را ارائه میکنند که بیش از بخش مجاور را شامل میشود. از آنجایی که ساختن این قوانین هنوز بسیار دشوار است، روشهای سنتز که واحدهای واجی وابسته به زمینه (context-dependent phoneme units) را به هم متصل میکنند، اکنون به طور گسترده مورد استفاده قرار میگیرند.
پارامترهای کنترل برای آهنگ صدا (intonation)، لهجه(accent)، استرس، مکث (pause) و مدت زمان به صورت دستی وارد سیستم میشدند تا گفتار جملهای با کیفیت بالا سنتز شود. با این حال، به دلیل دشواری وارد کردن این پارامترها، تبدیل متن به گفتار، که در آن این پارامترهای کنترلی به طور خودکار بر اساس ترتیب حروف (توالی حروف) تولید می شوند، معرفی شده است. این سیستم می تواند توانایی انسان را در خواندنِ متونِ نوشتاری، یعنی تبدیل متن نامحدود به گفتار بفهمد. این اساساً هدف نهایی سنتز گفتار است. با این حال، ساختن چنین سیستم تبدیل متن به گفتار، نیاز به روشن شدن چگونگی درک جملات توسط افراد با استفاده از دانش نحو و معناشناسی دارد. برای اینکه کاملاً مؤثر باشد، این فرآیند درک باید سپس به برنامه های رایانه ای تبدیل شود.
-کنترل ویژگی های prosodic:
در ویژگی های نوای گفتار (prosodic)، intonation و accent بیشترین اهمیت را در بهبود کیفیت گفتار سنتز دارند.
فرکانس پایه، بلندی صدا و مدت زمان به این ویژگی ها مربوط می شوند. در دوره ی گفتار بین مکث ها، یعنی مدت زمان (دوره ی ) گفته با یک نفس، فرکانس گام ( pitch ) معمولاً در شروع زیاد است و به دلیل کاهش فشار سابگلوتال به تدریج به سمت پایان کاهش می یابد. این ویژگی مولفه آهنگ صدای پایه (basic intonation component) نامیده می شود. الگوی pitch ِ هر جمله، با افزودن مولفه های لهجه یِ الگوی pitch به مولفه آهنگ صدای پایه تولید می شود. مولفه های لهجه بر اساس جایگاه لهجه (آکسان) برای هر کلمه یا هجا تعیین می شود.
(یادآوری1: در زبانشناسی، لهجه یا آکسان به گونهای از طرز تلفظهای ویژه یک گروه زبانی گویند. لهجهها معمولاً با مناطق جغرافیایی ویژه ارتباط دارند. اگر مجموعه تلفظهای دو دسته از گویشوران یک زبان به گونهای باشد که همدیگر را نسبتاً آسان بفهمند صحبت از لهجه میکنیم و اگر تفاوتهای تلفظی یا دستوری بهگونهای باشد که درک متقابل با ایرادات و دشواریهایی روبرو باشد از گویش (dialect) صحبت میکنیم).
(یادآوری2:
یک Clause (جملهواره) گروهی از کلماتاند که شامل یک فاعل و یک فعل میشوند. یک جملهواره یا بند ممکن است بخشی از یک جمله و یا به تنهایی یک جمله باشند.
یک Phrase (گروه) از کنار هم قرار گرفتن چند تا کلمه در کنار هم درست میشود. این کلمات میتوانند با هم در یک گروه باشند، اما بدون فاعل یا یک فعل.
جملات ساده (Simple Sentences) در زبان انگلیسی به جملاتی گفته میشوند که حداقل یک فاعل و یک فعل داشته باشند و معنی کاملی را برسانند.)
شکل زیر نمونهای از مکانیزم تولید الگوی pitch را برای جمله گفتاری ژاپنی نشان میدهد که در آن الگوی pitch با برهم نهی (superposition ) اجزای عبارت (phrase components ) و اجزای آکسان (لهجه) بیان میشود. مولفهی لهجه برای هر عبارت در نهایت با توجه به روابط نحوی (syntactic) موجود بین عبارات تعیین می شود.
در یک سیستم سنتز گفتار موفق برای انگلیسی، الگویpitch بر حسب تکانهها (impulses ) و دستورات مرحلهای که به یک فیلتر نرمسازی خطی داده میشود، مدلسازی میشود. مطابق با " hat theory " آهنگ صدا (intonation)، یک صعود پله ای در نزدیکی شروع اولین stressed vowel (مصوت تکیه دار) قرار می گیرد. یک سقوط پله ای در نزدیکی شروع مصوتِ تکیهدار نهایی قرار میگیرد. این بالا و پایین رفتن باعث ایجاد واحدهای نحوی می شود. تکیه همچنین در این سیستمِ قاعده با ایجاد یک افزایش موضعی اضافی بر روی مصوت تکیهدار با استفاده از دستورات تکانهای یا ضربهای (impulse) آشکار می شود. مقدار افزایش برای اولین مصوت تکیهدارِ یک واحد نحوی، بیشترین و پس از آن ،کوچکتر است. در نهایت، اثرات محلی کوچکِ بخشهای آوایی با دستورات موقعیتیابی برای شبیهسازی افزایش صامتهای بیصدا (voiceless) و مصوتهای بالا(بلند) اضافه میشود. یک خط انحراف تدریجی (the basic intonation component) نیز در ورودی های فیلتر smoothing گنجانده شده است.
شکل زیر، سه الگوی intonation معمولی clause-final را نشان میدهد
شکل زیر، نمونه ای از یک pitch "الگوی کلاه" بلند و پایین بین لبه و بالای کلاه برای یک جمله دو بندی (two-clause sentence) است.
نمونه ای از commandهای پله ای و ضربه ای (step and impulsive commands) برای جمله انگلیسی ذکر شده، و همچنین الگوی pitch تولید شده توسط این دستورات و قوانین، در شکل زیر آورده شده است.
کنترل مدت زمان (duration control) برای هر واج نیز یک مسئله مهم در ترکیب گفتار با کیفیت بالا است. مدت زمان هر واج در گفتار پیوسته توسط عوامل بسیاری مانند ویژگی های خاص هر واج، تأثیر واج های مجاور، تعداد واج ها و همچنین مکان آنها در کلمه تعیین می شود. مدت زمان هر واج نیز به عنوان تابعی از بافت جمله تغییر می کند. به طور خاص، مصوت پایانی جمله، مانند مصوتهای تکیهدار (stressed vowels) و صامتهایی که قبل از آنها در همان هجا قرار دارند، طولانیتر میشوند، در حالی که مصوتهای قبل از صامتهای بیصدا (voiceless consonants) کوتاه میشوند
یک سیستم تبدیل متن به گفتار تولید شده طیف وسیعی از کاربردها را در تعدادی از زمینه ها پیدا می کند. این موارد از دسترسی به ایمیل ها و انواع پایگاه های داده از طریق تلفن صوتی تا خواندن برای نابینایان را شامل می شود. شکل زیر عناصر اصلی تبدیل متن به گفتار را نشان می دهد (سال 1986).
متن ورودی اغلب شامل اختصارات، اعداد رومی، تاریخ، زمان، فرمول ها و علائم نگارشی است. سیستم توسعهیافته باید این قابلیت را داشته باشد که ابتدا آنها را به شکلی معقول و استاندارد تبدیل کند و سپس آنها را به یک رونویسی (transcription) آوایی گسترده ترجمه کند. این کار با استفاده از یک فرهنگ لغت تلفظ بزرگ همراه با قوانین حروف به صدا (letter-to-sound rules) مناسب انجام می شود.
در سیستم MITalk-79، که یکی از پیشگامترین سیستمهای تبدیل متن به گفتار انگلیسی است که هنوز توسعه یافته است، 12000 morphs ، که 98 درصد جملات انگلیسی معمولی را پوشش میدهند، به عنوان بخشهای صوتی پایه استفاده میشوند. Morphها ، کوچکتر از واژگان (words) بوده و، حداقل واحدهای رشته حروف با معنای زبانی هستند. آنها شامل پایه ها(stems)، پیشوند و پسوند تشکیل شده است. برای مثال، کلمه « changeable» به morphهای « change» و « able» تجزیه میشود. فرهنگ لغت morphاملا و تلفظ هر morph، قوانینی برای ارتباط با سایر morphها، و قوانینی برای تغییرات وابسته به نحو را ذخیره میکند.
دنبالههای واجی برای کلمات کم بسامد بهجای آمادهسازی morphها برای آنها، با قوانین حرف به صدا تولید میشوند. این بر اساس این واقعیت است که تبدیل نامنظم حروف به صدا معمولاً برای کلمات متداول اتفاق می افتد، اگرچه تلفظ کلمات نادر از قوانین منظم در انگلیسی پیروی می کند.
سیستم MITalk-79 رشتههای کلمات را با استفاده از morph dictionary توسط یک فرآیند بازگشتی از چپ به راست به رشتههای morph (واژ) تبدیل میکند. سپس هر کلمه به دنباله ای از واج ها تبدیل می شود. علاوه بر این، stress (تکیه) در هر کلمه با توجه به تأثیر پیشوندها، پسوندها، the word compound و قسمتی از گفتار تعیین می شود. ویژگیهای prosodic ِ سطح جمله، بر اساس تحلیل نحوی و معنایی اضافه میشوند و گفتار جمله در نهایت با استفاده از synthesizer گفتار آنالوگ پایانی که در شکل زیر معرفی شده است، سنتز میشود.
کیفیت گفتار سنتز شده توسط سیستم MITalk-79 با درک واج در کلمات مجزا، قابل فهم بودن کلمه در گفتار جمله و درک جمله ارزیابی شد. نتایج تجربی تأیید کرد که میزان خطای آزمون درک واج 6.9 درصد و امتیاز قابل فهم بودن کلمه به ترتیب 93.2 درصد و 78.7 درصد در جملات عادی و جملات بی معنی است. سیستم DECtalk که موفق ترین سیستم تبدیل متن به گفتار تجاری سازی شده است، بر اساس اصلاحات فناوری مورد استفاده در سیستم MITalk-79 است.
همانطور که گفته شد، روشهای سنتز گفتار با تکیه بر تعداد زیادی واحد شکل موج کوتاه که pitch و زمینه (context) آوایی قبلی و بعدی را پوشش میدهند، اکنون به طور گسترده استفاده میشوند. واحدهای شکل موج معمولاً با استفاده از یک پایگاه داده بزرگ گفتار (corpus) ساخته و ذخیره می شوند. مناسبترین واحدهایی که نزدیکترین بافت آوایی و فرکانس زیر و بم را به گفتار مورد نظر دارند و کمترین اعوجاج الحاق را بین واحدهای مجاور ایجاد میکنند، بر اساس قوانین و معیارهای ارزیابی انتخاب شده و به هم الحاق میشوند. واحدها یا مستقیماً متصل می شوند یا در مرز درون یابی می شوند. اگر تعداد واحدها به اندازه کافی زیاد باشد و قاعده انتخاب مناسب باشد، می توان گفتار سنتز شده نرم (smooth) را بدون اعمال درون یابی به دست آورد. به جای ذخیره واحدهای طول یکپارچه مانند واج، روشهای استفاده از واحدهای طول متغیر با توجه به مقدار داده و نوع گفتاری که سنتز میشود، نیز بررسی شده است.
عوامل اصلی تعیین کننده کیفیت گفتار سنتز شده در این روش ها عبارتند از: 1) پایگاه داده گفتار 2) روشهای استخراج واحدهای پایه 3) اقدامات ارزیابی برای انتخاب مناسب ترین واحدها 4) روش های کارآمد برای جستجوی واحدهای اساسی.
روش سنتز گفتار COC (Context-Oriented-Clustering):
این روش در استفاده از خوشهبندی درخت تصمیم سلسه مراتبی در انتخاب واحد برای سنتز گفتار پیشگام بوده است. این روش ابتدا برای زبان ژاپنی پیشنهاد شد و بعداً به انگلیسی نیز گسترش یافت. در این رویکرد، تمام نمونههای یک واج مفروض در پایگاهدادهای تکگوینده با گفتار پیوسته در کلاسهای هم ارزی (equivalence classes) با توجه به بافتهای واجی قبلی و بعدی خود خوشهبندی میشوند. درختهای تصمیم که خوشهبندی را انجام میدهند بهطور خودکار ساخته میشوند تا شباهت صوتی را در کلاسهای هم ارزی به حداکثر برسانند. شکل زیر نمونه ای از خوشه بندی درخت تصمیم را برای واج /a/ نشان می دهد. این رویکرد مشابه روشی است که در سیستمهای تشخیص گفتار مدرن برای تولید مدلهای مارکوف پنهان در زمینههای آوایی مختلف استفاده میشود.
در این سیستم های سنتز، پارامترها یا بخش ها از پایگاه داده استخراج می شوند تا هر برگ درخت را نشان دهند. در طول سنتز، از درختان برای به دست آوردن توالی واحد مورد نیاز برای تولید جمله مورد نظر استفاده می شود. یکی از ویژگی های کلیدی این روش این است که ساخت درخت به طور خودکار تعیین می کند که کدام یک از اثرات بافت (context effects) از نظر تأثیر آنها بر ویژگی های آکوستیک گفتار مهم ترین هستند و بنابراین شناسایی خودکار برگ حاوی بخش ها یا پارامترهای مناسب برای سنتز یک بافت (context) مفروض در طول سنتز را امکان پذیر می کند، حتی زمانیکه context مورد نیاز در آموزش دیده نمیشود. نشان داده شده است که با الحاق واحدهای واجی وابسته به phoneme-context ، می توان گفتار smooth را سنتز کرد.
روش COC برای استفاده از مجموعهای از مدلهای مارکوف پنهان وابسته به context خوشهبندی شده با درخت تصمیم متقاطع کلمه (cross-word) و تعریف مجموعهای از واحدهای subphone برای استفاده در یک concatenation synthesizer گسترش یافت. در طول سنتز گفتار مورد نیاز، مشخص شده به عنوان رشته ای از کلمات با تلفظ آوایی شناخته شده، به عنوان دنباله ای از این حالت های خوشه ای با استفاده از یک synthesizer الحاق شکل موج TD-PSOLA تولید شد. یک روش برای استفاده از امتیازات احتمال HMM برای انتخاب مناسب ترین واحدهای پایه نیز بررسی شده است.
روش CHATR: یک روش مبتنی بر corpus (مجموعه داده) برای تولید گفتار با انتخاب بخشهای مناسب گفتار با توجه به برچسبگذاری (labeling) است که اثرات prosodic و همچنین واجی را بر شکل موج گفتار نشان میدهد. برچسبگذاری تنوع گفتار در دادههای طبیعی، یک رویکرد عمومی را برای سنتز فعال کرده است که به راحتی با زبانهای جدید و گویندگان جدید با تغییر کمی در الگوریتم اصلی سازگار میشود. شکل زیر جریان داده در CHATR را خلاصه می کند. این نشان می دهد که پردازش (در اینجا به شکل لوله نشان داده شده است) در دو مرحله اصلی رخ می دهد: در مرحله آنالیز اولیه پایگاه داده (خارج از خط) (off-line) (in the initial (off-line) database analysis ) و مرحله رمزگذاری (encoding) برای ارائه جداول شاخص (index tables) و پایگاه های دانش prosodic و در مرحله سنتز بعدی (آنلاین) برای پیش بینی prosody و انتخاب واحد. الحاق شکل موج (Waveform concatenation) در حال حاضر ساده ترین بخش CHATR است، زیرا بخش های شکل موج خام که نقاط شاخص (index) برای نامزدهای انتخاب شده به سادگی به آنها الحاق (concatenate) می شود.
صرف نظر از پیشرفت اخیر در سنتز گفتار، بسیاری از مسائل تحقیقاتی همچنان باقی مانده است، از جمله: 1) بهبود طبیعی بودن به ویژه prosody در گفتار سنتز 2) کنترل سبک (استایل) صحبت کردن، مانند سبک خواندن یا دیالوگ و کیفیت گفتار 3) بهبود دقت تحلیل متن.
مرجع اصلی:
Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui