یک موج گفتار بطور کلی حامل اطلاعات زبانی، ویژگیهای صوتی و احساسی گوینده است.
موج گفتار انواع مختلفی از اطلاعات را منتقل میکند، که عمدتاً شامل الف) اطلاعات زبانی است که نشاندهنده معنا ومنظوری است که گوینده میخواهد منتقل کند، ب) اطلاعات فردی، که نشاندهنده این است که چه کسی دارد صحبت میکند و ج) اطلاعات احساسی ،که احساسات گوینده را نشان میدهد.
فرآیند تولید گفتار انسان، با مفهومپردازی اولیه ایدهای آغاز میشود که گوینده میخواهد به شنونده منتقل کند. متعاقباً گوینده با انتخاب کلمات و عبارات مناسب، آن ایده را به یک ساختار زبانی تبدیل کرده و سپس آنها را بر اساس قواعد دستوری مرتب میکند. سپس، مغز انسان دستورات عصب حرکتی را اعمال می کند تا عضلات مختلف اندامهای صوتی حرکت داده شوند. این فرآیند اساساً به دو زیرفرآیند تقسیم می شود: فرآیند فیزیولوژیکی شامل اعصاب و ماهیچه ها و فرآیند فیزیکی که از طریق آن موج گفتار تولید و منتشر می شود.
ویژگیهای گفتار در زمرهی پدیدههای فیزیکی پیوسته قرار میگیرند، اگرچه زبان منتقل شده توسط گفتار اساساً از واحدهای رمزگذاریشدهی (کدشدهی) گسسته تشکیل شده است.
یک جمله با استفاده از واحدهای اصلی کلمه ساخته می شود، که هر کلمه از هجا تشکیل شده است، و هر هجا از واج تشکیل شده است، که به نوبه خود میتواند به عنوان مصوت یا صامت طبقهبندی شود. واج، کوچکترین واحد صوتی زبان است که میتواند در معنا تغییری ایجاد کند. یک هجا به طور کلی از الحاق یک مصوت با یک یا چند صامت تشکیل می شود. تعداد مصوت ها و صامت ها بسته به روش طبقهبندی و زبان متفاوت است. به عنوان مثال، زبان فارسی دارای 6 مصوت و 23 صامت، زبان انگلیسی دارای 12 مصوت و 24 صامت و زبان ژاپنی دارای 5 مصوت و 20 صامت است.
همانطور که در شکل زیر (زنجیره گفتار) نشان داده شده است، موج گفتاری تولیدشده توسط اندامهای صوتی از طریق هوا به گوش شنوندگان منتقل میشود. سپس موجِ گفتاریِ وارده شده در گوش، اندامهای شنوایی را جهت تولید تکانههای عصبی فعال می کند تا از طریق سیستمِ عصبیِ شنوایی به مغزِ شنونده منتقل شود. این امر اجازه میدهد تا اطلاعات زبانی که گوینده قصد انتقال آن را دارد به آسانی برای شنونده قابل درک باشد. در عین حال، موج گفتار تولیدشده توسط گوینده، به طور طبیعی به گوش خود گوینده نیز منتقل میشود و به او اجازه میدهد تا با دریافت گفتار خود به عنوان بازخورد، به طور مداوم اندامهای صوتی خود را کنترل کند.
مشهود است که وقتی گفتار خودمان با تاخیر زمانی مشخصی(اثر بازخورد تاخیری) به گوش ما بازمیگردد، صحبتکردن بسیار سخت خواهد شد. ارتباط ذاتی بین تولید گفتار و شنیدن، زنجیره گفتار نامیده می شود.
از نظر تولید، زنجیره گفتار شامل مراحل زبانی، فیزیولوژیکی و فیزیکی (آکوستیکی) است که ترتیب این مراحل برای امر «شنود» معکوس است یعنی شامل مراحل آکوستیکی، فیزیولوژیکی و زبانی خواهد بود.
یکی از مزایای قابلیت شنوایی، گوش دادن انتخابی است، که به شنونده اجازه میدهد حتی زمانی که چندین نفر به طور همزمان صحبت میکنند، تنها یک صدا را بشنود.
از سوی دیگر، مکانیزم شنوایی انسان توانایی بسیار کمی از خود نشان می دهد. یک مثال از نقاط ضعف ذاتی آن این است که گوش نمیتواند دو صدایی که از نظر فرکانس مشابه هستند یا فاصله زمانی بسیار کوتاهی بین آنها وجود دارد را جدا و از همدیگر تمییز دهد. جنبه منفی دیگر این است که وقتی دو تُن یا نواخت (tones) همزمان وجود داشته باشند، یکی شنیده نمی شود زیرا توسط دیگری پوشانده شده است.
قابلیت شنوایی پیچیده ذکر شده توسط مکانیزم پیچیده درک زبان که توسط مغز کنترل می شود، پشتیبانی میگردد.
فرآیند تولید گفتار شامل سه زیرفرآیند است: تولید منبع (source generation)، آرتیکولاسیون (articulation) و انتشار (radiation). تولید منبع در گفتار، به فرآیند تولید گفتار از متن یا سایر منابع اشاره دارد. آرتیکولاسیون، به تنظیم شکل مجرای صوتی برای تولید اصوات مختلف زبانی گفته میشود؛ به عبارت دیگر به عمل تولید صدا، گفتن کلمات، بیان افکار یا احساسات در کلمات اشاره دارد. انتشار یا تشعشع، همان چیزی است که در لبها اتفاق می افتد تا امواج صوتی در مجرای صوتی به هوای آزاد منتشر شود.
مجموعه اندام صوتی انسان شامل ریهها (lungs)، نای (trachea)، حنجره (larynx )، حلق (pharynx )، حفره بینی (nasal cavity) و حفره دهانی (oral cavity) است. اینها با هم یک تیوب یا لوله متصل را تشکیل میدهند. قسمت بالایی که از حنجره شروع میشود، مجرای صوتی (vocal tract) نامیده میشود که با حرکت دادن فک، زبان، لبها و سایر قسمتهای داخلی به اشکال مختلف تغییر میکند.
حفره بینی با بالارفتن velum یا نرمکام(soft palate)، از حلق و حفره دهان جدا میگردد (نرمکام، بافت نرمی است که بخش عقب سقف دهان را تشکیل میدهد. سختکام که در بخش جلوتر دهان قرار گرفته استخوان دارد ولی نرمکام بدون استخوان است). هنگامی که عضلات شکم با بالا بردن دیافراگم به سمت بالا به حفره فشار وارد می کنند، هوا از ریهها به سمت بالا و خارج هل داده میشود و جریان هوا از نای و چاکنای (glottis) میگذرد و به حنجره میرسد (چاکنای، دهانه یا مدخل نای است که پرده های صوتی در آن قرار دارند). چاکنای یا شکاف (فاصله) بین تارهای صوتی چپ و راست، که معمولاً در هنگام تنفس باز است، زمانی که گوینده قصد تولید صدا را دارد باریکتر می شود. سپس جریان هوا از طریق چاکنای به صورت دورهای (متناوب) با باز و بسته شدن شکاف مطابق با تعامل بین جریان هوا و تارهای صوتی قطع می شود. این جریان متناوب که منبع گلوتال یا منبع گفتار نامیده می شود، می تواند توسط امواج مثلثی نامتقارن شبیهسازی شود.
هنگامی که تارهای صوتی به شدت تحت فشار قرار می گیرند و فشار هوای خارج شده از ریهها (فشار هوای سابگلوتال) زیاد است، دوره باز و بسته شدن یعنی دوره ارتعاش تارهای صوتی کوتاه میشود و زیر و بمی صدا (pitch ) منبع بالا میرود. برعکس، شرایط فشار هوای کم، صدایی با زیر و بمیِ کمتر تولید می کند. این دوره ارتعاش تارهای صوتی را دوره بنیادی و عکس آن را فرکانس بنیادی می نامند.
منبع صدا که از اجزای بنیادی و هارمونیک تشکیل شده است، توسط مجرای صوتی اصلاح میشود تا tonal qualities مانند /a/ و io/ تولید کند (در تولید مصوت -حرف صدادار- ). کیفیت تونال، به کیفیت احساس یا بیان اطلاق می شود که از طریق زبان، موسیقی یا سایر اشکال ارتباط منتقل می شود . در طول تولید مصوت، مجرای صوتی در یک پیکربندی نسبتاً پایدار در سراسر گفته (utterance) حفظ میشود.
مکانیزمهای سایشی و انسدادی: این دو مکانیزم، مسئول تغییر جریان هوا از ریهها به صدای گفتار هستند. اینها مکانیزم های زیربنایی تولید دو نوع صامت هستند: اصطکاکی یا سایشی (fricatives ) و انسدادی یا انفجاری (plosives). صداهای سایشی مانند /s/ ,/f/, /ʃ/ ، صداهای نویزمانندی هستند که توسط جریان متلاطم ایجاد میشوند و زمانی اتفاق میافتد که جریان هوا از یک انقباض در مجرای صوتی ایجاد شده توسط زبان یا لبها عبور میکند. تفاوت تونالِ (tonal difference) هر سایشی (fricative) مربوط به انقباض و شکل مجرای صوتی نسبتاً دقیقی است. انفجاریها (صامت های توقف)، مانند /p/, /t/, /k/ صداهای تکانشی ) impulsive هستند که با انتشار ناگهانی هوای پرفشار ایجاد می شود که با کنترل جریان هوا در مجرای صوتی، دوباره با استفاده از زبان یا لب ها ایجاد می شود. تفاوتِ تونال به تفاوت بین موقعیت کنترل و شکل مجرای صوتی مربوط میشود.
تولید این صامت ها کاملاً مستقل از ارتعاش تارهای صوتی است. صامت هایی که با ارتعاش تارهای صوتی همراه هستند به صامت های صدادار و آن هایی که با این ارتعاش همراه نباشند صامت های بی صدا می گویند. صداهایی که با ارتعاش تارهای صوتی منتشر می شوند، صوتهای واکهدار (voiced sound) نامیده میشوند و صوتهایی که بدون ارتعاش هستند، صداهای بیواکه نامیده می شوند.
نکته: صداهای نیمهمصوت (Semivowel)، خیشومی(nasal) و انسدادیسایشی(affricate) (این آوا از ترکیب آوای انسدادی ( stop ) و آوای سایشی ( fricative ) به وجود می آید) در خانواده صامتها قرار می گیرند.
نیمهمصوتها به روشی مشابهِ مصوتها تولید میشوند، اما ویژگیهای فیزیکی آنها بهتدریج (بدون یک دوره بیان ثابت) تغییر میکند. اگرچه نیمهمصوتها در صامتها قرار میگیرند، اما نه جریان هوای متلاطم دارند و نه صدای پالسمانند، زیرا انقباض مجرای صوتی شل است و حرکت اندام صوتی نسبتاً آهسته است.
در تولید صداهای خیشومی، حفره بینی به انشعابی گسترده از حفره دهان تبدیل میشود و جریان هوا با پایین آوردن vellum و قطع جریان هوا در یک مکان خاص در حفره دهان به حفره بینی میرسد. هنگامی که حفره بینی در حین تولید واکه، بخشی از مجرای صوتی را همراه با حفره دهان تشکیل میدهد، vowel quality خیشومی میشود و مصوت خیشومیشده (nasalized vowel) را تولید میکند. بنابراین صدای خیشومی، آوایی است که در ادای آن مجرای گفتار در نقطهای مسدود گردد، ولی عبور هوا به خارج بدون برخورد با هیچ مانعی از طریق بینی انجام شود.
آفریکیتها (Affricates)، از توالی صداهای انفجاری و اصطکاکی (plosive and fricative) تولید می شوند.
برخی حروف، با بیرون دادن هوا از دهان ادا میشوند. آسپیراسیون یا دَمِش (Aspiration) و یا پچپچ زمانی تولید میشود که یک جریان متلاطم در گلوت (دهانه حنجره) با باز کردن اندکی تارهای صوتی ایجاد شود تا لرزش تارهای صوتی ایجاد نشود.
صوت ها ممکن است به طور کلی با pitch، loudness و quality مشخص شوند. . «quality» یا «timbre» یا طنین صدا، خصوصیاتی از صدا را توصیف میکند که به گوش اجازه میدهد صداهایی را که دارای زیر و بمی و بلندیِ یکسان هستند را تشخیص دهد. بنابراین timbre یک اصطلاح کلی برای ویژگی های قابل تشخیص یک tone است. qualityهای مختلف تُن، با تغییر شکل مجرای صوتی ایجاد می شوند که ویژگی های انتقال یعنی ویژگیهای رزونانس مجرای صوتی را تغییر میدهند.
صامتهای انگلیسی به صورت زیر دستهبندی میشوند:
مصوتهای انگلیسی به صورت زیر دستهبندی میشوند:
خطوط افقی در شکل فوق، محل تقریبی انقباض مجرای صوتی را نشان می دهد: هر چه بیشتر به سمت چپ باشد، انقباض به جلو (نزدیک لب ها) نزدیک تر است. خطوط عمودی درجه انقباض را نشان می دهد که مربوط به موقعیت باز شدن فک است. پایین ترین خط در شکل حداکثر باز شدن فک را نشان می دهد.
واج [ǝ] واکه خنثی نامیده می شود، زیرا زبان و لب برای تولید این واکه در خنثی ترین موقعیت قرار دارند، بنابراین شکل مجرای صوتی شبیه به یک لوله همگن است که سطح مقطع ثابتی دارد.
طیفنگار صوتی در شکل فوق، الگوی زمانی روشن و تاریک طیف فرکانس را به صورت بصری نشان میدهد. قسمتهای تاریک نشاندهنده مولفههای طیفی با انرژی بالا و نوارهای عمودی مربوط به دوره بنیادی (fundamental period) است. این شکل نشان میدهد که موج گفتار و طیف گفتار به عنوان فرآیندهای غیر ایستان (nonstationary)، در دورههای 1/2 ثانیه یا بیشتر تغییر می کنند. با این حال، اگر به دورههای 20-40 میلیثانیه تقسیمبندی بکنیم، موج و طیف گفتار را میتوان دارای ویژگیهای ثابت در نظر گرفت. خطوط عمودی در این شکل مرزها را نشان میدهد. تقسیمبندی به طور خودکار بر اساس مقدار تغییرات طیفی کوتاه مدت انجام شده است. در طول دورههای تولید صامت بیواکه /s/ یا / tʃ/، امواج گفتار، امواجی تصادفی با دامنههای کوچک را نشان میدهند و طیفها، الگوهای تصادفی را نشان میدهند. از سوی دیگر، در طول دورههای تولید صوتهای واکهدار(صدادار)، مانند صداهایی با /i، /e/، /a/، /o/، /u/، /N/، امواج گفتار، امواجی متناوب با دامنههای زیاد (همراه با طیفهایی که تکرارهای نسبتاً کلیِ الگوهای روشن و تاریک را نشان میدهد) را ارائه میدهند. محدوده دینامیکی دامنه موج گفتار به قدری زیاد است که اختلاف دامنه بین صوتهای بدون صدا با دامنه های کوچکتر و صوتهای صدادار با دامنه بزرگتر گاهی اوقات از 30 دسیبل فراتر میرود.
فرمانت(formant): سازند یا فرمانت، به تمرکزی از انرژی صوتی حول یک فرکانس خاص در موج گفتار گفته میشود. چندین سازند وجود دارد که هر کدام در فرکانس متفاوتی هستند. هر سازند مربوط به یک رزونانس (تشدید) در مجرای صوتی است. مولفههای فرکانسیِ غالب که واجهای متناظر با مولفههای فرکانسِ تشدیدِ مصوتها را مشخص میکنند، عموماً دارای سه فرمانت هستند که به آنها فرمانتهای اول، دوم و سوم میگویند ،که با مولفهی پایین ترین فرکانس شروع میشوند. آنها معمولاً به صورت F2، F1 و F3 نوشته میشوند. با این حال، حتی برای یک واج یکسان، این فرکانسهای سازند تا حد زیادی بسته به گوینده متفاوت است. علاوه بر این، فرکانسهای سازند بسته به واجهای مجاور در گفتارهای پیوسته، مانند آنهایی که در طول مکالمه منتشر میشوند، متفاوت است.
کوارتیکولاسیون (coarticulation):به همپوشانیِ ویژگیهای آوایی از واج به واج را کوارتیکولاسیون یا همفراگویی میگویند. هر واج را میتوان به عنوان هدفی در نظر گرفت که اندامهای صوتی به سمت آن نشانه میروند اما هرگز به آن نمیرسند. به محض نزدیک شدن به هدف تقریباً به اندازهای که برای شنونده قابل درک باشد، اندامها مقصد خود را تغییر داده و شروع به حرکت به سمت یک هدف جدید میکنند. این کار برای به حداقل رساندن تلاش صرف شده در صحبت کردن انجام میشود و باعث روان شدن بیشتر میشود. پدیده کوارتیکولاسیون بر مشکلات سنتز گفتار (speech synthesis) و بازشناسی گفتار می افزاید. از آنجایی که گفتاری که در آن کوارتیکولاسیون اتفاق نیافتد برای گوش ما غیرطبیعی به نظر میرسد، برای سنتز با کیفیت بالا، بایستی درجه مناسبی از کوارتیکولاسیون را لحاظ کنیم. در بازشناسی، کوارتیکولاسیون به این معناست که ویژگیهای واجهای مجزا هرگز در هجاهای متصل (connected syllables) یافت نمیشوند. از این رو هر سیستم بازشناسی مبتنی بر شناسایی واجها باید لزوماً برای تأثیرات زمینهای تصحیح شود.
جلو یا پشت بدنه زبان ضمن حفظ تقریبیِ ارتفاع زبان، باعث افزایش یا پایین آمدن F2 میشود که بر این اساس، بر شکل طیفی کلی تأثیر میگذارد.
ویژگیهای اصلی آکوستیک سازندهای مصوت را میتوان با Fl و F2 مشخص کرد.
شکل زیر نمودار پراکندگی فرکانسهای سازند پنج مصوت جدا شده ژاپنی در صفحه F1-F2 را نشان میدهد که محورهای افقی و عمودی آنها به ترتیب فرکانسهای سازند اول و دوم، یعنی F1 و F2 هستند. این شکل نشاندهنده توزیع برای 30 گوینده مرد و 30 گوینده زن و همچنین مقادیر میانگین و انحراف معیار برای این گویندگان است. همانطور که در این شکل نشان داده شده است، پنج مصوت معمولاً به شکل مثلثی توزیع میشوند که گاهی اوقات به آن مثلث مصوت گفته میشود.
شکل زیر نمودار پراکندگی فرکانسهای سازند 10 مصوت انگلیسی بیان شده توسط 76 گوینده (33 مرد ، 28 زن و 15 کودک) در صفحه F1-F2 را نشان میدهد. توزیع مصوتهای استخراج شده از گفتار پیوسته به طور کلی نشان دهنده همپوشانی بین مصوتهای مختلف است.
سازند مرتبه بالاتر، بسته به مصوتهای بیان شده، تغییرات کمتری را نشان میدهد. بنابراین، سازند مربته بالاتر برای هر گوینده با طول مجرای صوتی او (مرد یا زن) مقدار خاصی دارد. اگرچه دشوار است، اما پهنای باند سازند توسط بسیاری از محققان محاسبه شده است. محدوده مقادیر استخراج شده از 30 تا 120 هرتز (میانگین 50 هرتز) برای فرمانت اول (F1)، 30 تا 200 هرتز (میانگین 60 هرتز) برای فرمانت دوم (F2) و 40 تا 300 هرتز (میانگین 115 هرتز) برای فرمانت سوم (F3) است. تغییر در پهنای باند، اثرگذاری کوچکی روی کیفیت (quality) گفتارِ شنیده شده دارد.
صامتها بر اساس تناوب امواج (واکهدار/ بیواکه)، طیف فرکانس، مدت زمان و تغییرات زمانی طبقهبندی میشوند. ویژگیهای آکوستیکیِ صامتها تا حد زیادی به دلیل کوارتیکولاسیون با مصوتها تغییر میکنند، زیرا صامتها در اصل هیچ دوره پایدار یا حالت ثابتی ندارند. به خصوص با تکلم سریع، آرتیکولاسیونِ واجئی که در ادامه میآید، یعنی حرکت زبان و لب به سمت محل بیان واج پیش رو، قبل از اتمام بیان واجی که در حال حاضر بیان میشود، شروع میشود. کوارتیکولاسیون گاهی اوقات بر واجهایی که فراتر از واجهای مجاور قرار دارند تأثیر میگذارد. علاوه بر این، از آنجایی که اندامهای کوارتیکولاسیون مختلف در تولید گفتار واقعی دخیل هستند و از آنجایی که هر اندام ثابت زمانی حرکت خود را دارد، پدیده های صوتی ناشی از این حرکات بسیار پیچیده است. از این رو، به دست آوردن تناظرِ یک به یک بین نمادهای آوایی و ویژگی های صوتی بسیار دشوار است. در این شرایط، تمرکز بر بررسی روشهایی برای تعیین هر واج با ترکیب ویژگیهای نسبتاً ساده به جای تعیین ویژگیهای صوتی خاص هر واج بوده است. این ویژگیهایی که تاکنون رسمیت یافتهاند، که ویژگیهای متمایز نامیده میشوند، شامل بازنمایی دودویی نُه جفت توصیفی هستند:
1) vocal/nonvocalic, 2) consonantal/nonconsonantal, 3) compact/diffuse, 4) grave/acute, 5) flat/ plain, 6) nasal/oral, 7) tense/lax, 8) continuant/interrupted, 9) strident/ mellow.
الف)توزیع سطح دامنه
شکل زیر توزیع انباشته سطح دامنه گفتار را نشان می دهد که برای گفتههای 80 گوینده (4 گوینده * 20 زبان) با مدت زمان تقریباً 37 دقیقه محاسبه شده است
محور افقی، به ویژه سطح دامنه، توسط مقدار موثر بلند مدت (long-term effective value) یا مقدار جذر میانگین مربعات (rms) نرمالایز شده است. محور عمودی فرکانس دامنه انباشته شده از مقادیر بزرگ را نشان میدهد، به عبارت دیگر فرکانس مقادیر دامنه بزرگتر از مقدار نشان داده شده است. این نتایج به وضوح تأیید میکند که محدوده دینامیکی دامنه گفتار از 50 دسیبل عبور میکند.
تفاوت بین سطح دامنه (که در آن مقدار انباشته شده به 1٪ میرسد) و مقدار موثر طولانی مدت، ضریب پیک (peak factor) نامیده میشود زیرا به sharpness موج مربوط میشود.
ب)طیف متوسط بلندمدت
شکل زیر طیفهای گفتاری متوسط طولانیمدت استخراج شده با استفاده از 20 کانال از فیلترهای میانگذر اکتاو یکسوم را نشان میدهد که محدوده فرکانس 0-9 کیلوهرتز را پوشش میدهند. این نتایج با استفاده از گفتههای 80 سخنران 20 زبان به دست آمده است.
همانطور که در شکل فوق مشخص است، بین گویندگان مرد و زن اختلاف جزئی وجود دارد، به جز محدوده فرکانس پایین که در آن طیف تحت تأثیر تغییرات فرکانس بنیادی قرار میگیرد.
اختلاف بین زبانها نیز بسیار کم است. بر اساس این نتایج، شکل طیف گفتار معمولی با ترکیب یک طیف مسطح و یک طیف با شیب 10- دسیبل/اکتاو نشان داده میشود. اولی برای محدوده فرکانس کمتر از 500 هرتز اعمال می شود، در حالی که دومی برای محدوده فرکانس بالاتر از 500 هرتز اعمال می شود. اگرچه طیف میانگین طولانی مدت محاسبه شده از طریق روش فوق الذکر تنها تفاوت های جزئی را بین گویندگان نشان می دهد، آنهایی که با رزولوشن فرکانسی بالا (high-frequency resolution) محاسبه می شوند قطعاً دارای تفاوت های فردی هستند.
ج)تغییر و ناپایداری در فرکانس بنیادی
تجزیه و تحلیل آماری تغییرات زمانی در فرکانس بنیادی در طول گفتار مکالمه برای هر گوینده نشان میدهد که میانگین و انحراف معیار برای صدای زنانه تقریباً دو برابر صدای مردان است که در شکل زیر نشان داده شده است:
فرکانس بنیادی توزیع شده گویندگان در مقیاس فرکانس لگاریتمی را میتوان با دو تابع توزیع نرمال که به ترتیب با صدای مرد و زن مطابقت دارند، تقریب زد، که در شکل زیر نشان داده شده است:
میانگین و انحراف استاندارد برای صدای مردان به ترتیب 125 و 20.5 هرتز است، در حالی که برای صدای زنان دو برابر بزرگتر است. تجزیه و تحلیل فرکانس الگوی زمانی فرکانس اساسی (که در آن دوره silent به نرمی کانکت میشود) نشان میدهد که فرکانس تغییرات زمانی کمتر از 10 هرتز است. این نشان میدهد که سرعت تغییرات زمانی در فرکانس بنیادی نسبتاً آهسته است.
د)نرخ گفتار
گفتار مکالمه (Conversational speech) شامل دورههای مکث (pause) و گفتار است و نسبت دورههای گفتار واقعی به عنوان نرخ گفتار نامیده میشود. گفتار مکالمه یک شیوه اساسی رفتار انسان است. در مبادلات پیش زبانی بین مادر و نوزاد رخ می دهد و تنها منبع اطلاعات کودک در مورد زبان در حین اکتساب گفتار است. تغییر در سرعت گفتار عمدتاً با تغییر دورههای مکث انجام میشود. علاوه بر این، انبساط یا انقباض در طول دورههای مصوت به طور کلی بزرگتر از آن در دوره های صامت است.
مرجع اصلی:
Digital Speech Processing, Synthesis, and Recognition, Sadaoki Furui