خواندن ۱۶ دقیقه·۲ سال پیش

خصوصیات اصلی گفتار

یک موج گفتار بطور کلی حامل اطلاعات زبانی، ویژگی‌های صوتی و احساسی گوینده است.

1.اطلاعات زبانی:

موج گفتار انواع مختلفی از اطلاعات را منتقل می‌کند، که عمدتاً شامل الف) اطلاعات زبانی است که نشان‌دهنده معنا ومنظوری است که گوینده می‌خواهد منتقل کند، ب) اطلاعات فردی، که نشان‌دهنده این است که چه کسی دارد صحبت می‌کند و ج) اطلاعات احساسی ،که احساسات گوینده را نشان می‌دهد.

فرآیند تولید گفتار انسان، با مفهوم‌پردازی اولیه ایده‌ای آغاز می‌شود که گوینده می‌خواهد به شنونده منتقل کند. متعاقباً گوینده با انتخاب کلمات و عبارات مناسب، آن ایده را به یک ساختار زبانی تبدیل کرده و سپس آنها را بر اساس قواعد دستوری مرتب می‌کند. سپس، مغز انسان دستورات عصب حرکتی را اعمال می کند تا عضلات مختلف اندام‌های صوتی حرکت داده شوند. این فرآیند اساساً به دو زیرفرآیند تقسیم می شود: فرآیند فیزیولوژیکی شامل اعصاب و ماهیچه ها و فرآیند فیزیکی که از طریق آن موج گفتار تولید و منتشر می شود.

ویژگی‌های گفتار در زمره‌ی پدیده‌های فیزیکی پیوسته قرار می‌گیرند، اگرچه زبان منتقل شده توسط گفتار اساساً از واحدهای رمزگذاری‌شده‌ی (کدشده‌ی) گسسته تشکیل شده است.

یک جمله با استفاده از واحدهای اصلی کلمه ساخته می شود، که هر کلمه از هجا تشکیل شده است، و هر هجا از واج تشکیل شده است، که به نوبه خود می‌تواند به عنوان مصوت یا صامت طبقه‌بندی شود. واج، کوچک‌ترین واحد صوتی زبان است که می‌تواند در معنا تغییری ایجاد کند. یک هجا به طور کلی از الحاق یک مصوت با یک یا چند صامت تشکیل می شود. تعداد مصوت ها و صامت ها بسته به روش طبقه‌بندی و زبان متفاوت است. به عنوان مثال، زبان فارسی دارای 6 مصوت و 23 صامت، زبان انگلیسی دارای 12 مصوت و 24 صامت و زبان ژاپنی دارای 5 مصوت و 20 صامت است.

2.گفتار و شنود:

همانطور که در شکل زیر (زنجیره گفتار) نشان داده شده است، موج گفتاری تولیدشده توسط اندام‌های صوتی از طریق هوا به گوش شنوندگان منتقل می‌شود. سپس موجِ گفتاریِ وارده شده در گوش، اندام‌های شنوایی را جهت تولید تکانه‌های عصبی فعال می کند تا از طریق سیستمِ عصبیِ شنوایی به مغزِ شنونده منتقل شود. این امر اجازه می‌دهد تا اطلاعات زبانی که گوینده قصد انتقال آن را دارد به آسانی برای شنونده قابل درک باشد. در عین حال، موج گفتار تولیدشده توسط گوینده، به طور طبیعی به گوش خود گوینده نیز منتقل می‌شود و به او اجازه می‌دهد تا با دریافت گفتار خود به عنوان بازخورد، به طور مداوم اندام‌های صوتی خود را کنترل کند.

مشهود است که وقتی گفتار خودمان با تاخیر زمانی مشخصی(اثر بازخورد تاخیری) به گوش ما بازمی‌گردد، صحبت‌کردن بسیار سخت خواهد شد. ارتباط ذاتی بین تولید گفتار و شنیدن، زنجیره گفتار نامیده می شود.

از نظر تولید، زنجیره گفتار شامل مراحل زبانی، فیزیولوژیکی و فیزیکی (آکوستیکی) است که ترتیب این مراحل برای امر «شنود» معکوس است یعنی شامل مراحل آکوستیکی، فیزیولوژیکی و زبانی خواهد بود.

یکی از مزایای قابلیت شنوایی، گوش دادن انتخابی است، که به شنونده اجازه می‌دهد حتی زمانی که چندین نفر به طور همزمان صحبت می‌کنند، تنها یک صدا را بشنود.

از سوی دیگر، مکانیزم شنوایی انسان توانایی بسیار کمی از خود نشان می دهد. یک مثال از نقاط ضعف ذاتی آن این است که گوش نمی‌تواند دو صدایی که از نظر فرکانس مشابه هستند یا فاصله زمانی بسیار کوتاهی بین آنها وجود دارد را جدا و از همدیگر تمییز دهد. جنبه منفی دیگر این است که وقتی دو تُن یا نواخت (tones) همزمان وجود داشته باشند، یکی شنیده نمی شود زیرا توسط دیگری پوشانده شده است.

قابلیت شنوایی پیچیده ذکر شده توسط مکانیزم پیچیده درک زبان که توسط مغز کنترل می شود، پشتیبانی می‌گردد.

3.مکانیزم تولید گفتار:

فرآیند تولید گفتار شامل سه زیرفرآیند است: تولید منبع (source generation)، آرتیکولاسیون (articulation) و انتشار (radiation). تولید منبع در گفتار، به فرآیند تولید گفتار از متن یا سایر منابع اشاره دارد. آرتیکولاسیون، به تنظیم شکل مجرای صوتی برای تولید اصوات مختلف زبانی گفته می‌شود؛ به عبارت دیگر به عمل تولید صدا، گفتن کلمات، بیان افکار یا احساسات در کلمات اشاره دارد. انتشار یا تشعشع، همان چیزی است که در لب‌ها اتفاق می افتد تا امواج صوتی در مجرای صوتی به هوای آزاد منتشر شود.

مجموعه اندام صوتی انسان شامل ریه‌ها (lungs)، نای (trachea)، حنجره (larynx )، حلق (pharynx )، حفره بینی (nasal cavity) و حفره دهانی (oral cavity) است. اینها با هم یک تیوب یا لوله متصل را تشکیل می‌دهند. قسمت بالایی که از حنجره شروع می‌شود، مجرای صوتی (vocal tract) نامیده می‌شود که با حرکت دادن فک، زبان، لب‌ها و سایر قسمت‌های داخلی به اشکال مختلف تغییر می‌کند.

حفره بینی با بالارفتن velum یا نرم‌کام(soft palate)، از حلق و حفره دهان جدا می‌گردد (نرم‌کام، بافت نرمی است که بخش عقب سقف دهان را تشکیل می‌دهد. سخت‌کام که در بخش جلوتر دهان قرار گرفته استخوان دارد ولی نرم‌کام بدون استخوان است). هنگامی که عضلات شکم با بالا بردن دیافراگم به سمت بالا به حفره فشار وارد می کنند، هوا از ریه‌ها به سمت بالا و خارج هل داده می‌شود و جریان هوا از نای و چاکنای (glottis) می‌گذرد و به حنجره می‌رسد (چاکنای، دهانه یا مدخل نای است که پرده های صوتی در آن قرار دارند). چاکنای یا شکاف (فاصله) بین تارهای صوتی چپ و راست، که معمولاً در هنگام تنفس باز است، زمانی که گوینده قصد تولید صدا را دارد باریکتر می شود. سپس جریان هوا از طریق چاکنای به صورت دوره‌ای (متناوب) با باز و بسته شدن شکاف مطابق با تعامل بین جریان هوا و تارهای صوتی قطع می شود. این جریان متناوب که منبع گلوتال یا منبع گفتار نامیده می شود، می تواند توسط امواج مثلثی نامتقارن شبیه‌سازی شود.

هنگامی که تارهای صوتی به شدت تحت فشار قرار می گیرند و فشار هوای خارج شده از ریه‌ها (فشار هوای ساب‌گلوتال) زیاد است، دوره باز و بسته شدن یعنی دوره ارتعاش تارهای صوتی کوتاه می‌شود و زیر و بمی صدا (pitch ) منبع بالا می‌رود. برعکس، شرایط فشار هوای کم، صدایی با زیر و بمیِ کمتر تولید می کند. این دوره ارتعاش تارهای صوتی را دوره بنیادی و عکس آن را فرکانس بنیادی می نامند.

منبع صدا که از اجزای بنیادی و هارمونیک تشکیل شده است، توسط مجرای صوتی اصلاح می‌شود تا tonal qualities مانند /a/ و io/ تولید کند (در تولید مصوت -حرف صدادار- ). کیفیت تونال، به کیفیت احساس یا بیان اطلاق می شود که از طریق زبان، موسیقی یا سایر اشکال ارتباط منتقل می شود . در طول تولید مصوت، مجرای صوتی در یک پیکربندی نسبتاً پایدار در سراسر گفته (utterance) حفظ می‌شود.

مکانیزم‌های سایشی و انسدادی: این دو مکانیزم، مسئول تغییر جریان هوا از ریه‌ها به صدای گفتار هستند. اینها مکانیزم های زیربنایی تولید دو نوع صامت هستند: اصطکاکی یا سایشی (fricatives ) و انسدادی یا انفجاری (plosives). صداهای سایشی مانند /s/ ,/f/, /ʃ/ ، صداهای نویزمانندی هستند که توسط جریان متلاطم ایجاد می‌شوند و زمانی اتفاق می‌افتد که جریان هوا از یک انقباض در مجرای صوتی ایجاد شده توسط زبان یا لب‌ها عبور می‌کند. تفاوت تونالِ (tonal difference) هر سایشی (fricative) مربوط به انقباض و شکل مجرای صوتی نسبتاً دقیقی است. انفجاریها (صامت های توقف)، مانند /p/, /t/, /k/ صداهای تکانشی ) impulsive هستند که با انتشار ناگهانی هوای پرفشار ایجاد می شود که با کنترل جریان هوا در مجرای صوتی، دوباره با استفاده از زبان یا لب ها ایجاد می شود. تفاوتِ تونال به تفاوت بین موقعیت کنترل و شکل مجرای صوتی مربوط می‌شود.

تولید این صامت ها کاملاً مستقل از ارتعاش تارهای صوتی است. صامت هایی که با ارتعاش تارهای صوتی همراه هستند به صامت های صدادار و آن هایی که با این ارتعاش همراه نباشند صامت های بی صدا می گویند. صداهایی که با ارتعاش تارهای صوتی منتشر می شوند، صوتهای واکه‌دار (voiced sound) نامیده میشوند و صوتهایی که بدون ارتعاش هستند، صداهای بی‌واکه نامیده می شوند.

نکته: صداهای نیمه‌مصوت (Semivowel)، خیشومی(nasal) و انسدادی‌سایشی(affricate) (این آوا از ترکیب آوای انسدادی ( stop ) و آوای سایشی ( fricative ) به وجود می آید) در خانواده صامت‌ها قرار می گیرند.

نیمه‌مصوت‌ها به روشی مشابهِ مصوت‌ها تولید می‌شوند، اما ویژگی‌های فیزیکی آن‌ها به‌تدریج (بدون یک دوره بیان ثابت) تغییر می‌کند. اگرچه نیمه‌مصوتها در صامت‌ها قرار می‌گیرند، اما نه جریان هوای متلاطم دارند و نه صدای پالس‌مانند، زیرا انقباض مجرای صوتی شل است و حرکت اندام صوتی نسبتاً آهسته است.

در تولید صداهای خیشومی، حفره بینی به انشعابی گسترده از حفره دهان تبدیل می‌شود و جریان هوا با پایین آوردن vellum و قطع جریان هوا در یک مکان خاص در حفره دهان به حفره بینی می‌رسد. هنگامی که حفره بینی در حین تولید واکه، بخشی از مجرای صوتی را همراه با حفره دهان تشکیل می‌دهد، vowel quality خیشومی می‌شود و مصوت خیشومی‏‌شده (nasalized vowel) را تولید می‌کند. بنابراین صدای خیشومی، آوایی است که در ادای آن مجرای گفتار در نقطه‏ای مسدود گردد، ولی عبور هوا به خارج بدون برخورد با هیچ مانعی از طریق بینی انجام شود.

آفریکیت‌ها (Affricates)، از توالی صداهای انفجاری و اصطکاکی (plosive and fricative) تولید می شوند.

برخی حروف، با بیرون دادن هوا از دهان ادا می‌شوند. آسپیراسیون یا دَمِش (Aspiration) و یا پچ‌پچ زمانی تولید می‌شود که یک جریان متلاطم در گلوت (دهانه حنجره) با باز کردن اندکی تارهای صوتی ایجاد شود تا لرزش تارهای صوتی ایجاد نشود.

صوت ها ممکن است به طور کلی با pitch، loudness و quality مشخص شوند. . «quality» یا «timbre» یا طنین صدا، خصوصیاتی از صدا را توصیف می‌کند که به گوش اجازه می‌دهد صداهایی را که دارای زیر و بمی و بلندیِ یکسان هستند را تشخیص دهد. بنابراین timbre یک اصطلاح کلی برای ویژگی های قابل تشخیص یک tone است. qualityهای مختلف تُن، با تغییر شکل مجرای صوتی ایجاد می شوند که ویژگی های انتقال یعنی ویژگی‌های رزونانس مجرای صوتی را تغییر می‌دهند.

صامت‌های انگلیسی به صورت زیر دسته‌بندی می‌شوند:

مصوت‌های انگلیسی به صورت زیر دسته‌بندی می‌شوند:

خطوط افقی در شکل فوق، محل تقریبی انقباض مجرای صوتی را نشان می دهد: هر چه بیشتر به سمت چپ باشد، انقباض به جلو (نزدیک لب ها) نزدیک تر است. خطوط عمودی درجه انقباض را نشان می دهد که مربوط به موقعیت باز شدن فک است. پایین ترین خط در شکل حداکثر باز شدن فک را نشان می دهد.

واج [ǝ] واکه خنثی نامیده می شود، زیرا زبان و لب برای تولید این واکه در خنثی ترین موقعیت قرار دارند، بنابراین شکل مجرای صوتی شبیه به یک لوله همگن است که سطح مقطع ثابتی دارد.

4.خصوصیات آکوستیکی گفتار:

طیف‌نگار صوتی در شکل فوق، الگوی زمانی روشن و تاریک طیف فرکانس را به صورت بصری نشان می‌دهد. قسمت‌های تاریک نشان‌دهنده مولفه‌های طیفی با انرژی بالا و نوارهای عمودی مربوط به دوره بنیادی (fundamental period) است. این شکل نشان می‌دهد که موج گفتار و طیف گفتار به عنوان فرآیندهای غیر ایستان (nonstationary)، در دوره‌های 1/2 ثانیه یا بیشتر تغییر می کنند. با این حال، اگر به دوره‌های 20-40 میلی‌ثانیه تقسیم‌بندی بکنیم، موج و طیف گفتار را می‌توان دارای ویژگی‌های ثابت در نظر گرفت. خطوط عمودی در این شکل مرزها را نشان می‌دهد. تقسیم‌بندی به طور خودکار بر اساس مقدار تغییرات طیفی کوتاه مدت انجام شده است. در طول دوره‌های تولید صامت بی‌واکه /s/ یا / tʃ/، امواج گفتار، امواجی تصادفی با دامنه‌های کوچک را نشان می‌دهند و طیف‌ها، الگوهای تصادفی را نشان می‌دهند. از سوی دیگر، در طول دوره‌های تولید صوتهای واکه‌دار(صدادار)، مانند صداهایی با /i، /e/، /a/، /o/، /u/، /N/، امواج گفتار، امواجی متناوب با دامنه‌های زیاد (همراه با طیف‌هایی که تکرارهای نسبتاً کلیِ الگوهای روشن و تاریک را نشان می‌دهد) را ارائه می‌دهند. محدوده دینامیکی دامنه موج گفتار به قدری زیاد است که اختلاف دامنه بین صوتهای بدون صدا با دامنه های کوچکتر و صوتهای صدادار با دامنه بزرگتر گاهی اوقات از 30 دسی‌بل فراتر می‌رود.

فرمانت(formant): سازند یا فرمانت، به تمرکزی از انرژی صوتی حول یک فرکانس خاص در موج گفتار گفته می‌شود. چندین سازند وجود دارد که هر کدام در فرکانس متفاوتی هستند. هر سازند مربوط به یک رزونانس (تشدید) در مجرای صوتی است. مولفه‌های فرکانسیِ غالب که واج‌های متناظر با مولفه‌های فرکانسِ تشدیدِ مصوت‌ها را مشخص می‌کنند، عموماً دارای سه فرمانت هستند که به آنها فرمانت‌های اول، دوم و سوم می‌گویند ،که با مولفه‌ی پایین ترین فرکانس شروع می‌شوند. آنها معمولاً به صورت F2، F1 و F3 نوشته می‌شوند. با این حال، حتی برای یک واج یکسان، این فرکانس‌های سازند تا حد زیادی بسته به گوینده متفاوت است. علاوه بر این، فرکانس‌های سازند بسته به واج‌های مجاور در گفتارهای پیوسته، مانند آنهایی که در طول مکالمه منتشر می‌شوند، متفاوت است.

کوارتیکولاسیون (coarticulation):به همپوشانیِ ویژگی‌های آوایی از واج به واج را کوارتیکولاسیون یا همفراگویی می‌گویند. هر واج را می‌توان به عنوان هدفی در نظر گرفت که اندام‌های صوتی به سمت آن نشانه می‌روند اما هرگز به آن نمی‌رسند. به محض نزدیک شدن به هدف تقریباً به اندازه‌ای که برای شنونده قابل درک باشد، اندام‌ها مقصد خود را تغییر داده و شروع به حرکت به سمت یک هدف جدید می‌کنند. این کار برای به حداقل رساندن تلاش صرف شده در صحبت کردن انجام می‌شود و باعث روان شدن بیشتر می‌شود. پدیده کوارتیکولاسیون بر مشکلات سنتز گفتار (speech synthesis) و بازشناسی گفتار می افزاید. از آنجایی که گفتاری که در آن کوارتیکولاسیون اتفاق نیافتد برای گوش ما غیرطبیعی به نظر می‌رسد، برای سنتز با کیفیت بالا، بایستی درجه مناسبی از کوارتیکولاسیون را لحاظ کنیم. در بازشناسی، کوارتیکولاسیون به این معناست که ویژگی‌های واج‌های مجزا هرگز در هجاهای متصل (connected syllables) یافت نمی‌شوند. از این رو هر سیستم بازشناسی مبتنی بر شناسایی واج‌ها باید لزوماً برای تأثیرات زمینه‌ای تصحیح شود.

جلو یا پشت بدنه زبان ضمن حفظ تقریبیِ ارتفاع زبان، باعث افزایش یا پایین آمدن F2 می‌شود که بر این اساس، بر شکل طیفی کلی تأثیر می‌گذارد.

ویژگی‌های اصلی آکوستیک سازندهای مصوت را می‌توان با Fl و F2 مشخص کرد.

شکل زیر نمودار پراکندگی فرکانس‌های سازند پنج مصوت جدا شده ژاپنی در صفحه F1-F2 را نشان می‌دهد که محورهای افقی و عمودی آنها به ترتیب فرکانس‌های سازند اول و دوم، یعنی F1 و F2 هستند. این شکل نشان‌دهنده توزیع برای 30 گوینده مرد و 30 گوینده زن و همچنین مقادیر میانگین و انحراف معیار برای این گویندگان است. همانطور که در این شکل نشان داده شده است، پنج مصوت معمولاً به شکل مثلثی توزیع می‌شوند که گاهی اوقات به آن مثلث مصوت گفته می‌شود.

شکل زیر نمودار پراکندگی فرکانس‌های سازند 10 مصوت انگلیسی بیان شده توسط 76 گوینده (33 مرد ، 28 زن و 15 کودک) در صفحه F1-F2 را نشان می‌دهد. توزیع مصوت‌های استخراج شده از گفتار پیوسته به طور کلی نشان دهنده همپوشانی بین مصوت‌های مختلف است.

سازند مرتبه بالاتر، بسته به مصوت‌های بیان شده، تغییرات کمتری را نشان می‌دهد. بنابراین، سازند مربته بالاتر برای هر گوینده با طول مجرای صوتی او (مرد یا زن) مقدار خاصی دارد. اگرچه دشوار است، اما پهنای باند سازند توسط بسیاری از محققان محاسبه شده است. محدوده مقادیر استخراج شده از 30 تا 120 هرتز (میانگین 50 هرتز) برای فرمانت اول (F1)، 30 تا 200 هرتز (میانگین 60 هرتز) برای فرمانت دوم (F2) و 40 تا 300 هرتز (میانگین 115 هرتز) برای فرمانت سوم (F3) است. تغییر در پهنای باند، اثرگذاری کوچکی روی کیفیت (quality) گفتارِ شنیده شده دارد.

صامت‌ها بر اساس تناوب امواج (واکه‌دار/ بی‌واکه)، طیف فرکانس، مدت زمان و تغییرات زمانی طبقه‌بندی می‌شوند. ویژگی‌های آکوستیکیِ صامت‌ها تا حد زیادی به دلیل کوارتیکولاسیون با مصوت‌ها تغییر می‌کنند، زیرا صامت‌ها در اصل هیچ دوره پایدار یا حالت ثابتی ندارند. به خصوص با تکلم سریع، آرتیکولاسیونِ واج‌ئی که در ادامه می‌آید، یعنی حرکت زبان و لب به سمت محل بیان واج پیش رو، قبل از اتمام بیان واجی که در حال حاضر بیان می‌شود، شروع می‌شود. کوارتیکولاسیون گاهی اوقات بر واج‌هایی که فراتر از واج‌های مجاور قرار دارند تأثیر می‌گذارد. علاوه بر این، از آنجایی که اندام‌های کوارتیکولاسیون مختلف در تولید گفتار واقعی دخیل هستند و از آنجایی که هر اندام ثابت زمانی حرکت خود را دارد، پدیده های صوتی ناشی از این حرکات بسیار پیچیده است. از این رو، به دست آوردن تناظرِ یک به یک بین نمادهای آوایی و ویژگی های صوتی بسیار دشوار است. در این شرایط، تمرکز بر بررسی روش‌هایی برای تعیین هر واج با ترکیب ویژگی‌های نسبتاً ساده به جای تعیین ویژگی‌های صوتی خاص هر واج بوده است. این ویژگی‌هایی که تاکنون رسمیت یافته‌اند، که ویژگی‌های متمایز نامیده می‌شوند، شامل بازنمایی دودویی نُه جفت توصیفی هستند:

1) vocal/nonvocalic, 2) consonantal/nonconsonantal, 3) compact/diffuse, 4) grave/acute, 5) flat/ plain, 6) nasal/oral, 7) tense/lax, 8) continuant/interrupted, 9) strident/ mellow.

5.خصوصیات آماری گفتار:

الف)توزیع سطح دامنه

شکل زیر توزیع انباشته سطح دامنه گفتار را نشان می دهد که برای گفته‌های 80 گوینده (4 گوینده * 20 زبان) با مدت زمان تقریباً 37 دقیقه محاسبه شده است

محور افقی، به ویژه سطح دامنه، توسط مقدار موثر بلند مدت (long-term effective value) یا مقدار جذر میانگین مربعات (rms) نرمالایز شده است. محور عمودی فرکانس دامنه انباشته شده از مقادیر بزرگ را نشان می‌دهد، به عبارت دیگر فرکانس مقادیر دامنه بزرگتر از مقدار نشان داده شده است. این نتایج به وضوح تأیید می‌کند که محدوده دینامیکی دامنه گفتار از 50 دسی‌بل عبور می‌کند.

تفاوت بین سطح دامنه (که در آن مقدار انباشته شده به 1٪ می‌رسد) و مقدار موثر طولانی مدت، ضریب پیک (peak factor) نامیده می‌شود زیرا به sharpness موج مربوط می‌شود.

ب)طیف متوسط بلندمدت

شکل زیر طیف‌های گفتاری متوسط طولانی‌مدت استخراج شده با استفاده از 20 کانال از فیلترهای میانگذر اکتاو یک‌سوم را نشان می‌دهد که محدوده فرکانس 0-9 کیلوهرتز را پوشش می‌دهند. این نتایج با استفاده از گفته‌های 80 سخنران 20 زبان به دست آمده است.

همانطور که در شکل فوق مشخص است، بین گویندگان مرد و زن اختلاف جزئی وجود دارد، به جز محدوده فرکانس پایین که در آن طیف تحت تأثیر تغییرات فرکانس بنیادی قرار می‌گیرد.

اختلاف بین زبان‌ها نیز بسیار کم است. بر اساس این نتایج، شکل طیف گفتار معمولی با ترکیب یک طیف مسطح و یک طیف با شیب 10- دسی‌بل/اکتاو نشان داده می‌شود. اولی برای محدوده فرکانس کمتر از 500 هرتز اعمال می شود، در حالی که دومی برای محدوده فرکانس بالاتر از 500 هرتز اعمال می شود. اگرچه طیف میانگین طولانی مدت محاسبه شده از طریق روش فوق الذکر تنها تفاوت های جزئی را بین گویندگان نشان می دهد، آنهایی که با رزولوشن فرکانسی بالا (high-frequency resolution) محاسبه می شوند قطعاً دارای تفاوت های فردی هستند.

ج)تغییر و ناپایداری در فرکانس بنیادی

تجزیه و تحلیل آماری تغییرات زمانی در فرکانس بنیادی در طول گفتار مکالمه برای هر گوینده نشان می‌دهد که میانگین و انحراف معیار برای صدای زنانه تقریباً دو برابر صدای مردان است که در شکل زیر نشان داده شده است:

فرکانس بنیادی توزیع شده گویندگان در مقیاس فرکانس لگاریتمی را می‌توان با دو تابع توزیع نرمال که به ترتیب با صدای مرد و زن مطابقت دارند، تقریب زد، که در شکل زیر نشان داده شده است:

میانگین و انحراف استاندارد برای صدای مردان به ترتیب 125 و 20.5 هرتز است، در حالی که برای صدای زنان دو برابر بزرگتر است. تجزیه و تحلیل فرکانس الگوی زمانی فرکانس اساسی (که در آن دوره silent به نرمی کانکت میشود) نشان می‌دهد که فرکانس تغییرات زمانی کمتر از 10 هرتز است. این نشان می‌دهد که سرعت تغییرات زمانی در فرکانس بنیادی نسبتاً آهسته است.

د)نرخ گفتار

گفتار مکالمه‌ (Conversational speech) شامل دوره‌های مکث (pause) و گفتار است و نسبت دوره‌های گفتار واقعی به عنوان نرخ گفتار نامیده می‌شود. گفتار مکالمه‌ یک شیوه اساسی رفتار انسان است. در مبادلات پیش زبانی بین مادر و نوزاد رخ می دهد و تنها منبع اطلاعات کودک در مورد زبان در حین اکتساب گفتار است. تغییر در سرعت گفتار عمدتاً با تغییر دوره‌های مکث انجام می‌شود. علاوه بر این، انبساط یا انقباض در طول دوره‌های مصوت به طور کلی بزرگتر از آن در دوره های صامت است.

مرجع اصلی:

Digital Speech Processing, Synthesis, and Recognition, Sadaoki Furui

تارهای صوتیگفتارپردازش گفتارصوت

آرمان پرناک

شاید از این پست‌ها خوشتان بیاید

آرمان پرناک

خواندن ۱۶ دقیقه·۲ سال پیش

خصوصیات اصلی گفتار

یک موج گفتار بطور کلی حامل اطلاعات زبانی، ویژگی‌های صوتی و احساسی گوینده است.

1.اطلاعات زبانی:

موج گفتار انواع مختلفی از اطلاعات را منتقل می‌کند، که عمدتاً شامل الف) اطلاعات زبانی است که نشان‌دهنده معنا ومنظوری است که گوینده می‌خواهد منتقل کند، ب) اطلاعات فردی، که نشان‌دهنده این است که چه کسی دارد صحبت می‌کند و ج) اطلاعات احساسی ،که احساسات گوینده را نشان می‌دهد.

2.گفتار و شنود:

مشهود است که وقتی گفتار خودمان با تاخیر زمانی مشخصی(اثر بازخورد تاخیری) به گوش ما بازمی‌گردد، صحبت‌کردن بسیار سخت خواهد شد. ارتباط ذاتی بین تولید گفتار و شنیدن، زنجیره گفتار نامیده می شود.

یکی از مزایای قابلیت شنوایی، گوش دادن انتخابی است، که به شنونده اجازه می‌دهد حتی زمانی که چندین نفر به طور همزمان صحبت می‌کنند، تنها یک صدا را بشنود.

از سوی دیگر، مکانیزم شنوایی انسان توانایی بسیار کمی از خود نشان می دهد. یک مثال از نقاط ضعف ذاتی آن این است که گوش نمی‌تواند دو صدایی که از نظر فرکانس مشابه هستند یا فاصله زمانی بسیار کوتاهی بین آنها وجود دارد را جدا و از همدیگر تمییز دهد. جنبه منفی دیگر این است که وقتی دو تُن یا نواخت (tones) همزمان وجود داشته باشند، یکی شنیده نمی شود زیرا توسط دیگری پوشانده شده است.

قابلیت شنوایی پیچیده ذکر شده توسط مکانیزم پیچیده درک زبان که توسط مغز کنترل می شود، پشتیبانی می‌گردد.

3.مکانیزم تولید گفتار:

فرآیند تولید گفتار شامل سه زیرفرآیند است: تولید منبع (source generation)، آرتیکولاسیون (articulation) و انتشار (radiation). تولید منبع در گفتار، به فرآیند تولید گفتار از متن یا سایر منابع اشاره دارد. آرتیکولاسیون، به تنظیم شکل مجرای صوتی برای تولید اصوات مختلف زبانی گفته می‌شود؛ به عبارت دیگر به عمل تولید صدا، گفتن کلمات، بیان افکار یا احساسات در کلمات اشاره دارد. انتشار یا تشعشع، همان چیزی است که در لب‌ها اتفاق می افتد تا امواج صوتی در مجرای صوتی به هوای آزاد منتشر شود.

هنگامی که تارهای صوتی به شدت تحت فشار قرار می گیرند و فشار هوای خارج شده از ریه‌ها (فشار هوای ساب‌گلوتال) زیاد است، دوره باز و بسته شدن یعنی دوره ارتعاش تارهای صوتی کوتاه می‌شود و زیر و بمی صدا (pitch ) منبع بالا می‌رود. برعکس، شرایط فشار هوای کم، صدایی با زیر و بمیِ کمتر تولید می کند. این دوره ارتعاش تارهای صوتی را دوره بنیادی و عکس آن را فرکانس بنیادی می نامند.

نکته: صداهای نیمه‌مصوت (Semivowel)، خیشومی(nasal) و انسدادی‌سایشی(affricate) (این آوا از ترکیب آوای انسدادی ( stop ) و آوای سایشی ( fricative ) به وجود می آید) در خانواده صامت‌ها قرار می گیرند.

آفریکیت‌ها (Affricates)، از توالی صداهای انفجاری و اصطکاکی (plosive and fricative) تولید می شوند.

صامت‌های انگلیسی به صورت زیر دسته‌بندی می‌شوند:

مصوت‌های انگلیسی به صورت زیر دسته‌بندی می‌شوند:

4.خصوصیات آکوستیکی گفتار:

فرمانت(formant): سازند یا فرمانت، به تمرکزی از انرژی صوتی حول یک فرکانس خاص در موج گفتار گفته می‌شود. چندین سازند وجود دارد که هر کدام در فرکانس متفاوتی هستند. هر سازند مربوط به یک رزونانس (تشدید) در مجرای صوتی است. مولفه‌های فرکانسیِ غالب که واج‌های متناظر با مولفه‌های فرکانسِ تشدیدِ مصوت‌ها را مشخص می‌کنند، عموماً دارای سه فرمانت هستند که به آنها فرمانت‌های اول، دوم و سوم می‌گویند ،که با مولفه‌ی پایین ترین فرکانس شروع می‌شوند. آنها معمولاً به صورت F2، F1 و F3 نوشته می‌شوند. با این حال، حتی برای یک واج یکسان، این فرکانس‌های سازند تا حد زیادی بسته به گوینده متفاوت است. علاوه بر این، فرکانس‌های سازند بسته به واج‌های مجاور در گفتارهای پیوسته، مانند آنهایی که در طول مکالمه منتشر می‌شوند، متفاوت است.

ویژگی‌های اصلی آکوستیک سازندهای مصوت را می‌توان با Fl و F2 مشخص کرد.

1) vocal/nonvocalic, 2) consonantal/nonconsonantal, 3) compact/diffuse, 4) grave/acute, 5) flat/ plain, 6) nasal/oral, 7) tense/lax, 8) continuant/interrupted, 9) strident/ mellow.

5.خصوصیات آماری گفتار:

الف)توزیع سطح دامنه

ب)طیف متوسط بلندمدت

ج)تغییر و ناپایداری در فرکانس بنیادی

د)نرخ گفتار

مرجع اصلی:

Digital Speech Processing, Synthesis, and Recognition, Sadaoki Furui

تارهای صوتیگفتارپردازش گفتارصوت

آرمان پرناک

شاید از این پست‌ها خوشتان بیاید