نوشته های آرمان پرناک

نوشته های آرمان پرناک https://virgool.io/feed/@ArmanParnak . fa 2026-04-15 06:59:15 https://files.virgool.io/upload/users/1918955/avatar/brnsZS.png?height=120&width=120 آرمان پرناک https://virgool.io/@ArmanParnak تعاریف و اصطلاحات حوزه پردازش گفتار https://virgool.io/@ArmanParnak/%D8%AA%D8%B9%D8%A7%D8%B1%DB%8C%D9%81-%D9%88-%D8%A7%D8%B5%D8%B7%D9%84%D8%A7%D8%AD%D8%A7%D8%AA-%D8%AD%D9%88%D8%B2%D9%87-%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4-%DA%AF%D9%81%D8%AA%D8%A7%D8%B1-l2nixl76fijo بسامد (frequency): تعداد حرکت نوسانی را در مدت زمانی معین، بسامد (فرکانس)گویند. هر حرکت کامل نوسانی، تناوب نامیده می‌شود.در بحث اندازه‌گیری، هرتز برابر با تعداد نوسان بر ثانیه است. هر قدر بسامد صدا بیشتر باشد (یعنی حرکت ارتعاشی تندتر باشد) صدای حاصل، «زیر»تر شنیده میشود و هر قدر بسامد صدا کمتر باشد، گوش صدا را بم تر خواهد شنید. گوش انسان قادر نیست صداهای خیلی بم (از 20هرتز کمتر) و صداهای خیلی زیر (از 20000 هرتز بیشتر) را بشنود. نُت های سمت راست پیانو، نُت های با فرکانس بالا (یا در واقع صدای زیر) هستند و نُت های سمت چپ پیانو دارای فرکانس پایین (یا درواقع صدای بم) هستند.طول موج (wavelength): رابطه عکس با فرکانس دارد. صداهای با فرکانس بالا، طول موج کمتری دارند. جسم مرتعش هر تناوب کامل را در مدت زمانی مشخص انجام می دهد. از آنجا که اندازه گیری این زمانِ کوتاه (حداکثر 20/1 ثانیه) عملاً بسیار دشوار است، معمولاً واحد زمان ارتعاش را روی یک نوار که با سرعت یکنواخت و دقیقاً حساب شده، از کنار جسم می گذرد، به واحد طول محاسبه می کنند. طول موج را با واحد متر اندازه می گیرند.دامنه (amplitude): حداکثر مسافتی که جسم مرتعش از نقطه تعادل خود (در وسط) به دو طرف (اوج یا حضیض) طی می کند، تاثیر احساسی دامنه شدت و ضعف صدای حاصل است؛ هر چه دامنه صدا بلندتر باشد، صوت شدیدتر و هر چه کوتاه تر باشد، صدا ضعیف تر (آهسته تر، کم صداتر) خواهد بود. در موسیقی یا علم فیزیک، به دامنه، شدت صدا هم گفته میشود.فرکانس پایه یا فرکانس بنیادی (fundamental frequency): که اغلب به اختصار F0 نامیده می‌شود، پایین‌ترین مولفه فرکانسی یک صدا یا شکل موج متناوب است و به عنوان هارمونیک اول نیز شناخته می‌شود. از نظر برهم نهی سینوسی ها، فرکانس بنیادی به معنای کمترین فرکانس سینوسی در مجموع فرکانس های مرتبط هماهنگ یا فرکانس اختلاف بین فرکانس های مجاور است. در حوزه گفتار، نشانگرِ میزان ارتعاشات تارهای صوتی بوده و میزان درک صدای فرد را تعیین می‌کند به بیان دیگر، از نظر صدا و موسیقی، فرکانس پایه پایین‌ترین میزان در یک صدا است و سطحی را که ما درک می کنیم تعیین می کند. فرکانس پایه، مسئول ایجاد کیفیت موسیقایی یا آهنگی درک شده یک صدا است. بسامد پایه در مدت زمان تولید گفتار، الگوی آهنگ را تشکیل می‌دهد. میانگین بسامد پایه در طی مکالمه در مردان بین ۱۰۰ تا ۱۵۰ هرتز و در زنان بین ۱۸۰ تا ۲۵۰ هرتز است.پوش طیفی (spectral envelope): شکلِ طیفِ قدرتِ صدا است. پوش طیفی یک نشانه مهم برای شناسایی منابع صوتی مانند صداها یا سازها و کلاس‌های خاصی از صداها مانند مصوت‌ها است.ساختار ظریف (fine structure): به تغییر شکل موج در نرخ‌های نوسان بین 600 هرتز و 10000 هرتز اشاره دارد. ساختار ظریف اطلاعاتی در مورد طیف صدا از جمله الگوهای فرمانت می‌دهد.فرمانت‌ یا سازند یا تمرکز انرژی صوتی (Formant): فرمانت ها، پیک‌های فرکانسی در طیف (نقاط ماکزیمم نمودار طیف فرکانسی سیگنال) هستند که دارای درجه بالایی از انرژی می‌باشند. به بیان دیگر، سازند یا بسامدهای تولید شده توسط موج صوتی، یک متغیر آکوستیکی است که در مجرای گفتار تشدید و بازآوایی می‌شود و در توصیف مصوت ها و صامت هایی که منبع آن ها واک است مورد بررسی قرار میگیرند. سازندها حاوی اطلاعات زبانی هستند بطوریکه فرمانت اول (میزان بازبودن حفره دهان)، فرمانت دوم (موقعیت زبان در مجرای دهان) و فرمانت سوم (میزان گردشدگی لب ها) را مشخص می‌کنند. سازند در طیف‌نگاشت به‌صورت نوارهای افقی تیره دیده می‌شود و تأثیر شکل مجرای گفتار در جریان هوا را نشان می‌دهد. سازندها در بررسی و تشخیص آواهای صدادار و بی صدا اهمیت زیادی دارند. هر حرف صدادار دارای سازند مشخصی‌ست( آنها به ویژه در مصوت‌ها برجسته هستند). هر فرمانت مربوط به یک رزونانس در مجرای صوتی است (به طور کلی، طیف به ازای هر 1000 هرتز یک فرمانت دارد). فرمانت‌ها را می‌توان به عنوان فیلتر در نظر گرفت. طیف‌نگاره حروف صدادار انگلیسی [a, u, i] که سازندهای F1 و F2 را تشکیل میدهندطیف‌نگاره (Spectrogram): نمایشی تصویری از چگالی طیفی بسامدهای یک سیگنال در زمان‌های متفاوت است. چنانچه طیف‌نگاره، برای نمایش سیگنال شنیداری به‌کار برده شود، به آن صدانگاره یا آوانما گفته می‌شود. طیف‌نگاره را می‌توان با بهره‌گیری از طیف‌سنج نوری، مجموعه‌ای از فیلترهای میان‌گذر، تبدیل فوریه یا تبدیل موجک (که به آن اسکالوگرام نیز می‌گویند)، ایجاد کرد. طیف‌نگاره معمولاً به صورت یک نقشه گرمایی، یعنی نگاره‌ای که در آن شدت، با تغییر رنگ یا روشنایی نشان داده می‌شود.دوره بنیادی( fundamental period) : دوره بنیادیِ یک سیگنال، کوچکترین دوره‌ای است که کل سیگنال در طی آن تکرار می‌شود.وضوح فرکانسی (frequency resolution): به توانایی تمایز بین فرکانس‌های مختلف در یک سیگنال اشاره دارد. وضوح فرکانس بالاتر امکان شناسایی دقیق‌تر فرکانس‌های مجزا را فراهم می‌کند. در زمینه پردازش سیگنال یا آنالیز طیفی، وضوح فرکانس یا رزولوشن فرکانسی اغلب با تبدیل فوریه گسسته (DFT) یا تبدیل فوریه سریع (FFT) مرتبط است، که معمولاً از یک سری تکنیک جهت تجزیه و تحلیل محتوای فرکانس سیگنال استفاده می‌شود. هنگام اعمالDFT یا FFT به سیگنال، وضوح فرکانس با تعداد نمونه‌ها یا نقاط داده استفاده شده در آنالیز تعیین می‌‍شود. وضوح فرکانس با طول مدت سیگنال آنالیز شده نسبت معکوس دارد. این بدان معنی است که با افزایش مدت زمان سیگنال، وضوح فرکانس بهبود می یابد و امکان اندازه گیری دقیق فرکانس را فراهم می کند. برعکس، طول مدت سیگنال کوتاه‌تر منجر به وضوح فرکانس ضعیف‌تر می‌شود و تمایز بین فرکانس‌های نزدیک به هم را به چالش می‌کشد. این به این دلیل است که یک پنجره زمانی طولانی تر، نقاط داده بیشتری را برای تجزیه و تحلیل فراهم می کند، که منجر به شبکه فرکانس ظریف تری در تبدیل فوریه می شود، که برای تجزیه و تحلیل محتوای فرکانس سیگنال ها استفاده می شود. دقت شود که بهبود وضوح فرکانس به معنای کاهش عرض هر bin فرکانس است که امکان تمایز دقیق بین فرکانس ها را فراهم می کند. بنابراین، وقتی می‌گوییم وضوح بهبود می‌یابد، منظور این است که اندازه‌گیری دقیق‌تر می‌شود، با یک مقدار عددی کوچک‌تر برای عرض هر bin فرکانسی. از نظر ریاضی، وضوح فرکانس (Δf) را می توان به صورت متقابل کل مدت زمان(T) سیگنال مورد تجزیه و تحلیل محاسبه کرد: Δf = 1 / T. این بدان معنی است که هر چه مدت زمان کل سیگنال بیشتر باشد، وضوح فرکانس کمتر است و بالعکس. در عمل، وضوح فرکانس سطح جزئیات را در تحلیل فرکانس تعیین می‌کند.گام یا زیر و بمی یا نواک (pitch): به فرکانس‌ پایه‌ی درک شده از صدای یک فرد اشاره دارد. این یک ویژگی ادراکی از صدا است که با احساس بالا بودن یا کم بودن یک تُن مطابقت دارد. گام در درجه اول توسط میزان ارتعاشات تارهای صوتی تعیین می‌شود که تحت تأثیر کشش و طول تارهای صوتی است. کشش بیشتر و طول کوتاه‌تر منجر به گام بیشتر می‌شود، در حالی که کشش کمتر و طول بیشتر باعث ایجاد گام کمتر می‌شود. معمولاً صدای با فرکانس بیشتر (مانند صدای زنان) را بالا (زیر) و صدای با فرکانس کمتر (مانند صدای مردان) را پایین (بَم) می‌نامند. طول تارهای صوتی در زنان کوچکتر از مردان است. هر چه طول تارهای صوتی کوتاه تر باشد، صدا زیرتر است. در ساز سنتور، سیم های کوتاه تر (سبک تر)، زیرتر و سیم های بلندتر (سنگین تر) بم تر صدا می دهند. زیر و بمی صدا رابطهٔ نزدیکی با فرکانس دارد اما این به معنای مساوی بودن این دو مفهوم نیست. فرکانس یک مفهوم علمی است که قابل اندازه‌گیری است در حالی که زیر و بمی ادراک شخصی هر فرد از موج صداست که به‌طور مستقیم قابل اندازه‌گیری نیست. گام، جنبه‌های آهنگین گفتار را به تصویر می‌کشد، از جمله افزایش و کاهش الگوهای زیر و بمی که به کیفیت‌های بیانی و ارتباطی زبان گفتاری کمک می‌کند. گام، اطلاعاتی را در مورد احساسات، مقاصد و ویژگی‌های زبانی گوینده منتقل می‌کند. همچنین برای تمایز بین سؤالات و گزاره‌ها، تأکید، و حتی انتقال جنبه های خاصی از هویت گوینده، مانند جنسیت یا سن، استفاده می‌شود. لحن یا تُن (tone): به کیفیت یا ویژگی کلی صدای یک فرد اشاره دارد. جنبه‌های مختلفی از جمله گام صدا (pitch)، آهنگ صدا (intonation )، طنین یا رنگ صدا ( timbre) و احساس را در بر می گیرد. می‌تواند طیفی از احساسات، از جمله شادی، غم، عصبانیت یا تعجب را منتقل کند. همچنین به انتقال مقصود گوینده کمک می‌کند، مانند بیان سوال، فرمان یا کنایه. لحن، فراتر از کلماتی که صرفاً استفاده می شوند، به زبان گفتاری غنا و ظرافت می بخشد.طنین یا رنگ صدا (timbre): به کیفیت یا رنگ منحصر به فرد صدای یک فرد اشاره دارد که آن را از دیگران متمایز می کند. رنگ صدا، تحت تأثیر عوامل مختلفی از جمله شکل و اندازه مجرای صوتی، پیکربندی تارهای صوتی و حرکات مفصلی درگیر در تولید صداهای گفتاری قرار می گیرد. رنگ صدا اغلب با استفاده از عباراتی مانند "خیشومی" (تودماغی) (nasal )، "تنفسی(توام با صدای تنفس) (breathy )"، "خشک"( raspy )(خش دار) (صدای گرفته)، "صاف" یا "غنی" توصیف می‌شود.آهنگ یا طرز قرائت (intonation): به تغییرات زیر و بمی(pitch)، ملودی و الگوهای خطوطی که در یک گفته رخ می‌دهد اشاره دارد؛ شامل بالا رفتن و پایین آمدن گام در طول گفتار برای انتقال معنی، بیان احساسات و انتقال اطلاعات دستوری است. به عبارت کوتاه‌تر، بالا و پایین رفتن صدا یا لحن آوازی در گفتار، آهنگ نامیده می‌شود. در زبان انگلیسی چهار نوع intonation وجود دارد: الف) Rising Intonationب) Falling Intonationج) Rising-Falling Intonationد) Falling-Rising Intonationآهنگ، نقش مهمی در ارتباط دارد زیرا به انتقال مقاصد، نگرش ها و احساسات گوینده کمک می‌کند. آهنگ صدا می تواند نشان دهد که یک عبارت یک سوال، یک بیانیه یا یک دستور باشد. تغییرات در آهنگ همچنین می‌تواند اطلاعات مهم را برجسته کند، بر کلمات یا عبارات خاصی تأکید کند، یا طعنه یا کنایه را منتقل کند.نوا (Prosody): منعکس کننده ویژگی های عاطفی ظریف گوینده است؛ شامل حالت عاطفی آشکار یا پنهان، شکل بیان (گزاره، سؤال یا فرمان)، کنایه، تأکید خاص بر کلمات یا تکواژها، تضاد و تمرکز؛ به بیان دیگر، این مفهوم به ریتم، تکیه(stress) و آهنگ گفتار (intonation)، زيروبم کردن صدا و لحن گفتار اشاره دارد که باعث تلفظ و برداشت مفهومهاي مختلفی از گفتار میشود. به اشاره دارد. در حوزه سنتز گفتار، نوا يکی از فاکتورهای اصلی برای به دست آوردن يک گفتار سنتز باکیفیت زياد میباشد. نوا، عناصر زبان را نشان می دهد که توسط دستور زبان، علائم نگارشی یا انتخاب واژگان انکد نشده اند. از نظر شنیداری، متغیرهای نوایی عبارتند از: زیر و بمی صدا (pitch) (متغیر بین کم و زیاد)، طول صداها (متغیر بین کوتاه و بلند)، بلندی (loudness)، کیفیت timbre(کیفیت صدا). از نظر آکوستیک، متغیرهای نوایی عبارتند از: فرکانس پایه، مدت زمان (duration)، شدت یا سطح فشار صدا (بر حسب دسیبل)، ویژگی های طیفی (توزیع انرژی در قسمت های مختلف محدوده فرکانس قابل شنیدن).فرکانس نایکوئیست (Nyquist frequency): که به افتخار مهندس هری نایکویست نامگذاری شده است، یک مفهوم مهم در پردازش سیگنال دیجیتال و تئوری نمونه برداری بوده و نشان دهنده حداکثر فرکانسی است که می تواند به طور دقیق در یک سیگنال دیجیتالی نمایش داده شود. با توجه به قضیه نمونه‌برداری نایکویست-شانون، برای بازسازی دقیق یک سیگنال زمان پیوسته از نسخه نمونه‌برداری شده آن، نرخ نمونه‌برداری (sampling rate) باید حداقل دو برابر بالاترین مولفه فرکانس موجود در سیگنال باشد. بنابراین فرکانس Nyquist ، نصفِ نرخ نمونه برداری است و حداکثر فرکانس را نشان می دهد( f_Nyquist = 0.5 * f_sampling. که f_sampling نرخ نمونه برداری است). نرخ نمونه برداری پایین (زیر Nyquist) منجر به aliasing شده و مولفه های فرکانس بالا به عنوان مولفه های پایین تر ظاهر می شوند. این از دست دادن اطلاعات می تواند مانع از تجزیه و تحلیل ناهماهنگی های ظریف در طیف صوتی شود. فرکانس نایکوئیست در صداهای دیجیتال، مخابرات و سایر زمینه هایی که سیگنال های آنالوگ به شکل دیجیتال تبدیل می شوند، مهم است و حد بالایی محدوده فرکانسی را که می تواند در حوزه دیجیتال بدون از دست دادن اطلاعات نمایش داده شود، تعریف می کند. برای بازتولید دقیق یک سیگنال، نرخ نمونه برداری باید به طور مناسب انتخاب شود تا معیار Nyquist را برآورده کند بنابراین به طور خلاصه، نمونه‌برداری نایکوئیست، حداقل نرخ نمونه‌گیری را برای جلوگیری از از دست دادن اطلاعات تنظیم می‌کند.نرخ نمونه‌برداری (sampling rate): تعداد نمونه‌ای که در هر ثانیه از سیگنال گرفته می‌شود، نرخ نمونه‌برداری گویند. در واقع به نمونه برداری افقیِ سیگنال، نرخ نمونه‌برداری گفته می‌شود. سعی می‌کنند نرخ نمونه برداری رو عددی در نظر بگیرند که کیفیت مناسبی برای شنیدار انسان داشته باشد.نرخ بیت یا عمق بیت (Bit depth) (Bit rate): به نمونه‌گیری عمودیِ سیگنال، نرخ بیت گفته می‌شود. مثلاً وقتی میگویند صدا را 16 بیت ضبط کردند، یعنی دو به توان 16 مقدار (معادل65536 مقدار) روی محور عمودی در نظر گرفته می‌شود. وقتی نرخ نمونه‌برداری و نرخ بیت را زیاد در نظر می‌گیریم، یعنی داریم به صدای واقعی تر و باکیفیت تر نزدیک تر میشویم.فرآیند آنالیز گفتار: شامل چندین مرحله برای تجزیه و تحلیل و استخراج اطلاعات مربوطه از سیگنال های گفتاری است. توضیح گام به گام از این فرآیند بدین شرح است: 1)جمع آوری داده ها: اولین قدم جمع آوری داده های گفتاری است. این می تواند شامل ضبط گفتار با استفاده از میکروفون یا به دست آوردن صداهای ضبط شده از قبل موجود از یک پایگاه داده باشد. داده ها باید نماینده گفتاری باشد که می خواهید تحلیل کنید. 2) پیش پردازش: پیش پردازش برای افزایش کیفیت سیگنال گفتار و حذف هر گونه نویز یا مصنوعات ناخواسته انجام می شود. ممکن است شامل فیلتر کردن سیگنال، حذف نویز پس زمینه یا نرمال سازی دامنه سیگنال باشد. 3)فریم‌بندی: سیگنال گفتار به فریم‌ها یا بخش‌های کوچک‌تر تقسیم می‌شود که معمولاً حدود 20 تا 30 میلی‌ثانیه طول می‌کشد. این فریم‌ها به گونه‌ای انتخاب می‌شوند که ویژگی‌های زمانی گفتار را به تصویر بکشند و اطمینان حاصل کنند که سیگنال را می‌توان در بازه‌های زمانی کوتاه آنالیز کرد. 4) استخراج ویژگی: در این مرحله از هر فریم سیگنال گفتار، ویژگی های صوتی مختلفی استخراج می شود. ویژگی های رایج عبارتند از: pitch، formantها، انرژی، مدت زمان (duration) و ویژگی های طیفی. 5) مدل سازی: پس از استخراج ویژگی ها، می توان از آنها برای ساخت مدل هایی استفاده کرد که جنبه های خاصی از گفتار را به تصویر می کشد.تکیه (stress): تأکید روی یک هجا از گفتار که به‌وسیلهٔ تلفظِ شدیدترِ آن هجا صورت می‌گیرد «تکیه» نام دارد. در بسیاری از زبان‌ها، گاهی تفاوت محل تکیه در کلام منجر به تفاوت معنا می‌شود.تشدید (Gemination): به ادای مضاعف برخی آواها، به‌ویژه صامت‌ها، در جاهای مشخص در کلمه یا در مرز کلمات در گروه‌ها و جملات، تشدید گفته می‌شود.واج (Phoneme): واج کوچک‌ترین بخش گفتار است و جایگزینی آن با واجی دیگر تفاوت معنایی ایجاد می‌کند. مانند آ، ب، پ، …،ن، و، ه، ی. مجموعه‌ای از آواها است که می‌تواند یک واژه را از واژه دیگر متمایز کند. برای مثال، در انگلیسی الگوهای صدایی /sɪn/ (sin) و /sɪŋ/ (sing) دو واژه متفاوت هستند که با جایگزینی یک واج /n/ با واج /ŋ/ از هم متمایز می‌شوند. کلماتی مثل این‌ها که تفاوت معنایی‌شان از طریق تضاد فقط در یک واج ایجاد می‌شود، جفت حداقلی نامیده می‌شوند. به کمک واج، تکواژ ساخته می‌شود(یک یا چند تکواژ یک واژه را می‌سازند). در زبان فارسی ۲۹ واج وجود دارد که به دو دستهٔ واکه(مصوت) (۶ واج) و همخوان(صامت) (۲۳ واج) تقسیم می‌شوند.صامت (consonant): واج‌هایی که برای تولیدشان در دهان نیاز به انسداد یا مانع باشد، صامت می‌گویند. صامت‌ها آغاز و پایان هجا را می‌سازند.مصوت (vowel): واج‌هایی که بدون مانع در برابر جریان هوا در دهان ساخته می‌شوند را مصوت یا واکه می‌نامند. در تمام زبان‌ها، مصوت‌ها هسته یا اوج هجا را می‌سازند. مصوّت‌ها در زبان فارسی شش مورد هستند؛ مصوت‌های بلند (آ - او - ای) و مصوت های کوتاه (فتحه، کسره، ضمه). این مفهوم که کیفیت مصوت ها اساساً با موقعیت زبان و گرد کردن لب تعیین می شود همچنان در آموزش استفاده می شود، زیرا توضیحی شهودی از نحوه تمایز مصوت ها ارائه می دهد.بلندیِ مصوت: به‌معنی میزان بازشدگی دهان در حین ایجاد مصوت گفته می‌شود.برگشتیِ مصوت: برگشتی مصوت به‌معنی محل قرارگیری زبان نسبت به پشت زبان استگِردشدگی مصوت: به‌معنی حالت لب‌ها هنگام ایجاد مصوت است.خیشومی‌شدگی (Nasalization): به تولید یک آوا در حالی که زبان کوچک دهان پایین می‌آید تا بخشی از هوا از طریق خیشوم خارج شود، گفته می‌شود. به بیان دیگر، تولید صدایی در حین پایین آمدن پرده، به طوری که در حین تولید صدا توسط دهان، مقداری هوا از بینی خارج شود. این پارامتر میزان تودماغی شدن صدا را مشخص میکند.صامت خیشومی (Nasal consonant): به صامتی گفته می‌شود که هنگام تولید آن حفره دهان بسته می‌شود و جریان هوا از طریق بینی خارج می‌شود.مصوت خیشومی (Nasal vowel): مصوتی است که از طریق پایین آمدن نرم‌کام (بافت نرمی است که بخش عقب سقف دهان را تشکیل می‌دهد) با خارج‌کردن هوا از طریق بینی، تولید می‌شوند. در اصطلاح عام، به این آواها «تودماغی» گفته می‌شود.مونو (mono): به صدای تک کانال گفته می‌شود که ممکن است توسط یک میکروفن، یا توسط چند میکروفون ضبط و سپس در یک کانال صدا گنجانده شده باشد. صدا تنها از یک نقطه پخش می‌شود و یا صدای تمام منابع صوتی یکسان است. برای پخش صدای مونو تنها یک بلندگو ضروری است و اگر چند بلندگو استفاده شود، تنها همان صدا از هر بلندگو پخش می‌شود، برخلاف صدای استریو (دو کاناله) و صدای ساراند (چند کاناله). به دلیل اینکه صدای مونو در مقایسه با صدای استریو پنجاه درصد کم‌تر از پهنای باند استفاده می‌کند، از آن به طور گسترده‌ای در ارتباطات رادیویی و مخابراتی مثل تلفن و بی‌سیم که بیشتر کلام و افکت صوتی انتقال می‌یابد، استفاده می‌شود. استفاده از این نوع صدا برای ساخت پادکست، رادیو اینترنتی و هر محتوای کلامی، به همان دلیل ذکر شده توصیه می‌شود.استریو (stereo): از شیوه‌های بازتولید صدا است که برای شنونده توهمی از ژرف‌نمایی شنیداری ایجاد می‌کند. این کار معمولاً با استفاده از دو یا چند کانال صوتی مستقل از طریق پیکربندی دو یا چند بلندگو (یا هدفون) انجام میشود، به نحوی که به نظر می‌رسد صدا از جهات مختلف منتشر می‌شود و شنونده به صورت طبیعی صدا را به صورت چند بعدی می‌شنود. در این شیوه در هنگام ضبط از دو میکروفون برای ضبط هر یک از خطوط صدا (چپ و راست) استفاده می‌شود. هر یک از خطوط به صورت مجزا ضبط می‌شود و همین خطوط در هنگام پخش از باند خود (چپ یا راست) پخش می‌گردد. این شیوه اصلی‌ترین روش ضبط صدای استریو است و به حقیقت بسیار نزدیک تر است. با پیشرفت تکنولوژی، روش‌های جدیدی جهت ایجاد بُعد برای صدا توسط نرم‌افزارهای کامپیوتری ایجاد شده‌است که در هنگام ساخت صدا در نرم‌افزار، با تعیین جهت برای صدا، نرم‌افزار به صورت خودکار، ۲ خط چپ و راست صدا را ایجاد می‌کند و بدین صورت حالت ۳ بعدی را برای صدا ایجاد می‌کند.شدت صوت (sound intensity): شدت صدا یا شدت صوت که با نام شدت آکوستیکی نیز شناخته می‌شود،انرژی حمل شده توسط امواج صوتی بر واحد سطح تعریف می‌شود. یک کاربرد اصلی آن، اندازه میزان نویز در هوا برای گوش یک شنونده است.طول مصوت (vowel length): به دیرشِ (duration) یک مصوت اطلاق می‌شود. طول یا کشش مصوت، طول درک شده‌ی یک صدای مصوت است. در برخی از زبان‌ها طول واکه یک عامل واجی مهم است، به این معنی که طول مصوت می‌تواند معنای کلمه را تغییر دهد.چاکنای (Glottis): دهانه یا مدخلِ نای است که پرده‌های صوتی در آن قرار دارند. به تعریفِ زبان‌شناختی، چاکنایْ فاصلهٔ میانِ پرده‌هایِ صوتی است. چاکنای نقش مهمی در تولید اصوات دارد. به صامتی که با انسداد یا سایش در چاکنای تولید شود را صامت چاکنایی می‌گویند.جایگاه تولید (place of articulation): واجگاه یا مخرج حروف یا جایگاه تولید، یکی از معیارهای اساسی در دسته‌بندی آواهای گفتار است. در آواشناسی تولیدی، جایگاه تولید به نقطه‌ای اشاره دارد که در آن اندام‌های گفتار انواع مختلف آواهای صامت را ایجاد می‌کنند. آواشناسی امروزی ۱۱ نقطه مجزا را در اندام گفتار شناسایی می‌کند: دولبی، لبی‌دندانی، دندانی، لثوی، برگشته، لثوی‌کامی، کامی، نرمکامی، زبانکی، حلقی و چاکنایی.شیوه تولید (Manner of articulation): یکی از پارامترهای اصلی طبقه‌بندی آواها در آواشناسی تولیدی است که به نوع فرایند به کار رفته در تولید آوا می‌پردازد. تمایز میان مصوت و صامت معمولاً از طریق این پارامتر انجام می‌پذیرد.تکواژ (Morpheme): تکواژها از به‌هم‌پیوستن واج‌ها (کوچکترین بخشهای گفتار) ساخته می‌شوند و تکواژها را نمی‌توان به واحدهای دستوری کوچک‌تر بخش کرد.آوا (Phone): به هر صدا (در زبانهای گفتاری) یا ژستی (در زبانهای اشاره‌ای) گویند که متمایز و قابل شناسایی از سایر صداها یا ژست‌های موجود در آن زبان باشد.واجگونه (allophone): به هریک از گونه‌های مجزای یک واج در یک زبان مشخص، واجگونه گفته میشود. آلوفون یکی از چند صدای گفتاریِ ممکن یا آواهای ممکن است، که برای تلفظ یک واج واحد در یک زبان خاص استفاده می‌شود. آلوفون ها، sound هستند، در حالی که واج مجموعه ای از این soundها هستند.سگمنت یا قطعه (Segment): در زبان‌شناسی، به هر واحد مجزایی گفته می‌شود که می‌تواند چه به طور فیزیکی و چه به طور شنیداری در جریان گفتار تشخیص داده شود. می‌تواند با اصطلاح آوا هم‌معنی باشد.صوت یا صدا(Sound): در فیزیک، صدا ارتعاشی است که به صورت موج آکوستیکی از طریق یک رسانه انتقال (رسانا) مانند گاز، مایع یا جامد منتشر می‌شود. در فیزیولوژی و روانشناسی انسان، صوت عبارت است از دریافت این گونه امواج و درک آنها توسط مغز. تنها امواج صوتی که فرکانس‌هایی بین 20 هرتز تا 20 کیلوهرتز دارند، در محدوده فرکانس صوتی، درک شنوایی را در انسان ایجاد می‌کنند. امواج صوتی بالای 20 کیلوهرتز به عنوان اولتراسوند (ultrasound) شناخته می شوند و برای انسان قابل شنیدن نیستند. امواج صوتی زیر 20 هرتز به عنوان اینتراسوند یا مادون صوت (infrasound) شناخته می شوند. امواج صوتی اغلب برای توصیف از نظر امواج صفحه سینوسی ساده می شوند که با این ویژگی های عمومی مشخص می شوند: فرکانس و طول موج، دامنه، فشار یا شدت صدا، سرعت صوت و جهت. در هوا در دما و فشار استاندارد، طول موج متناظر امواج صوتی از 17 متر (56 فوت) تا 17 میلی متر (0.67 اینچ) متغیر است.انسایشی (Affricate): اصطلاحی در آواشناسی تولیدی است که به شیوه تولید یک آوا اشاره دارد و در تولید آن جریان هوا ابتدا با یک انسداد مواجه می‌شود و سپس با بازشدن تدریجی بست جریان هوا با اصطکاک خارج شده و آوای انسایشی را نتیجه می‌دهد.صامت سایشی (Fricative consonant): نامی برای دسته‌بندی روش ساخت آوای یک صامت است. در تولید یک صامت سایشی با نزدیک شدن اندامهای گفتار به یکدیگر، شکافی باریک در مجرای گفتار شکل میگیرد که جریان هوا به دشواری از میان این شکاف گذشته و با ساییدگی (سایش) هوا با اندامهای گفتار صامت سایشی تولید شود. آشفتگی هوا در پشت این شکاف، صدای هیس‌مانندی تولید میکند که از مشخصه‌های صامتهای سایشی است. سایشی‌های کاربردی در زبانهای گوناگون اینهایند: /f/, /v/, /s/, /z/, /θ/, /ð/, /X/ و /ɤ/.صامت حلقی (Pharyngeal consonant): یک صامت است که جایگاه تولید اصلی آن در حلق است. در زبان عربی همخوان‌های «ع» و «ح» حلقی هستند. در زبان انگلیسی ازین نوع صامت نداریم.انسدادی یا انفجاری (Plosive): یک صامت ریوی (تنفسی) است که در آن مجرای صوتی مسدود می شود به طوری که تمام جریان هوا متوقف می شود. انسداد ممکن است با نوک یا تیغه زبان ([t]، [d])، بدن زبان ([k]، [ɡ])، لب‌ها ([p]، [b]) یا گلوت ([ʔ]) ایجاد شود.واک (voice): در زبانشناسی اصطلاحی در طبقه‌بندی آواهای گفتار است که به لرزش پرده‌های صوتی در تولید یک واج اشاره دارد. حروفی را که تولیدشان با لرزش تارآواها همراه است «حروف واکدار» یا «حروف آوایی» می‌گویندتوجه: {به مرور تکمیل خواهد شد} آرمان پرناک آرمان پرناک Sat, 15 Jun 2024 19:13:10 +0330 سنتز گفتار https://virgool.io/@ArmanParnak/%D8%B3%D9%86%D8%AA%D8%B2-%DA%AF%D9%81%D8%AA%D8%A7%D8%B1-lymdjdknigaa اصول سنتز گفتار:سنتز گفتار فرآیندی است که به طور مصنوعی گفتار را برای کاربردهای مختلف تولید می کند و وابستگی به استفاده از صدای ضبط شده فرد را کاهش می دهد. روش‌های سنتز گفتار، ماشین را قادر می‌سازد تا دستورالعمل‌ها یا اطلاعات را از طریق «صحبت کردن» به کاربر منتقل کند. این برنامه‌ها شامل سرویس ارائه اطلاعات از طریق تلفن، نظیر خدمات بانکی و خدمات دایرکتوری، خدمات مختلف رزرو، اعلامیه‌های عمومی، ایستگاه های قطار، خواندن نسخه‌های خطی برای جمع‌بندی، خواندن ایمیل‌ها، فکس‌ها و صفحات وب از طریق تلفن، خروجی صدا در سیستم‌های ترجمه خودکار، و تجهیزات ویژه برای افراد معلول، مانند واژه‌پرداز با قابلیت خواندن و کتاب‌خوانی برای نابینایان.پیشرفت در فناوری LSI/کامپیوتر و تکنیک های LPC به طور جمعی به پیشرفت تحقیقات سنتز گفتار کمک کرده است. علاوه بر این، خدمات تامین اطلاعات در حال حاضر در طیف وسیع تری از زمینه های کاربردی در دسترس است. تحقیق سنتز گفتار ارتباط نزدیکی با تحقیق در استخراج واحدهای اساسی اطلاعاتی حمل شونده در امواج گفتار و مکانیسم تولید گفتار دارد.فناوری پاسخ صوتی که برای انتقال پیام از طریق گفتار سنتزشده طراحی شده است چندین مزیت برای انتقال اطلاعات دارد:الف) هر کسی می تواند به راحتی پیام را بدون فعالیت یا تمرکز شدیدی درک کند ب) پیام را می توان حتی زمانی که شنونده درگیر فعالیت های دیگری مانند راه رفتن، دست زدن به یک شی یا نگاه کردن به چیزی است دریافت کرد ج) از شبکه تلفن معمولی می توان برای دسترسی آسان و از راه دور به اطلاعات استفاده کرد د)این شکل از پیام در اصل یک فرم ارتباطی بدون کاغذ است.گفته می شود که اولین synthesizer گفتار در سال 1779ساخته شده است. شکل زیر ساختار یک synthesizer گفتار مکانیکی را نشان می دهد که در سال 1791 ساخته شد. این synthesizer ، که قادر به تولید هم مصوت و هم صامت است، برای شبیه سازی ارگان هایarticulatory انسان در نظر گرفته شده بود. صداهایی که از ارتعاش نی‌ها نشات می‌گیرند، توسط رزونانس یک لوله چرمی تعدیل شده و به صورت موج گفتاری تابش می‌شوند. صداهای اصطکاکی از طریق سوت های «S» و «SH» تولید می شد. ظاهراً این synthesizer قادر به تولید کلمات متشکل از 19 صامت و 5 مصوت بوده است. البته، synthesizer های گفتار با ساختار مکانیکی اولیه، نمی توانستند گفتار سنتز شده با کیفیت بالا تولید کنند، زیرا تغییر مداوم و سریع شکل دستگاه صوتی دشوار بود.اولین synthesizer با ساختار الکتریکی در سال 1922 توسط جی کیو استوارت ساخته شد. با تنظیم دقیق مدارها، مصوت های پایدار می توانستند توسط این synthesizer تولید شوند.اولین synthesizer که در واقع موفق به تولید گفتار پیوسته شد، voder بود که توسط اچ.دادلی در سال 1939 ساخته شد. این synthesizer به ترتیب با کنترل دوره اصلی و ویژگی های فیلتر میانگذر با استفاده از پدال پا و 10 کلید انگشت، گفتار پیوسته را تولید کرد. Voder، به عنوان نمونه اولیه سنتز کننده گفتار برای Vocoder ، به یک بلوک پایه اصلی برای تحقیقات اخیر سنتز گفتار تبدیل شد. ساختار voder، بر اساس مدل مدار معادل قابل جداسازی خطی، هنوز در synthesizer گفتار فعلی استفاده می شود.روش های سنتز گفتار فعلی را می توان به سه نوع تقسیم کرد:الف)سنتز بر اساس کدگذاری شکل موج، که در آن از امواج گفتاری صدای ضبط شده انسان که پس از کدگذاری شکل موج یا بلافاصله پس از ضبط ذخیره می شود برای تولید پیام های مورد نظر استفاده می شود. ب)سنتز بر اساس روش آنالیز-سنتز، که در آن امواج گفتاری صدای ضبط شده انسان با روش آنالیز-سنتز به دنباله های پارامتر تبدیل می شود و ذخیره می شود، همراه با یک synthesizer گفتار که توسط پارامترهای به هم پیوسته (concatenated) برای تولید پیام هدایت می شود. ج)سنتز بوسیله قاعده ،که در آن گفتار بر اساس قواعد آوایی و زبانی از دنباله حروف یا دنباله نمادهای واجی و ویژگی های prosodic تولید می شود.اصول این سه روش و مقایسه ویژگی های آنها به ترتیب در شکل زیر و جدول زیر ارائه شده است.سیستم‌های سنتز مبتنی بر روش کدینگِ شکل موج، ساده هستند و گفتار با کیفیت بالایی ارائه می‌کنند، اما versatility پایینی نیز از خود نشان می‌دهند، یعنی پیام‌ها فقط به شکل ضبط شده قابل استفاده هستند. از سوی دیگر، سیستم‌های سنتز بر اساس قاعده، از versatility بالایی برخوردارند، اما از طرف دیگر بسیار پیچیده و هنوز کیفیت محدودی دارند. در موارد عملی، انتخاب مناسب ترین روش برای اهداف با در نظر گرفتن عملکرد و ویژگی های هر روش مطلوب است.سنتز مبتنی بر کدینگِ شکل موج:همانطور که گفته شد سنتز بر اساس کدگذاری شکل موج روشی است که به وسیله آن واحدهای سگمنتالِ کوتاه از صدای انسان، معمولاً کلمات یا عبارات، ذخیره می‌شوند و با انتخاب و اتصال واحدهای مناسب، گفتار جمله مورد نظر سنتز می‌شود. در این روش، کیفیت گفتار جمله سنتز شده به طور کلی تحت تأثیر کیفیت تداوم (پیوستگی) ویژگی‌های آکوستیکی در اتصالات بین واحدها قرار می‌گیرد. ویژگی‌های آکوستیکی شامل پوشش طیفی (spectral envelope )، دامنه (amplitude )، فرکانس پایه(fundamental frequency) و نرخ صحبت (speaking rate) است. اگر واحدهای بزرگی مانند عبارات یا جملات ذخیره و استفاده شوند، کیفیت (واضح، قابل فهم و طبیعی بودن) گفتار ترکیب شده بهتر است، اگرچه تنوع کلمات یا جملات قابل ترکیب محدود است. از سوی دیگر، هنگامی که از واحدهای کوچک مانند هجاها یا واج ها استفاده می شود، طیف گسترده ای از کلمات و جملات را می توان سنتز کرد اما کیفیت گفتار تا حد زیادی کاهش می یابد.(یادآوری: آکوستیک به صدایی گفته می شود که توسط منابع طبیعی مانند سازها یا صدای انسان تولید می شود و از طریق هوا به گوش می رسد. همچنین می تواند به ویژگی های صدا در حین حرکت در یک فضا، مانند reverberation و absorption اشاره کند). در سیستم‌های عملی که معمولاً در حال حاضر در دسترس هستند، کلمات و عبارات ذخیره می‌شوند و کلمات درج می‌شوند یا با عباراتی مرتبط می‌شوند تا یک گفتار جمله دلخواه را تولید کنند. از آنجایی که الگوی pitch هر کلمه با توجه به موقعیت آن در جملات مختلف تغییر می کند، لازم است تغییراتی از همان کلمات با inflectionهای صعودی، مسطح، و نزولی ذخیره شود. inflectionانتخاب شده همچنین به این بستگی دارد که آیا جمله بیانگر سؤال، گزاره یا تعجب است.دو مشکل عمده در به هم پیوستن کلمات برای تولید جملات وجود دارد (کلات، 1987). اولاً یک جمله گفتاری، با توالی کلماتی که به صورت مجزا بیان می شود بسیار متفاوت است. در یک جمله، کلمات زمانی که به صورت مجزا گفته می شوند به اندازه ی نصف مدت زمانشان کوتاه هستند و باعث می شود که گفتار پیوسته کُند به نظر برسد. ثانیاً، الگوی تکیه جمله (sentence stress pattern )، ریتم و آهنگ (intonation )، که وابسته به عوامل نحوی و معنایی هستند، هنگامی که کلمات به سادگی به هم متصل می شوند، حتی اگر چندین گونه از یک کلمه ذخیره شده باشند، به طور مخرب غیرطبیعی هستند.به منظور حل چنین مشکلاتی، اخیراً از روش‌های سنتز الحاق واحدهای واجی (روش هایی که واج ها را به هم concatenate میکنند) به طور گسترده استفاده شده است. تسریع پردازش کامپیوتری و کاهش قیمت حافظه باعث پیشرفت این روش ها شده است. در این روش‌ها تعداد زیادی واحدهای واجی یا زیرواج‌ها (کوتاه‌تر از واج‌ها) مربوط به آلوفون‌ها (allophones) و تغییرات pitch ذخیره می‌شوند و مناسب‌ترین واحدها بر اساس قوانین و معیارهای ارزیابی انتخاب می‌شوند و برای سنتز گفتار به هم متصل می‌شوند. روش‌های متعددی برای همپوشانی و اضافه کردن امواج گفتار با طول pitch (pitch-length speech waves) با توجه به دوره pitch سنتز گفتار و روش‌های مختلف کنترل ویژگی‌های prosodic توسط تکرارکردن یا نازک کردن شکل موج‌های pitch ایجاد شده‌اند. این روش ها می توانند جملات نامحدود را حتی اگر واحدها توسط شکل موج گفتار ذخیره می شوند، سنتز کنند. نمونه‌های معمولی روش‌ها عبارتند از TD-PSOLA و HNM که در ادامه توضیح داده شده‌اند.به منظور کاهش نیاز به اندازه حافظه، واحدها گاهی اوقات با روش های کدگذاری شکل موج مانند ADPCM به جای ذخیره سازی ساده با امواج گفتاری آنالوگ یا دیجیتال فشرده می شوند. سنتز برگرفته از روش آنالیز - سنتز، شکل پیشرفته ای از این روش از نظر کاهش اطلاعات و کنترل پذیری آن محسوب میشود.روش TD-PSOLA: این روش که مخفف Time Domain Pitch Synchronous OverLap Add و مربوط به سال 1990 است، یکی از محبوب‌ترین روش‌های الحاق شکل موج pitch-synchronous است. این روش بر مدل تولید گفتار توصیف شده توسط چارچوب سینوسی متکی است. بخش "آنالیز" شامل استخراج سیگنال های تحلیل کوتاه مدت توسط ضرب شکل موج گفتار در دنباله ای از پنجره های انالیزِ ترجمه شده با زمان است. پنجره های آنالیز در اطراف لحظه های بسته شدن گلوتال قرار دارند و طول آنها متناسب با local pitch period است. در طول فریم های unvoiced، لحظه های زمانی تحلیل با یک نرخ ثابت تنظیم می شوند. در طول فرآیند "سنتز"، یک نگاشت بین لحظه های زمانی سنتز و لحظه های زمانی آنالیز با توجه به اصلاحات prosodic مورد نظر تعیین می شود. این فرآیند مشخص می‌کند که کدام یک از سیگنال‌های تحلیل کوتاه مدت حذف یا تکرار شوند تا سیگنالِ synthetic نهایی تشکیل شود.روشHNM : این روش مخفف Harmonic Plus Noise Model و مربوط به سال 1993 است. این روش بر اساس یک بازنماییِ pitch-synchronous harmonic-plus-noise سیگنال گفتار است. این طیف به دو باند تقسیم می‌شود که باند پایین فقط توسط امواج سینوسی که به صورت هارمونیک نمایش داده می‌شوند با دامنه‌ها و فرکانس‌های آهسته متفاوت نشان داده می‌شوند. محتوای فرکانس باند بالا توسط یک مدل AR متغیر با زمان مدل‌سازی می‌شود. ساختار حوزه زمان آن با یک تابع energy-envelope خطی piecewise نشان داده می شود. یک پارامتر متغیر با زمان که به عنوان حداکثر فرکانس صدا شناخته می شود، حد بین دو باند را تعیین می کند. در طول فریم های unvoiced، حداکثر فرکانس صدا بر روی صفر تنظیم می شود. در زمان سنتز، فریم‌های HNM به هم متصل می‌شوند و prosody ِ واحدها با توجه به prosody مدنظر تغییر می‌یابد.سنتز مبتنی بر آنالیز-سنتز:در سنتز به روش آنالیز-سنتز، کلمات یا عبارات گفتار انسان بر اساس مدل تولید گفتار آنالیز شده و به عنوان توالی زمانی پارامترهای ویژگی ذخیره می‌شوند. دنباله پارامترهای واحدهای مناسب متصل میشوند و به یک synthesizer گفتار داده می شوند تا پیام گفتاری مورد نظر را تولید کنند. از آنجایی که واحدها توسط پارامترهای پوشش طیفی و منبع ذخیره می شوند، مقدار اطلاعات بسیار کمتر از روش قبلیِ ذخیره‌سازی با شکل موج است، اگرچه طبیعی بودن گفتار سنتز شده اندکی کاهش می یابد. علاوه بر این، این روش از این جهت سودمند است که با کنترل پارامترها می توان تغییر نرخ صحبت و smoothسازی pitch و تغییرات طیفی در اتصالات را انجام داد. برای این منظور از Vocoderهای کانالی و synthesizerهای گفتار مبتنی بر روش های آنالیز LPC مانند روش های LSP و PARCOR و یا روش های آنالیز کپسترال استفاده می شود.سنتز گفتار مبتنی بر واج همچنین می تواند با روش آنالیز - سنتز پیاده سازی شود که در آن توالی برداری پارامتر ویژگی هر allophone توسط یک مدل ذخیره یا تولید می شود. اخیراً روشی با استفاده از HMM (مدل‌های مارکوف پنهان) برای مدل‌سازی فرآیند تولید پارامتر ویژگی برای هر آلوفون توسعه یافته است. در این روش، یک توالی بردار پارامتری متشکل از cepstra و delta-cepstra برای یک جمله مورد نظر به طور خودکار توسط الحاق HMM های آلوفون بر اساس معیار حداکثرسازی احتمال تولید می شود. از آنجایی که delta-cepstra در فرآیند به حداکثر رساندن احتمال در نظر گرفته می شود، یک توالی پارامتر نرم (smooth) به دست می آید.سنتز مبتنی بر مکانیزم تولید گفتار:دو روش قادر به تولید گفتار با تکثیر الکتروآکوستیک مکانیزم تولید گفتار هستند؛روش vocal tract analog است که انتشار موج صوتی را در مجرای صوتی شبیه‌سازی می کند و روش دیگر terminal analog است که ساختار طیف فرکانس را شبیه‌سازی می‌کند، یعنی ویژگی‌های تشدید و ضد تشدید، که در نتیجه articulation را بازتولید می‌کند. اگرچه در سال‌های اولیه، این روش‌ها با پردازش آنالوگ با استفاده از رایانه‌های آنالوگ یا مدارهای رزونانس متغیر محقق می‌شدند، اکثر سیستم‌های اخیر به دلیل پیشرفت در مدارها و رایانه‌های دیجیتال و سهولت کنترل از پردازش دیجیتال استفاده می‌کنند.(یادآوری: Articulation، به مکانیک تولید گفتار اشاره دارد و شامل حرکت و تنظیم اندام های گفتاری نظیر لب ها، زبان، گونه ها،و فک حنجره برای تولید یک صدا یا واج خاص است. واج یک حرکت مفصلی خاص است، مانند تشکیل مصوت [i] یا صامت [b] ).روش vocal tract analog: مجرای صوتی توسط یک اتصال آبشاری از tubeهای مستقیم با سطوح مقطع مختلف، که هر یک دارای یک طول کوتاه است، نشان داده می شود. امواج صوتی در tubeها به امواج رو به جلو و عقب تقسیم می شوند. انتشار موج صوتی (Acoustic wave propagation) در مجرای صوتی با ادغام بازتاب (reflection ) و نفوذِ (penetration ) امواج رو به جلو و عقب در هر مرز بین tubeهای مجاور نشان داده می شود. مقدار بازتاب و نفوذ در مرز توسط ضریب بازتاب تعیین می شود که میزان عدم تطابق در امپدانس صوتی را نشان می دهد. synthesizerگفتار مبتنی بر روش آنالوگ مجرای صوتی به ویژه در سنتز صداهای گذار (transitional ) مانند صامت ها مؤثر است، زیرا می تواند دقیقاً نحوه ی دینامیکیِ articulation در مجرای صوتی را شبیه سازی کند. علاوه بر این، این روش به راحتی با اطلاعات آوایی منتقل شده توسط موج گفتار مرتبط است. با این حال، گفتار سنتز شده با کیفیت بالا هنوز به دست نیامده است، زیرا حرکت اندام های articulatoryبه اندازه کافی برای ارائه قوانین کنترل مناسب روشن نشده است.روش terminal analog: این روش، مکانیسم تولید گفتار را با استفاده از یک ساختار الکتریکی متشکل از اتصال آبشاری یا موازی چندین مدار تشدید (فرمانت) و ضدتشدید(ضد فرمانت) شبیه‌سازی می‌کند. فرکانس تشدید یا ضدتشدید و پهنای باند هر مدار متغیر است. این روش را روش سنتز نوع فرمانت نیز می نامند. اتصال آبشاری مدارهای تشدید و ضد تشدید از این جهت سودمند است که نسبت‌های دامنه متقابل بین فرمانت‌ها و آنتی‌فرمانت‌ها به طور خودکار تعیین می‌شوند. این امکان پذیر است زیرا ویژگی های انتقال دستگاه صوتی را می توان مستقیماً با این روش نشان داد. از سوی دیگر، اتصال موازی از این جهت سودمند است که شکل طیفی نهایی را می‌توان دقیقاً شبیه‌سازی کرد. چنین شبیه‌سازی دقیقی با این واقعیت امکان‌پذیر می‌شود که دامنه هر فرمانت و آنتی‌فرمانت را می‌توان به طور مستقل نشان داد، حتی اگر این روش مستقیماً ویژگی‌های انتقال دستگاه صوتی را نشان ندهد. بنابراین، اتصال آبشاری برای گفتار مصوت با ساختار طیفی واضح مناسب است و اتصال موازی برای صداهای بینی و اصطکاکی که دارای چنان ساختار طیفی پیچیده‌ای هستند که ساختار قطب و صفر آنها را نمی‌توان به راحتی استخراج کرد، بهتر است.سنتز بر اساس قاعده-اصول سنتز بر اساس قاعده:سنتز با قاعده روشی برای تولید هر کلمه یا جمله ای است که بر اساس دنباله ای از نمادهای آوایی/هجایی یا حروف است. در این روش، پارامترهای ویژگی برای واحدهای کوچک اساسی گفتار مانند هجاها، واج ها یا گفتار one-pitch-period ذخیره شده و توسط قوانینی به هم متصل می شوند. در عین حال، ویژگی‌های prosodic مانند pitch و دامنه نیز توسط قوانین کنترل می‌شوند. کیفیت واحدهای اساسی برای سنتز و همچنین قوانین کنترل (اطلاعات کنترل و مکانیسم های کنترل) برای پارامترهای صوتی نقش بسیار مهمی در این روش ایفا می کنند و آنها باید بر اساس ویژگی های آوایی و زبانی گفتار طبیعی باشند. علاوه بر این، برای تولید گفتار طبیعی و متمایز، انتقال‌های زمانی pitch، استرس (stress) و طیف باید نرم ( smooth) باشند و سایر ویژگی‌ها مانند مکان‌های مکث و مدت زمان باید مناسب باشند.آنالوگ مجرای صوتی، آنالوگ ترمینال و synthesizerهای گفتار LPC به طور گسترده برای تولید گفتار استفاده می شد. روش های مبتنی بر شکل موج اخیراً بسیار محبوب شده اند. پارامترهای ویژگی برای واحدهای اساسی از گفتار طبیعی استخراج می شوند یا به طور مصنوعی ایجاد می شوند. هنگامی که واج ها به عنوان واحدهای اساسی برای تولید گفتار در نظر گرفته می شوند، ظرفیت حافظه می تواند بسیار کاهش یابد، زیرا تعداد واج ها معمولاً بین 30 تا 50 است. با این حال، قوانین اتصال واج ها به قدری پیچیده است که دست یافتن به گفتاری با کیفیت بالا دشوار است. بنابراین، واحدهای بزرگتر از واج یا واحدهای آلوفون (context-dependent phoneme) اغلب مورد استفاده قرار می گیرند. در مورد دوم، هزاران یا ده ها هزار واحد برای سنتز گفتار با کیفیت بالا لازم است.برای زبان ژاپنی، 100 هجا CV (C یک صامت است، V یک مصوت است) مربوط به نمادها در هجای ژاپنی "Kana" اغلب به عنوان این واحدها استفاده می شود. واحدهای CVC نیز برای به دست آوردن گفتار با کیفیت بالا به کار گرفته شده اند. تعداد هجاهای CVC که در ژاپنی ظاهر می شوند بسیار زیاد است، چیزی بین 5000 تا 6000. بنابراین، ترکیبی از تقریباً 1000 هجا CVC که اغلب در ژاپنی ظاهر می شوند همراه با تقریباً 200 هجا CV/VC برای ترکیب جملات ژاپنی استفاده شده است. ترکیبی از بین 700 تا 800 واحد VCV نیز تلاش شده است.در مقابل، زبان انگلیسی دارای بیش از 3500 هجا است که با در نظر گرفتن آلوفون ها (تغییرهای آوایی) به 10000 هجا می رسد. بنابراین، هجاها معمولاً به واحدهای کوچکتر، مانند dyad، diphone (هر دو تقریباً 400 تا 1000 واحد دارند)، یا نیم‌هجاها (تقریباً 1000) تجزیه می شوند. این واحدها اساساً از واج های منفرد و انتقال (transition) بین واج های همسایه تشکیل شده اند. اگرچه نیم‌هجاها کمی بزرگتر از دو واحد دیگر هستند، اما همه واحدها به گونه ای ساخته شده اند که ممکن است با استفاده از قوانین ساده به هم متصل شوند.در سیستم های مبتنی بر واج، سنتز با انتخاب اهداف برای هر پارامتر کنترل برای هر بخش آوایی آغاز می شود. گاهی اوقات اهداف با قوانینی اصلاح می شوند که ویژگی های بخش های همسایه را در نظر می گیرند. سپس انتقال بین اهداف بر اساس قوانینی محاسبه می‌شود که در پیچیدگی از نرمسازی (smoothing) ساده تا اجرای نسبتاً پیچیده تئوری مکان‌ها متغیر است. بیشتر تعاملات نرمسازی شامل بخش‌هایی در مجاورت یکدیگر است، اما قوانین همچنین اثرات متقابل articulatory/آکوستیکی را ارائه می‌کنند که بیش از بخش مجاور را شامل می‌شود. از آنجایی که ساختن این قوانین هنوز بسیار دشوار است، روش‌های سنتز که واحدهای واجی وابسته به زمینه (context-dependent phoneme units) را به هم متصل می‌کنند، اکنون به طور گسترده مورد استفاده قرار می‌گیرند.پارامترهای کنترل برای آهنگ صدا (intonation)، لهجه(accent)، استرس، مکث (pause) و مدت زمان به صورت دستی وارد سیستم می‌شدند تا گفتار جمله‌ای با کیفیت بالا سنتز شود. با این حال، به دلیل دشواری وارد کردن این پارامترها، تبدیل متن به گفتار، که در آن این پارامترهای کنترلی به طور خودکار بر اساس ترتیب حروف (توالی حروف) تولید می شوند، معرفی شده است. این سیستم می تواند توانایی انسان را در خواندنِ متونِ نوشتاری، یعنی تبدیل متن نامحدود به گفتار بفهمد. این اساساً هدف نهایی سنتز گفتار است. با این حال، ساختن چنین سیستم تبدیل متن به گفتار، نیاز به روشن شدن چگونگی درک جملات توسط افراد با استفاده از دانش نحو و معناشناسی دارد. برای اینکه کاملاً مؤثر باشد، این فرآیند درک باید سپس به برنامه های رایانه ای تبدیل شود.-کنترل ویژگی های prosodic:در ویژگی های نوای گفتار (prosodic)، intonation و accent بیشترین اهمیت را در بهبود کیفیت گفتار سنتز دارند. فرکانس پایه، بلندی صدا و مدت زمان به این ویژگی ها مربوط می شوند. در دوره ی گفتار بین مکث ها، یعنی مدت زمان (دوره ی ) گفته با یک نفس، فرکانس گام ( pitch ) معمولاً در شروع زیاد است و به دلیل کاهش فشار ساب‌گلوتال به تدریج به سمت پایان کاهش می یابد. این ویژگی مولفه آهنگ صدای پایه (basic intonation component) نامیده می شود. الگوی pitch ِ هر جمله، با افزودن مولفه های لهجه یِ الگوی pitch به مولفه آهنگ صدای پایه تولید می شود. مولفه های لهجه بر اساس جایگاه لهجه (آکسان) برای هر کلمه یا هجا تعیین می شود.(یادآوری1: در زبان‌شناسی، لهجه یا آکسان به گونه‌ای از طرز تلفظ‌های ویژه یک گروه زبانی گویند. لهجه‌ها معمولاً با مناطق جغرافیایی ویژه ارتباط دارند. اگر مجموعه تلفظ‌های دو دسته از گویشوران یک زبان به گونه‌ای باشد که همدیگر را نسبتاً آسان بفهمند صحبت از لهجه می‌کنیم و اگر تفاوت‌های تلفظی یا دستوری به‌گونه‌ای باشد که درک متقابل با ایرادات و دشواری‌هایی روبرو باشد از گویش (dialect) صحبت می‌کنیم).(یادآوری2: یک Clause (جمله‌واره) گروهی از کلمات‌اند که شامل یک فاعل و یک فعل می‌شوند. یک جمله‌واره یا بند ممکن است بخشی از یک جمله و یا به تنهایی یک جمله باشند. یک Phrase (گروه) از کنار هم قرار گرفتن چند تا کلمه در کنار هم درست میشود. این کلمات می‌توانند با هم در یک گروه باشند، اما بدون فاعل یا یک فعل. جملات ساده (Simple Sentences) در زبان انگلیسی به جملاتی گفته میشوند که حداقل یک فاعل و یک فعل داشته باشند و معنی کاملی را برسانند.)شکل زیر نمونه‌ای از مکانیزم تولید الگوی pitch را برای جمله گفتاری ژاپنی نشان می‌دهد که در آن الگوی pitch با برهم نهی (superposition ) اجزای عبارت (phrase components ) و اجزای آکسان (لهجه) بیان می‌شود. مولفه‌ی لهجه برای هر عبارت در نهایت با توجه به روابط نحوی (syntactic) موجود بین عبارات تعیین می شود.در یک سیستم سنتز گفتار موفق برای انگلیسی، الگویpitch بر حسب تکانه‌ها (impulses ) و دستورات مرحله‌ای که به یک فیلتر نرمسازی خطی داده می‌شود، مدل‌سازی می‌شود. مطابق با " hat theory " آهنگ صدا (intonation)، یک صعود پله ای در نزدیکی شروع اولین stressed vowel (مصوت تکیه دار) قرار می گیرد. یک سقوط پله ای در نزدیکی شروع مصوتِ تکیه‌دار نهایی قرار میگیرد. این بالا و پایین رفتن باعث ایجاد واحدهای نحوی می شود. تکیه همچنین در این سیستمِ قاعده با ایجاد یک افزایش موضعی اضافی بر روی مصوت تکیه‌دار با استفاده از دستورات تکانه‌ای یا ضربه‌ای (impulse) آشکار می شود. مقدار افزایش برای اولین مصوت تکیه‌دارِ یک واحد نحوی، بیشترین و پس از آن ،کوچکتر است. در نهایت، اثرات محلی کوچکِ بخش‌های آوایی با دستورات موقعیت‌یابی برای شبیه‌سازی افزایش صامت‌های بی‌صدا (voiceless) و مصوت‌های بالا(بلند) اضافه می‌شود. یک خط انحراف تدریجی (the basic intonation component) نیز در ورودی های فیلتر smoothing گنجانده شده است.شکل زیر، سه الگوی intonation معمولی clause-final را نشان می‌دهدشکل زیر، نمونه ای از یک pitch "الگوی کلاه" بلند و پایین بین لبه و بالای کلاه برای یک جمله دو بندی (two-clause sentence) است.نمونه ای از commandهای پله ای و ضربه ای (step and impulsive commands) برای جمله انگلیسی ذکر شده، و همچنین الگوی pitch تولید شده توسط این دستورات و قوانین، در شکل زیر آورده شده است.کنترل مدت زمان (duration control) برای هر واج نیز یک مسئله مهم در ترکیب گفتار با کیفیت بالا است. مدت زمان هر واج در گفتار پیوسته توسط عوامل بسیاری مانند ویژگی های خاص هر واج، تأثیر واج های مجاور، تعداد واج ها و همچنین مکان آنها در کلمه تعیین می شود. مدت زمان هر واج نیز به عنوان تابعی از بافت جمله تغییر می کند. به طور خاص، مصوت پایانی جمله، مانند مصوت‌های تکیه‌دار (stressed vowels) و صامت‌هایی که قبل از آنها در همان هجا قرار دارند، طولانی‌تر می‌شوند، در حالی که مصوت‌های قبل از صامت‌های بی‌صدا (voiceless consonants) کوتاه می‌شوندتبدیل متن به گفتار:یک سیستم تبدیل متن به گفتار تولید شده طیف وسیعی از کاربردها را در تعدادی از زمینه ها پیدا می کند. این موارد از دسترسی به ایمیل ها و انواع پایگاه های داده از طریق تلفن صوتی تا خواندن برای نابینایان را شامل می شود. شکل زیر عناصر اصلی تبدیل متن به گفتار را نشان می دهد (سال 1986).متن ورودی اغلب شامل اختصارات، اعداد رومی، تاریخ، زمان، فرمول ها و علائم نگارشی است. سیستم توسعه‌یافته باید این قابلیت را داشته باشد که ابتدا آن‌ها را به شکلی معقول و استاندارد تبدیل کند و سپس آنها را به یک رونویسی (transcription) آوایی گسترده ترجمه کند. این کار با استفاده از یک فرهنگ لغت تلفظ بزرگ همراه با قوانین حروف به صدا (letter-to-sound rules) مناسب انجام می شود.در سیستم MITalk-79، که یکی از پیشگام‌ترین سیستم‌های تبدیل متن به گفتار انگلیسی است که هنوز توسعه یافته است، 12000 morphs ، که 98 درصد جملات انگلیسی معمولی را پوشش می‌دهند، به عنوان بخش‌های صوتی پایه استفاده می‌شوند. Morphها ، کوچکتر از واژگان (words) بوده و، حداقل واحدهای رشته حروف با معنای زبانی هستند. آنها شامل پایه ها(stems)، پیشوند و پسوند تشکیل شده است. برای مثال، کلمه « changeable» به morph‌های « change» و « able» تجزیه می‌شود. فرهنگ لغت morphاملا و تلفظ هر morph، قوانینی برای ارتباط با سایر morphها، و قوانینی برای تغییرات وابسته به نحو را ذخیره می‌کند.دنباله‌های واجی برای کلمات کم بسامد به‌جای آماده‌سازی morphها برای آنها، با قوانین حرف به صدا تولید می‌شوند. این بر اساس این واقعیت است که تبدیل نامنظم حروف به صدا معمولاً برای کلمات متداول اتفاق می افتد، اگرچه تلفظ کلمات نادر از قوانین منظم در انگلیسی پیروی می کند.سیستم MITalk-79 رشته‌های کلمات را با استفاده از morph dictionary توسط یک فرآیند بازگشتی از چپ به راست به رشته‌های morph (واژ) تبدیل می‌کند. سپس هر کلمه به دنباله ای از واج ها تبدیل می شود. علاوه بر این، stress (تکیه) در هر کلمه با توجه به تأثیر پیشوندها، پسوندها، the word compound و قسمتی از گفتار تعیین می شود. ویژگی‌های prosodic ِ سطح جمله، بر اساس تحلیل نحوی و معنایی اضافه می‌شوند و گفتار جمله در نهایت با استفاده از synthesizer گفتار آنالوگ پایانی که در شکل زیر معرفی شده است، سنتز می‌شود.کیفیت گفتار سنتز شده توسط سیستم MITalk-79 با درک واج در کلمات مجزا، قابل فهم بودن کلمه در گفتار جمله و درک جمله ارزیابی شد. نتایج تجربی تأیید کرد که میزان خطای آزمون درک واج 6.9 درصد و امتیاز قابل فهم بودن کلمه به ترتیب 93.2 درصد و 78.7 درصد در جملات عادی و جملات بی معنی است. سیستم DECtalk که موفق ترین سیستم تبدیل متن به گفتار تجاری سازی شده است، بر اساس اصلاحات فناوری مورد استفاده در سیستم MITalk-79 است.سنتز گفتار مبتنی بر corpus:همانطور که گفته شد، روش‌های سنتز گفتار با تکیه بر تعداد زیادی واحد شکل موج کوتاه که pitch و زمینه (context) آوایی قبلی و بعدی را پوشش می‌دهند، اکنون به طور گسترده استفاده می‌شوند. واحدهای شکل موج معمولاً با استفاده از یک پایگاه داده بزرگ گفتار (corpus) ساخته و ذخیره می شوند. مناسب‌ترین واحدهایی که نزدیک‌ترین بافت آوایی و فرکانس زیر و بم را به گفتار مورد نظر دارند و کمترین اعوجاج الحاق را بین واحدهای مجاور ایجاد می‌کنند، بر اساس قوانین و معیارهای ارزیابی انتخاب شده و به هم الحاق می‌شوند. واحدها یا مستقیماً متصل می شوند یا در مرز درون یابی می شوند. اگر تعداد واحدها به اندازه کافی زیاد باشد و قاعده انتخاب مناسب باشد، می توان گفتار سنتز شده نرم (smooth) را بدون اعمال درون یابی به دست آورد. به جای ذخیره واحدهای طول یکپارچه مانند واج، روش‌های استفاده از واحدهای طول متغیر با توجه به مقدار داده و نوع گفتاری که سنتز میشود، نیز بررسی شده است.عوامل اصلی تعیین کننده کیفیت گفتار سنتز شده در این روش ها عبارتند از: 1) پایگاه داده گفتار 2) روشهای استخراج واحدهای پایه 3) اقدامات ارزیابی برای انتخاب مناسب ترین واحدها 4) روش های کارآمد برای جستجوی واحدهای اساسی.روش سنتز گفتار COC (Context-Oriented-Clustering):این روش در استفاده از خوشه‌بندی درخت تصمیم سلسه مراتبی در انتخاب واحد برای سنتز گفتار پیشگام بوده است. این روش ابتدا برای زبان ژاپنی پیشنهاد شد و بعداً به انگلیسی نیز گسترش یافت. در این رویکرد، تمام نمونه‌های یک واج مفروض در پایگاه‌داده‌ای تک‌گوینده با گفتار پیوسته در کلاس‌های هم ارزی (equivalence classes) با توجه به بافتهای واجی قبلی و بعدی خود خوشه‌بندی می‌شوند. درخت‌های تصمیم که خوشه‌بندی را انجام می‌دهند به‌طور خودکار ساخته می‌شوند تا شباهت صوتی را در کلاس‌های هم ارزی به حداکثر برسانند. شکل زیر نمونه ای از خوشه بندی درخت تصمیم را برای واج /a/ نشان می دهد. این رویکرد مشابه روشی است که در سیستم‌های تشخیص گفتار مدرن برای تولید مدل‌های مارکوف پنهان در زمینه‌های آوایی مختلف استفاده می‌شود.در این سیستم های سنتز، پارامترها یا بخش ها از پایگاه داده استخراج می شوند تا هر برگ درخت را نشان دهند. در طول سنتز، از درختان برای به دست آوردن توالی واحد مورد نیاز برای تولید جمله مورد نظر استفاده می شود. یکی از ویژگی های کلیدی این روش این است که ساخت درخت به طور خودکار تعیین می کند که کدام یک از اثرات بافت (context effects) از نظر تأثیر آنها بر ویژگی های آکوستیک گفتار مهم ترین هستند و بنابراین شناسایی خودکار برگ حاوی بخش ها یا پارامترهای مناسب برای سنتز یک بافت (context) مفروض در طول سنتز را امکان پذیر می کند، حتی زمانیکه context مورد نیاز در آموزش دیده نمیشود. نشان داده شده است که با الحاق واحدهای واجی وابسته به phoneme-context ، می توان گفتار smooth را سنتز کرد.روش COC برای استفاده از مجموعه‌ای از مدل‌های مارکوف پنهان وابسته به context خوشه‌بندی شده با درخت تصمیم متقاطع کلمه (cross-word) و تعریف مجموعه‌ای از واحدهای subphone برای استفاده در یک concatenation synthesizer گسترش یافت. در طول سنتز گفتار مورد نیاز، مشخص شده به عنوان رشته ای از کلمات با تلفظ آوایی شناخته شده، به عنوان دنباله ای از این حالت های خوشه ای با استفاده از یک synthesizer الحاق شکل موج TD-PSOLA تولید شد. یک روش برای استفاده از امتیازات احتمال HMM برای انتخاب مناسب ترین واحدهای پایه نیز بررسی شده است.روش CHATR: یک روش مبتنی بر corpus (مجموعه داده) برای تولید گفتار با انتخاب بخش‌های مناسب گفتار با توجه به برچسب‌گذاری (labeling) است که اثرات prosodic و همچنین واجی را بر شکل موج گفتار نشان می‌دهد. برچسب‌گذاری تنوع گفتار در داده‌های طبیعی، یک رویکرد عمومی را برای سنتز فعال کرده است که به راحتی با زبان‌های جدید و گویندگان جدید با تغییر کمی در الگوریتم اصلی سازگار می‌شود. شکل زیر جریان داده در CHATR را خلاصه می کند. این نشان می دهد که پردازش (در اینجا به شکل لوله نشان داده شده است) در دو مرحله اصلی رخ می دهد: در مرحله آنالیز اولیه پایگاه داده (خارج از خط) (off-line) (in the initial (off-line) database analysis ) و مرحله رمزگذاری (encoding) برای ارائه جداول شاخص (index tables) و پایگاه های دانش prosodic و در مرحله سنتز بعدی (آنلاین) برای پیش بینی prosody و انتخاب واحد. الحاق شکل موج (Waveform concatenation) در حال حاضر ساده ترین بخش CHATR است، زیرا بخش های شکل موج خام که نقاط شاخص (index) برای نامزدهای انتخاب شده به سادگی به آنها الحاق (concatenate) می شود. صرف نظر از پیشرفت اخیر در سنتز گفتار، بسیاری از مسائل تحقیقاتی همچنان باقی مانده است، از جمله: 1) بهبود طبیعی بودن به ویژه prosody در گفتار سنتز 2) کنترل سبک (استایل) صحبت کردن، مانند سبک خواندن یا دیالوگ و کیفیت گفتار 3) بهبود دقت تحلیل متن.مرجع اصلی:Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui آرمان پرناک آرمان پرناک Sun, 02 Jun 2024 17:48:02 +0330 سیستم‌های آنالیز گفتار و آنالیز-سنتز (فصل چهارم) https://virgool.io/@ArmanParnak/%D8%B3%DB%8C%D8%B3%D8%AA%D9%85-%D9%87%D8%A7%DB%8C-%D8%A2%D9%86%D8%A7%D9%84%DB%8C%D8%B2-%DA%AF%D9%81%D8%AA%D8%A7%D8%B1-%D9%88-%D8%A2%D9%86%D8%A7%D9%84%DB%8C%D8%B2-%D8%B3%D9%86%D8%AA%D8%B2-%D9%81%D8%B5%D9%84-%DA%86%D9%87%D8%A7%D8%B1%D9%85-s65aovw3ipak 1.4.دیجیتال‌سازی (digitalization): سیگنال گفتار یا موج گفتار را می‌توان با تبدیل آن به یک سیگنال الکتریکی با استفاده از میکروفون به یک آبجکت قابل پردازش تبدیل کرد. سیگنال الکتریکی معمولاً از سیگنال آنالوگ به سیگنال دیجیتال تبدیل می‌شود و به دو دلیل هم این کار انجام می‌شود: اول، تکنیک‌های دیجیتال، پردازش سیگنال بسیار پیچیده را تسهیل می‌کنند که در غیر این صورت با تکنیک‌های آنالوگ قابل تحقق نیست. دوم، پردازش دیجیتال قابلیت اطمینان‌ بیشتری دارد و با استفاده از یک مدار فشرده قابل انجام است. توسعه سریع کامپیوترها و مدارهای مجتمع در ارتباط با رشد شبکه‌های ارتباطی دیجیتال، ما را به سمت استفاده از تکنیک‌های پردازش دیجیتال برای پردازش گفتار سوق داده است. تبدیل آنالوگ به دیجیتال که معمولاً به آن دیجیتال‌سازی می گویند، شامل فرآیندهای نمونه‌برداری (sampling)، کوانتیزاسیون یا کمی‌سازی (quantizing) و کدگذاری (coding) است. Digitalization (Analog-to-digital conversion): Sampling-> Quantizing-> Codingنمونه‌برداری، فرآیندی برای به تصویر کشیدن یک سیگنال پیوسته متغیر به عنوان یک دنباله دوره‌ای از مقادیر است. کوانتیزاسیون تقریباً شامل بازنمایی مقدار شکل موج توسط یکی از مجموعه مقادیر اولیه است. کدگذاری مربوط به اختصاص یک عدد واقعی به هر مقدار است. برای چنین کاری معمولاً از کدگذاری باینری استفاده می‌شود که از نمایش اعداد دودویی استفاده می‌کند. بنابراین این فرآیندها سیگنال آنالوگ پیوسته را قادر می‌سازند تا به دنباله‌ای از کدهای انتخاب شده از یک مجموعه محدود تبدیل شود.1.1.4.نمونه‌برداری (sampling)شکل زیر، این عمل را در حوزه زمان نشان می‌دهد:اگر T خیلی بزرگ باشد، سیگنال اصلی را نمی‌توان از دنباله نمونه‌برداری‌شده بازتولید کرد. برعکس، اگر T خیلی کوچک باشد، نمونه‌های بی‌فایده در دنباله نمونه‌برداری شده ظاهر می‌شوند. در این راستا، قضیه نمونه‌برداریِ شانون-سومیا برای رابطه بین پهنای باند فرکانسی سیگنال آنالوگ نمونه‌برداری شده و دوره نمونه‌برداری به عنوان ابزاری برای حل این مشکل پیشنهاد شد. این قضیه می‌گوید که وقتی سیگنال آنالوگ x(t) محدود به باند 0 تا W شود و زمانی که x(t) در هر T = 1/2W نمونه‌برداری شود، آنگاه سیگنال اصلی را می‌توان از طریق رابطه زیر به طور کامل بازتولید کرد:در این رابطه، x(i/2W) مقدار نمونه‌برداری‌شده از x(t) در t = i/2W است (i یک عدد صحیح می‌باشد). و 2W = 1/T، نرخ نایکوئیست نامیده می‌شود.به عنوان مثال، یک سیگنال تلفن معمولی را می توان در هر T = l/8000 [s] نمونه‌برداری کرد، زیرا پهنای باند W آن زیر 4 کیلوهرتز محدود شده است. فرکانس نمونه‌برداری برای پردازش دیجیتال سیگنال‌های گفتاری معمولا بین 6 تا 16 کیلوهرتز تنظیم می‌شود. حتی برای چندین صامت خاص، تنظیم فرکانس نمونه‌برداری روی 20 کیلوهرتز کافی است. برای سیگنال‌هایی که پهنای باند فرکانسی آنها مشخص نیست، از یک فیلتر پایین‌گذر برای محدود کردن پهنای باند ، قبل از نمونه‌برداری، استفاده می‌شود. هنگامی که سیگنال بر خلاف قضیه نمونه‌برداری، نمونه‌برداری می‌شود، اعوجاج aliasing رخ می‌دهد، که در آن، اجزای فرکانس بالای سیگنال دچار واپیچیدگی می‌شوند، همانطور که در شکل زیر نشان داده شده است. به سیگنال نمونه‌برداری شده که در حوزه زمان (time domain) ناپیوسته است اما در حوزه‌ی دامنه (amplitude domain) پیوسته است، سیگنال گسسته گفته می‌شود.2.1.4.کوانتیزاسیون و کدینگ (Quantization and Coding)در طول کوانتیزاسیون، کل محدوده‌ی دامنه پیوسته به زیر دامنه‌های محدود تقسیم می‌شود و به شکل موج‌هایی که دامنه آنها در یک زیر دامنه قرار می‌گیرند، مقادیر دامنه یکسانی نسبت داده می‌شود. شکل زیر مشخصه ورودی-خروجی یک کوانتایزر هشت سطحی (3 بیتی) را نشان می‌دهد، که در آن ∆ اندازه گام کوانتیزاسیون است. در این مثال، هر کد به گونه‌ای تخصیص داده شده است که مستقیماً مقدار دامنه را نشان می‌دهد. مشخصه کوانتیزاسیون هم به تعداد سطوح (levels) و هم به اندازه گام (step) کوانتیزاسیون ∆ بستگی دارد. هنگامی که سیگنال با B [bit] کوانتیزه می‌شود، تعداد سطوح معمولاً روی 2^B (دو به توان B) تنظیم می‌شود تا از کارآمدترین استفاده از کلمات کد باینری اطمینان حاصل شود. ∆ و B باید با هم انتخاب شوند تا به درستی محدوده سیگنال را پوشش دهند.3.1.4. تبدیل آنالوگ به دیجیتال و دیجیتال به آنالوگ (A/D , D/A)تبدیل آنالوگ به دیجیتال را با A/D و عکس آن را با D/A نمایش می‌دهند. استفاده از فیلتر پایین‌گذر پیش از تبدیل A/D و نیز پس از تبدیل D/A به منظور حذف اعوجاج موجود در اجزای هارمونیک بالاتر ضروری است. رابطه بین مشخصه فیلتر پایین‌گذر و فرکانس تبدیل D/A باید همان الزامات اساسی برای فرایند نمونه‌برداری را برآورده کند.در پردازش سیگنال گفتار، پیش‌تاکید (pre-emphasis)، یعنی فشرده‌سازی محدوده دینامیکی سیگنال توسط flat کردن شیب طیف، در افزایش SNR (نسبت سیگنال به نویز کوانتیزاسیون) موثر است. عمل پیش‌تاکید معمولاً با تأکید بر مولفه‌های فرکانس بالاتر تقریباً dB/oct 6 پیش از فیلتر پایین‌گذر برای تبدیل A/D انجام می‌شود. پیش‌تاکید را می‌توان همچنین پس از تبدیل A/D از طریق محاسبه دیفرانسیل یا از طریق اعمال فیلتر دیجیتالی مرتبه اول انجام داد:1- α (z ^ -1)مقدار آلفا تقریبا نزدیک 1 در نظر گرفته می‌شودبا این حال، به حداکثر رساندن SNR تا آنجا که ممکن است، مستلزم آن است که قبل از تبدیل A/D، تاکید اولیه صورت گیرد. فرآیند افزودن شیب 6 db/oct یا بازتولید شیب طیفی اصلی را de-emphasis می گویند.از آنجایی که محدوده دینامیکی موج گفتار بزرگتر از 50 دسی بل است، 10 بیت یا بیشتر برای تبدیل A/D ضروری است. با این حال، زمانی که نرمال‌سازی بلوک در هر دوره کوتاه برای نرمال‌سازی تغییرات دامنه توسط ضرب نمودن یک مقدار ثابتِ اختصاص‌داده‌شده به دوره کوتاه (short period) در موج گفتار اعمال می شود، رزولشون کوانتیزاسیون کافی را می‌توان حتی با نرخ بیت 6 تا 7 بیت به دست آورد. از آنجایی که ضریب پیک گفتار 12 دسی‌بل است، حداکثر سطح مجاز مبدل A/D باید 12 دسی بل بالاتر از سطح موثر سیگنال گفتار ورودی تنظیم شود.2.4.آنالیز طیفی:1.2.4.ساختار طیف گفتار:موج گفتار معمولاً با استفاده از ویژگی‌های طیفی نظیر طیف فرکانسی و تابع خودهمبستگی، به جای استفاده مستقیم از شکل موج، آنالیز می‌شود. دو دلیل مهم برای این موضوع وجود دارد. ابتدا اینکه موج گفتار با جمع امواج سینوسی که دامنه و فاز آن‌ها به کندی تغییر می‌کند قابل بازتولید خواهد بود. مورد دیگر این است که ویژگی های حیاتی برای درک گفتار توسط گوش انسان عمدتاً در اطلاعات طیفی گنجانده شده است، در حالیکه اطلاعات فازی چندان این پتانسیل را ندارد. چگالی طیفی توان (power spectral density) در یک بازه کوتاه، یعنی طیف کوتاه‌مدتِ گفتار را می‌توان حاصل دو عنصر در نظر گرفت: پوشش طیفی (spectral envelope) که به آرامی به صورت تابعی از فرکانس تغییر می‌کند و ساختار ریز طیفی (spectral fine structure) که به سرعت تغییر می‌کند. همانطور که در شکل زیر نشان داده شده، ساختار ریز طیفی الگوهای تناوبی را برای صداهای واکه‌دار (voiced sounds) تولید می‌کند، اما برای صداهای بی‌واکه(unvoiced sound) این الگوها را تولید نمی‌کند.پوشش طیفی (spectral envelope)، یا ویژگی کلی طیفی، نه تنها ویژگی‌های تشدید و ضد تشدیدِ articulatory organs را منعکس می‌کند، بلکه شکل کلی طیف منبع گلوتال و ویژگی‌های انتشار (radiation) را در لب‌ها و سوراخ‌های بینی منعکس می‌کند. از سوی دیگر، ساختار ظریف طیفی با تناوب منبع صدا ارتباط دارد. روش‌های استخراج پوشش طیفی را می‌توان به تحلیل پارامتریک (PA) و تحلیل ناپارامتریک (NPA) تقسیم کرد. در PA، مدلی که متناسب با سیگنال هدف باشد انتخاب شده و با تنظیم پارامترهای ویژگی که مدل را نشان می‌دهد، به سیگنال اعمال می شود. از سوی دیگر، روش‌های NPA عموماً می‌توانند برای سیگنال‌های مختلف اعمال شوند، زیرا آنها سیگنال‌ها را مدل‌سازی نمی‌کنند. اگر مدل کاملاً با سیگنال هدف مطابقت داشته باشد (فیت بشود)، روش‌های PA می‌توانند ویژگی‌های سیگنال را مؤثرتر از روش‌های NPA نشان دهند. روش‌های اصلی برای تجزیه و تحلیل طیف گفتار و ویژگی های طیفی در جدول زیر نشان داده شده است. 1.2.4.خودهمبستگی (autocorrelation) و تبدیل فوریه:اگر x(n) یک دنباله زمانی نمونه‌برداری شده باشد آنگاه تابع خودهمبستگی‌اش را می‌توان چنین تعریف نمود:که در آن N، تعداد نمونه‌ها در بازه آنالیز کوتاه مدت است. طول بازه یعنی NT (Tدوره نمونه‌برداری)، معمولاً در حدود 30 میلی ثانیه در نظر گرفته می‌شود. به طور خاص، فواصل (بازه‌های) حدود 20 و 40 میلی‌ثانیه اغلب نتایج خوبی را به ترتیب برای صدای زنانه و مردانه به ارمغان می‌آورند. طیف کوتاه مدت S(w) و خودهمبستگی کوتاه مدت ф(m)، جفتِ تبدیل فوریه را تشکیل میدهند؛در روابط فوق، w یک فرکانس زاویه نرمال شده است که می تواند با w = 2пfT نمایش داده شود (f یک فرکانس real است). S(w) معمولاً مستقیماً از موج گفتار با استفاده از تبدیل فوریه گسسته (DFT) که توسط الگوریتم تبدیل فوریه سریع (FFT) تسهیل می‌شود، محاسبه می‌شود:تابع خودهمبستگی را می‌توان با استفاده از DFT (FFT) در مقایسه با روش محاسبه همبستگی معمولی در زمانی که عناصر همبستگی مرتبه بالاتر مورد نیاز است، به سادگی محاسبه کرد. با این روش تابع خودهمبستگی به عنوان تبدیل‌فوریه‌معکوسِ طیف کوتاه مدت بدست می‌آید که با استفاده از معادله فوق محاسبه می‌شود.3.2.4.تابع پنجره (window function):به منظور استخراج N-sample interval از موج گفتار جهت محاسبه تابع خودهمبستگی و طیف، موج گفتار باید در یک پنجره زمانی مناسب ضرب شود. بنابراین x(n) موجود در دو معادله زیر (که قبلا نیز اشاره شدند) معمولا شکل موج اصلی نیست بلکه شکل موج موج ضربدر تابع پنجره است. مطلوب است که تابع پنجره دو ویژگی را برآورده کند تا اعوجاج طیفی ناشی از windowing را کاهش دهد. یکی رزولوشن با فرکانس بالا است. دیگری یک نشت طیفی کوچک از سایر عناصر طیفی است که توسط کانولوشن ایجاد می شود.از آنجایی که این دو الزام در واقع بر خلاف یکدیگر هستند و از آنجا که برآوردن هر دو غیرممکن است، چندین تابع پنجره پیشنهاد شده است. در این میان، پنجره Hamming، به صورت تعریف شده است:از تابع همینگ معمولاً به عنوان تابع پنجره برای تجزیه و تحلیل گفتار استفاده می شود. این پنجره از این نظر مفید است که رزولوشن آن در حوزه فرکانس نسبتاً بالا بوده و نشت طیفی آن کم استنکته: پنجره مستطیلی برای تجزیه و تحلیل یک موج گفتاری که محدوده دینامیکی زیادی از اجزای طیفی دارد، مناسب نیست.پنجره دیگر نامش پنجره Hanning است که به صورت زیر تعریف می‌شود:شکل این پنجره ها و طیف برای 10 دوره امواج سینوسی 1 کیلوهرتز استخراج شده با استفاده از این پنجره ها در شکل زیر نشان داده شده است:رابطه مربوط بین دوره نمونه‌برداری، تعداد نمونه برای آنالیز و رزولوشن فرکانس نامی طیف به صورت زیر است:هنگامی که طول پنجره آنالیز افزایش می‌یابد، رزولوشن فرکانسی با کاهش رزولوشن زمانی افزایش می‌یابد. از طرف دیگر، زمانی که طول پنجره آنالیز کوتاه می‌شود، با کاهش وضوح فرکانس، وضوح زمانی افزایش می‌یابد. این روابط را می‌توان به راحتی از این واقعیت درک کرد که ضرب شکل موج در یک تابع پنجره با میانگین متحرک طیف (moving average of the spectrum) در حوزه فرکانس ارتباط دارد. علاوه بر این، هنگامی که شکل موج در پنجره Hamming یا Hanning ضرب می‌شود، طول بازه آنالیز تقریباً 40 درصد کوتاهتر می شود زیرا شکل موج‌های نزدیک هر دو انتهای پنجره فشرده می شوند (همانطور که در شکل فوق دیدیم). این منجر به کاهش 40٪ در رزولوشن فرکانس می شود.از این رو، ضرب موج گفتار در یک پنجره مناسب، نوسانات طیفی را به دلیل تغییر موقعیت تحریک گام در بازه آنالیز کاهش می‌دهد. این در تولید طیف های پایدار در طول تجزیه و تحلیل صداهای واکه‌دار clear pitch periodicity موثر است. از آنجایی که ضرب در تابع پنجره طول بازه آنالیز را کاهش می دهد، طول آنالیز باید به طور همپوشان در امتداد موج گفتار جابجا شود تا ردیابی طیف های متغیر با زمان تسهیل شود.فاصله تحلیل (بازه تحلیل) زمانی کوتاهی که در یک تابع پنجره ضرب می شود و از موج گفتار استخراج می شود، فریم نامیده می شود. فاصله ی جابه‌جایی فریم (frameshifting )، فاصله فریم (frame interval) نامیده میشودبلوک دیاگرام یک روش تحلیل گفتار معمولی در شکل زیر نشان داده شده است. همچنین در هر مرحله مقادیر پارامترهای معمولی و نمونه هایی از امواج گفتاری نشان داده شده است.4.4.4.طیف‌نگار صوتی (sound spectrogram):آنالیز طیف‌نگار صوتی روشی برای ترسیم تابع زمانی طیف گفتار با استفاده از نمودارهای چگالی است. ابزار مخصوصی که برای اندازه گیری و رسم طیف نگار صوت استفاده می شود، طیف نگار صدا نامیده می شود. شکل زیر نمونه ای از طیف نگارهای صوتی برای کلمه ژاپنی /ko:geN/ یا "Plateau" است که توسط یک گوینده مرد بیان می شود. همانطور که نشان داده شده، طیف نگار صدا دو نوع بازنمایی را ارائه می دهد: روشن و تاریک و کانتور.در بازنمایی های تاریکی و روشنی، مناطق تاریک‌تر نشان دهنده ی مولفه‌های فرکانسی با شدت بالاتر هستند. بازنمایی های کانتور، مانند نقشه های کانتور، بزرگی (magnitude) تقریباً کوانتیزه می شود، و ناحیه ای که بزرگی در همان سطح کوانتیزاسیون قرار دارد، توسط همان سایه تاریکی تولید می شود.معمولاً پهنای باند فیلتر میانگذر برای تجزیه و تحلیل فرکانس، یعنی رزولوشن فرکانس، بسته به هدف تجزیه و تحلیل، 300 هرتز یا 45 هرتز است. هنگامی که رزولوشن فرکانس 300 هرتز است، طول موثر بازه تحلیل گفتار تقریباً 3 میلی‌ثانیه است و زمانی که وضوح 45 هرتز باشد، طول به 22 میلی‌ثانیه می‌رسد. از آنجایی که این مبادله بین رزولوشن فرکانس و زمان اتفاق می‌افتد، ساختار زیر و بمی (pitch) گفتار با یک الگوی تکراریِ راه راه عمودی در امتداد محور زمان در مورد وضوح فرکانس 300 هرتز، و با یک راه راه افقی به طور مساوی نشان داده می‌شود. الگوی تکراری در امتداد محور فرکانس در مورد وضوح 45 هرتز، همانطور که در شکل فوق نشان داده شده است.بسیاری از طیف‌نگارهای صوتی که در اصل توسط فناوری آنالوگ با استفاده از طیف‌نگار صدا تولید می‌شد، اکنون توسط فناوری دیجیتال از طریق رایانه‌ها و چاپگرهای آن تولید می‌شوند. روش دیجیتال به ویژه از این جهت سودمند است که امکان تنظیم آسان شرایط مختلف را فراهم می‌کند و از این نظر که طیف‌نگارها می‌توانند به صورت متوالی و خودکار با قابلیت تکرار خوب تولید شوند.3.4. کپستروم (Cepstrum)1.3.4. کپستروم و کاربردش:کپستروم یا ضریب کپسترال c(r) به صورت تبدیل فوریه معکوس طیف دامنه لگاریتمی کوتاه مدت IX(w)I تعریف می شود. اصطلاح cepstrum در اصل یک کلمه ابداع‌شده است که به معنای تبدیل معکوس طیف (inverse transform of the spectrum) است. به پارامتر مستقل برای کپستروم، quefrency گفته میشود، که از کلمه frequency تشکیل شده است. از آنجایی که کپستروم تبدیل معکوسِ تابعِ حوزه فرکانسی است، quefrency پارامتر حوزه زمان محسوب میشود.ویژگی خاص کپستروم این است که امکان نمایش جداگانه پوشش طیفی (spectral envelope) و fine structure را فراهم می کند.بر اساس مدل مدار معادل قابل جداسازی خطی، گفتار صوتی x(t) را می توان به عنوان پاسخِ فیلترِ معادلِ آرتیکولاسیون مجرای صوتی که توسط یک منبع شبه دوره ای g(t) هدایت می شود، در نظر گرفت. آنگاه x(t) را میتوان از کانولوشن g(t) با h(t) (پاسخ impulse مجرای صوتی) بدست آورد:و بدین ترتیب تبدیل فوریه X(w) به صورت زیر محاسبه می گردد:اگر g(t) یک تابع متناوب باشد، I X(w)I با طیف های خطی نشان داده می شود که بازه های (فواصل) فرکانسی آن معکوسِ دوره اصلی g(t) است. بنابراین، هنگامی که IX(w)l توسط تبدیل فوریه یک دنباله زمانی نمونه برداری شده برای یک دوره موج گفتاری کوتاه محاسبه می شود، پیک های تیز با فواصل مساوی در امتداد محور فرکانس نشان می دهد. لگاریتم آن یعنی log Ix(w)I به صورت زیر محاسبه میشود:عبارت اول و دوم در سمت راست معادله فوق به ترتیب با ساختار ظریف طیفی (fine structure) و پوشش طیفی (spectral envelope ) مطابقت دارد. اولی الگوی تناوبی است و دومی الگوی کلی در امتداد محور فرکانس است.کپستروم که تبدیل فوریه معکوسِ log IX(W)I است، به صورت زیر محاسبه میشود:تابع اول در سمت راست معادله فوق، شکل‌ یک پیک در ناحیه high-quefrency را نشان می دهد و تابع دوم نشان دهنده تراکم (تجمع) در ناحیه low-quefrency از 0 تا 2 یا 4 میلی ثانیه است. دوره بنیادی منبع g(t) را می توان از پیک در ناحیه high-quefrency استخراج کرد. از سوی دیگر، تبدیل فوریه عناصر low-quefrency ، پوشش طیفی لگاریتمی را تولید می کند که از طریق تبدیل نمایی، پوشش طیفی خطی را می توان به دست آورد. حداکثر ترتیب عناصر low-quefrency مورد استفاده برای تبدیل، نرمیِ (smoothness) پوشش طیفی را مشخص می کند. به فرآیند جداسازی عناصر کپسترال به این دو عامل را liftering گفته میشود، که از کلمه filtering گرفته شده است. هنگامی که مقدار کپستروم توسط DFT محاسبه می شود، لازم است که مقدار پایه تبدیل، N، به اندازه کافی بزرگ در نظر گرفته شود تا aliasing، مشابه آنچه در طول نمونه برداریِ شکل موج تولید می شود حذف گردد. آنگاه کپستروم برابر خواهد شد با:مراحل فرآیند استخراج دوره بنیادی و پوشش طیفی با استفاده از روش کپسترال در شکل زیر آورده شده است:نمونه هایی از نتایج استخراج شده در شکل زیر نشان داده شده است (گفتنی است مقادیر کپستروم نشان‌داده‌شده در این شکل، مقادیر مجذور کپستروم cn مذکور است):2.3.4. آنالیز همومورفیک و LPC Cepstrum:آنالیز کپسترال، که فرآیند جداسازی دو ویژگی کانولوشنی مرتبط توسط تبدیل رابطه به یک جمع است، نوعی آنالیز همومورفیک یا فیلترینگ (فیلترینگ همومورفیک) است. به طور کلی، آنالیز همومورفیک به نوعی از پردازش سیگنال اشاره دارد که سیستم غیرخطی (یا non-additive) را به عوامل مستقل تجزیه می‌کند، مشابه فیلتری که سیگنال‌های اضافه شده ی خطی را متمایز می‌کند. آنالیز هممورفیک از چندین روش خاص برای تبدیل رابطه به یک رابطه ی additive استفاده می کند.معادله زیرنشان میدهد که طیفِ تمام‌قطبیِ H(z) برای چگالی طیفی سیگنال گفتار استفاده می شود. این امر با بسط دادن کپستروم به شکل مختلط انجام میشود؛ یعنی در شکل زیر که قبلا هم داشتیم بیاییم به جای بلوک‌های DFT، تبدیل لگاریتم و IDFT، به ترتیب از تبدیل Z دوگانه، تبدیل لگاریتمیِ مختلط و تبدیل Z دوگانه معکوس استفاده کنیم.H(z) is the z-transform of the impulse response of an all-pole speech production system estimated by the linear predictive coding (LPC) analysis methodکپستروم رابطه زیر، به عنوان کپستروم LPC شناخته می شود، زیرا از طریق مدل LPC مشتق شده است. کپستروم اصلی گاهی اوقات cepstrum FFT نامیده می شود تا از کپستروم LPC متمایز شود. شکل زیر پوشش طیفی محاسبه شده با استفاده از کپستروم استخراج شده به طور مستقیم از شکل موج را با پوشش محاسبه شده با استفاده از کپستروم LPC مقایسه می کند. در این شکل، طیف کوتاه مدت و پوشش طیفی استخراج شده با LPC (روش حداکثر درستنمایی) نیز برای مرجع نشان داده شده است. پوشش طیفی مشتق شده از کپستروم LPC به وضوح تمایل دارد تا قله های طیفی را با دقت بیشتری نسبت به پوشش طیفی به دست آمده از کپستروم FFT دنبال کند.4.4.بانک فیلتر و آنالیز zero-crossing1.4.4.بانک فیلتر دیجیتال:بانک فیلتر دیجیتال، به طور خاص، مجموعه ای از فیلترهای میانگذر است. بانک فیلتر به مقدار نسبتاً کمی محاسبات نیاز داشته و بنابراین برای اجرای سخت افزاری کاملاً مناسب است. از آنجائیکه بین زمان (رزولوشن زمان) و رزولوشن فرکانس هر فیلتر میانگذر یک trade-off قطعی وجود دارد، لازم است پارامترهای مختلفی با توجه به اهداف مورد نظر طراحی شود. به طور کلی، فیلترهای میانگذر به گونه ای ساخته می شوند که فرکانس‌های مرکزی با فواصل مساوی در مقیاس فرکانس لگاریتمی با در نظر گرفتن مشخصه‌های شنوایی انسان توزیع شوند و به گونه ای که نقاط تضعیف 3 دسی بلِ (3-dB attenuation points) فیلترهای مجاور منطبق می‌شوند. خروجی هر فیلتر باند میانگذر تصحیح می‌شود، با محاسبه مقدار RMS(ریشه میانگین مربع) smooth می‌شود و هر 5 تا 20 میلی‌ثانیه نمونه‌برداری می‌شود تا مقادیری که پوشش طیفی را نشان می‌دهند به دست آید. قسمت آنالیز طیفیِ آنالیز طیف‌نگار صوت معمولاً با استفاده از یک فیلتر میانگذر انجام می‌شود که فرکانس مرکزی آن به طور مداوم تغییر می‌کند. در آنجا موج گفتار ضبط شده به صورت مکرر پخش شده و توسط فیلتر آنالیز می شود.2.4.4.آنالیز zero-crossing:عدد گذار از صفر یا تلاقی‌صفرِ (zero-crossing) موج گفتار در یک بازه زمانی از پیش تعیین شده، که به عنوان تعداد دفعاتی که نقاط نمونه مجاور دارای علائم مثبت و منفی متفاوتی هستند محاسبه می شود، تقریباً با فرکانس مولفه طیفی اصلی مطابقت دارد. بر اساس این اصل، فرکانس‌های فرمانت را می توان با تجزیه و تحلیل zero-crossing به صورت زیر تخمین زد: ابتدا موج گفتار از مجموعه ای از فیلترهای میانگذرِ چهار یا پنج اکتاوی عبور داده می شود و عدد توان و عدد تلاقی‌صفرِ خروجیِ تصحیح و صاف‌شده‌ی هر فیلتر، در فواصل زمانی کوتاه مانند 10 میلی ثانیه اندازه گیری می‌شود. هنگامی که توان یک فیلتر از آستانه از پیش تعیین شده فراتر می رود، این محدوده فرکانس دارای یک فرمانت در نظر گرفته می شود، با فرکانس فرمانت با نرخ zero-crossing تخمین زده می شود. این نرخ عبور از صفر همچنین می تواند برای تشخیص تناوب منبع صدا و همچنین برای تخمین دوره بنیادی استفاده شود. اگرچه روش آنالیز zero-crossing به خوبی از جهت پیاده‌سازی سخت افزاری مناسب است، اما اشکال آن این است که به additive noise حساس است.5.4.آنالیز از طریق سنتز (Analysis-by-Synthesis) (A-b-S):تجزیه و تحلیل با سنتز (A-b-S)، ارائه شده در شکل زیر، فرآیند تعیین پارامترهایی است که سیستم را بر اساس یک مدل تولید سیگنال فرضی مشخص می کند. پارامترهای مدل در دوره کنترل فیدبک تکراری تنظیم می شوند تا خطا بین مقدار مشاهده شده و مقدار تولید شده توسط مدل به حداقل برسد. موارد مهم در A-b-S انتخاب مدل تولید مفروض، مقادیر پارامترهای اولیه، اندازه گیری ارزیابی خطا و الگوریتم کمینه سازی است. A-b-S نه تنها برای استخراج پارامترهای گفتار، بلکه برای بسیاری از کاربردها که در آنها می توان از یک مدل تولید استفاده کرد، مفید است. در طول استخراج فرکانس فرمانت بر اساس تکنیک A-b-S، پارامترهای زیر تنظیم می‌شوند: فرکانس‌ها و پهنای باند فرمانت اول تا سوم یا چهارم، فرکانس اصلی و همچنین پوشش طیفی منبع صوتی، و ویژگی‌های جبران طیفی کلی (overall spectral compensation) از جمله ویژگی های فرمانت مرتبه بالاتر.میانگین مربعات خطای بین طیف های توان لگاریتمی گفتار مدل شده و گفتار مشاهده شده معمولاً به عنوان معیار ارزیابی خطا استفاده می شود. رزولوشن های استخراج فرکانس فرمانت از10 ± هرتز و ±20 هرتز به ترتیب برای فرمانت های اول و دوم به صورت تجربی به دست آمد. اگرچه روش A-b-S در اصل بهتر از هر روش دیگری است، اما از آنجایی که محاسبات قابل توجهی مورد نیاز است مشکل ساز است. به طور خاص، به دلیل تعامل متقابل بین اثرات پارامترهای مختلف بر روی تولید پوشش طیفی، به تعداد زیادی تکرار کنترل فیدبک در طول تجزیه و تحلیل گفتار واقعی نیاز دارد.6.4.سیستم های آنالیز-سنتز1.6.4. ساختار سیستم آنالیز-سنتز:آنالیز-سنتز فرآیندی است که در آن موج گفتار با استفاده از منبع صدا و پارامترهای articulation بازتولید (سنتز) می شود. پارامترها بر اساس مدار معادل خطی قابل جداسازی برای مکانیسم تولید گفتار استخراج می‌شوند. این پارامترها چهار نوع اطلاعات را مشخص می کنند: 1. تمایز بین voiced sound (منبع پالس) و unvoiced sound (منبع نویز) 2. دوره اساسی یا فرکانس اساسی صداهای واکه‌دار (voiced sound) 3. دامنه منبع 4. خصوصیات فیلتر خطی (رزونانس). سه مورد اول اطلاعات منبع را ارائه می دهند، در حالی که آخرین پارامتر، اطلاعات پوشش طیفی (articulation) را ارائه می دهد.برای اطمینان از بهبود کیفیت گفتار سنتز شده، بررسی دقیق سه رویه اصلی سیستم های تجزیه و تحلیل گفتار ضروری است. اولین مورد استخراج پارامترهایی است که دقیقاً تنها اطلاعات مهم شنیداری را با نادیده گرفتن اطلاعات اضافی موجود در امواج گفتاری منتقل می کند. دومی کدگذاری موثر پارامترهای ویژگی است. سوم، بازتولید گفتار اصلی تا حد امکان دقیق، واضح و طبیعی با استفاده از پارامترهای ویژگی کدگذاری شده است.2.6.4. مثالی از سیستم های آنالیز-سنتز:نمونه های عمده سیستم های تجزیه و تحلیل گفتار در جدول زیر خلاصه شده است. همانطور که نشان داده شده، نمونه اولیه سیستم تجزیه و تحلیل گفتار، Vocoder است که در سال 1939 اختراع شد. اصطلاح vocoder (رمزگذار صوتی) مخفف voice coder است. ساختار Vocoder در شکل زیر نشان داده شده است که در آن آنالیز طیفی از طریق یک بانک فیلتر میانگذر در بخش آنالیز (فرستنده)، به موج گفتار اعمال می شود. همزمان، شامل تناوب و دوره بنیادی برای سیگنال های متناوب آنالیز می شود. این سیگنال‌ها سپس به بخش سنتز (گیرنده) منتقل می‌شوند، جایی که سیگنال‌های منبع، بسته به وجود تناوب، توسط یک مولد پالس یا نویز تولید می‌شوند. سیگنال های منبع در هر باند فرکانسی با دامنه کنترل می شوند و از فیلترهای میانگذر که مشابه فرستنده هستند عبور می کنند. سپس سیگنال های خروجی فیلترهای میانگذر برای بازتولید گفتار اصلی جمع می شوند.کلمه vocoder امروزه به طور گسترده ای برای بازنمایی تمام سیستم های آنالیز-گفتار استفاده می شود. original vocoder ، که از یک بانک فیلتر میانگذر برای تجزیه و تحلیل طیفی استفاده می کند، اکنون به عنوان channel vocoder شناخته می شود (Gold and Rader, 1967). اگرچه channel vocoder با افزایش تعداد کانال ها از نظر کیفیت بهبود یافته است، اما توانایی آن در بازتولید گفتار طبیعی محدود است. formant vocoder در استخراج دقیق فرکانس‌های فرمانت مشکل‌ساز است و correlation vocoder در بازتولید دقیق طیف مشکل دارد. در pattern matching vocoder، واج ها (phonemes ) در موج گفتار بر اساس الگوی فرکانس زمانی خروجی فیلتر میانگذر، با نمادهای واجی که منتقل می شوند، شناسایی می شوند (اسمیت، 1969). اگرچه این تکنیک بالاترین نرخ فشرده سازی را انجام می دهد، اما چندین مشکل حل نشده دارد. یکی ازین مشکلات، نحوه استخراج واج ها از گفتار پیوسته است. مشکل دیگر، نحوه اندازه گیری شباهت بین گفتار ورودی و الگوهای مرجع است. و اینکه چگونه گفتار طبیعی را بر اساس دنباله نماد واج ترکیب (سنتز) کنیم.در Homomorphic vocoder، پوشش طیفی توسط ضرایب کپسترال کوفرانس های (quefrencies) مرتبه پایین تر (مثلا 30 عنصر) نشان داده می شود. علاوه بر این، تخمین pitch و تصمیمِ voiced/unvoiced بر اساس عناصر کوفرنسی مرتبه بالاتر انجام می شود.در synthesizer ، یک مقدار تقریبی برای پاسخ ضربه با استفاده از عناصر فرکانس پایین ارسالی تولید می شود. به طور همزمان، تابع تحریک (دنباله ضربه یا نویز تصادفی)، که بر اساس اطلاعات pitch ، voiced/unvoiced و دامنه تولید می‌شود، با پاسخ ضربه کانوالو می‌شود. هنگامی که DFT ِ عناصر کوفرانسی مرتبه پایین به صورت نمایی میشوند و تبدیل فوریه معکوس گرفته می شود، پاسخ ضربه فاز صفر به دست می آید.اگر عناصر کوفرنسی مرتبه پایین در lifter زیر ضرب شوند، حداقل پاسخ ضربه فاز به دست می آید:نتایج تجربی نشان می‌دهد که بهترین کیفیت گفتار را می‌توان تحت شرایط مینیمم فاز، که نزدیک به گفتار طبیعی است، سنتز کرد.روش دیگر سنتز گفتار، مبتنی بر رمزگذار صوتی همومورفیک است که از یک مجموعه فیلتر استفاده می کند تا مستقیماً ویژگی های دامنه لگاریتمی را تقریب بزند. مجموعه فیلتر سنتز در این روش از طریق اتصال آبشاری چندین فیلتر توسط تابع زیر ساخته می شود:صدای سنتز شده مستقیماً بدون تبدیل کپستروم به یک پاسخ ضربه ای تولید می شود. ویژگی های دامنه لگاریتمیِ فیلترِ ساخته شده توسط اتصال آبشاریِ فیلترهای مرحله ی (n0+1) برابر است با:مشخص شده است که با استفاده از این روش می توان صدای سنتز شده با کیفیت بالا را با نرخ بیت نسبتاً پایین به دست آورد.7.4.استخراج Pitch:در سیستم های تجزیه و تحلیل گفتار، لازم است پارامترهای منبع به موازات استخراج پارامترهای spectral envelope استخراج شوند. پارامترهای منبع شامل ارتعاش تارهای صوتی (voiced/unvoiced)، فرکانس بنیادی برای voiced sound و دامنه منبع (source amplitude) است. اگرچه استخراج دقیق فرکانس بنیادی (pitch extraction) یکی از مهمترین دغدغه های مطالعاتی از آغاز تحقیق تحلیل گفتار بوده است، اما هنوز رویکرد مشخصی مطرح نشده است. این مسئله در استخراج pitch از سه عامل ناشی می شود. اولاً، ارتعاش تارهای صوتی لزوماً دارای تناوب کامل به خصوص در ابتدا و انتهای صداهای واکه‌دار نیست. دوم، استخراج سیگنال منبع تارهای صوتی از موج گفتار جدا از افکت های مجرای صوتی دشوار است. سوم، محدوده دینامیکی فرکانس بنیادی بسیار بزرگ است.با در نظر گرفتن این موارد، تحقیقات اخیر استخراج pitch از سه دیدگاه انجام شده است. یکی این است که چگونه می توان تناوب سیگنال های شبه تناوبی را به طور قابل اعتماد استخراج کرد. مورد دیگر نحوه اصلاح خطای استخراج pitch به دلیل اختلال تناوب است. دیگری نحوه حذف افکت های مجرای صوتی (فورمانت) است.خطاهای عمده در استخراج pitch به خطاهای double-pitch و خطاهای half-pitch طبقه بندی می شوند. اولی خطاهایی هستند که هنگام استخراج فرکانس دو برابر بزرگتر از مقدار واقعی رخ می دهند. دومی خطاهایی هستند که هنگام استخراجِ نیم‌مقدارِ فرکانس اصلی واقعی ایجاد می شوند. گرایش به سمت این که کدام خطا بیشتر مستعد رخ دادن است به روش استخراج به کار گرفته شده بستگی دارد.روشهای اصلی استخراج pitch در جدول زیر مشخص شده است. آنها را می توان به طور کلی به پردازش شکل موج (I)، پردازش همبستگی (I I) و پردازش طیفی (I I I) گروه بندی کرد. گروه I از روش هایی برای تشخیص پیک های تناوبی در شکل موج تشکیل شده است. روش‌های گروه I I بیشترین استفاده را در پردازش سیگنال دیجیتال گفتار دارند، زیرا پردازش همبستگی (correlation processing ) تحت تأثیر اعوجاج فاز در شکل موج قرار نمی‌گیرد، و از آنجایی که می‌توان آن را با یک پیکربندی سخت‌افزاری نسبتاً ساده تحقق بخشید. در میان روش‌های گروه I I I ، اصل استخراج pitch با استفاده از آنالیز کپسترال قبلاً توضیح داده شده است. روش همبستگی اصلاح شده و الگوریتم ردیابی فیلتر معکوس ساده شده (simplified inverse filter tracking ) (SIFT) که روش‌های همبستگی هستند ، و روش cepstral عموماً کارآمدترین هستند زیرا به آسانی اثرات مجرای صوتی را حذف می‌کنند.تصمیم voiced/unvoiced معمولاً با استفاده از یک روش برای استخراج pitchگرفته می شود، زیرا به خاطر سادگی، نشانه های تصمیم گیری دوره ای/غیر دوره ای معمولاً به عنوان نشانه هایی برای تصمیمات voiced/unvoiced در نظر گرفته می شود. مقادیر پیک توابع خودهمبستگی (autocorrelation )یا خودهمبستگی اصلاح شده عموماً در تصمیم گیری اعمال می شوند. از آنجایی که این روش‌ها برای صوت های واکه دارِ غیر دوره‌ای (unperiodic voiced sounds) کار نمی‌کنند، بهبود دقت تصمیم با استفاده از چندین پارامتر دیگر به عنوان نشانه‌های اضافی تلاش شده است (آتال و رابینر، 1976). این پارامترها شامل انرژی گفتار، نرخ عبور از صفر، تابع خود همبستگی مرتبه اول، ضریب پیش بینی خطی مرتبه اول و انرژی سیگنال باقیمانده است.مرجع اصلی:Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui آرمان پرناک آرمان پرناک Sat, 18 May 2024 18:29:43 +0330 مدل‌های تولید گفتار https://virgool.io/@ArmanParnak/%D9%85%D8%AF%D9%84-%D9%87%D8%A7%DB%8C-%D8%AA%D9%88%D9%84%DB%8C%D8%AF-%DA%AF%D9%81%D8%AA%D8%A7%D8%B1-iomq72vtayu6 1.تئوری آکوستیکال تولید گفتار:مکانیزم تولید موج گفتار را می‌توان به سه مرحله تقسیم‌بندی کرد: الف) sound source productionب) articulation by vocal tractج) radiation from the lips and/or nostrilsاین مراحل را می‌توان با مدارهای معادل الکتریکی بر اساس رابطه بین سیستم‌های الکتریکی و آکوستیکال مشخص کرد. به طور خاص، منابع صدا (sound sources)، یا صدادار (واکه‌دار) هستند یا بدون صدا (بی‌واکه). یک منبع صوتیِ واکه‌دار را می‌توان با یک مولد پالس یا امواج مثلثی نامتقارن که در هر دوره بنیادی تکرار می‌شوند، مدل‌سازی نمود. مقدار پیکِ موج منبع با بلندیِ صدا مرتبط است. از طرف دیگر، یک منبع صدای بی‌واکه را می‌توان با یک مولد نویز سفید مدل‌سازی کرد که انرژی متوسط آن با بلندیِ صدا مرتبط است. آرتیکولاسیون (articulation ) را می‌توان با اتصال آبشاری یا موازی چندین مدار تک‌رزونانس یا ضد تشدید مدل کرد که می‌تواند از طریق یک فیلتر دیجیتال چند مرحله‌ای محقق شود. در نهایت، انتشار (radiation) را می توان به صورت ماحصلِ یک منبع صدای پیستونی که به یک بافل صفحه بی‌نهایت متصل است، مدل کرد. امپدانس انتشار با یک مدار آبشاری L-r نشان داده می‌شود، که در آن r اتلاف انرژی از طریق انتشار است.فرآیند تولید گفتار را می‌توان با ترکیب این مدارهای معادل الکتریکی همانطور که در شکل زیر نشان داده شده است، مشخص کرد. دقت شود که ویژگی‌های تشدید (رزونانس) فقط به شکل مجرای صوتی بستگی دارد و نه به محل منبع صدا در طول تولید هر دو نوع مصوت و صامت. برعکس، ویژگی‌های ضد رزونانس (ضدتشدید) در طول تولید نوع صامت در درجه اول به ویژگی‌های ضد رزونانس مجرای صوتی بین گلوت و موقعیت منبع صدا بستگی دارد. اثرات تشدید و ضد تشدید معمولاً در محدوده فرکانس پایین خنثی می‌شوند.ویژگی‌های رزونانس برای مجرای صوتی منشعب، مانند آنهایی که برای تولید، از نوع خیشومی یعنی nasal-type production هستند، توسط مشخصه حفره دهانی به سمت جلو و عقب از پرده (velum) و توسط مشخصه مجرای بینی از پرده تا سوراخ‌های بینی مشخص می‌شوند. ویژگی‌های ضد رزونانس صامت‌های خیشومی توسط مشخصه رو به جلوی حفره دهان که از velum شروع می‌شود تعیین می‌گردد. از سوی دیگر، ویژگی‌های ضد تشدید مصوت‌های خیشومی به مشخصه مجرای بینی که از velum شروع می‌شود، بستگی دارند. شکل زیر نمونه ای از تغییر طیفی ناشی از nasalization مصوتِ /a/ است.امپدانس انتشار، تمام فرکانس‌های تشدید را با یک نرخ ثابت کاهش می‌دهد، اما پهنای باند آنها را افزایش می‌دهد. امپدانسِ متناهیِ منبعِ گلوتال، تمام فرکانس‌های تشدید و پهنای باند را افزایش می‌دهد. با این حال، این اثرات برای تشدیدهای فرکانس بالا می‌تواند نادیده گرفته شود.2.مدار معادل مکانیزم تولید گفتار:مطابق شکل زیر، این مدار شامل منبع G(w)، آرتیکولاسیون H(w) و موج گفتار S(w) می‌باشد بطوریکه منبع از آرتیکولاسیون تفکیک داده شده است. بر این اساس، موج گفتار S(w) از طریق رابطه زیر محاسبه می‌شود:S(w) = H(w). G(w)منبع صدا توسط منبع پالس و منبع نویز سفید تقریب زده می‌شود و آرتیکولاسیونِ مجرای صوتی با مشخصه فیلترِ مدل تمام قطبی یا مدل قطب صفر نشان داده می‌شود. مشخصه کلیِ طیفی موج گلوتال در مشخصه فیلترِ مجرای صوتی همراه با مشخصه انتشار (radiation) گنجانده شده است. در نتیجه مشخصه طیفیِ G(w) مسطح (flat) است و H(w) یک فیلتر دیجیتالی با ضرایب متغیر زمانی (متغیر با زمان) است که شامل مشخصه پوشش طیفی منبع (source spectral envelope) و مشخصه انتشار علاوه بر مشخصه فیلتر مجرای صوتی است. از آنجائی که تغییر زمانی شکل مجرای صوتی در حین ادای گفتارِ پیوسته نسبتاً آهسته است، مشخصه انتقالیِ فیلتر دیجیتال با پارامترِ متغیربا زمان را میتوان به عنوان فیلتری که دارای مشخصه‌های تقریباً ثابت در دوره‌های کوتاه در نظر گرفت، مانند آنهایی که 10 الی 30 میلی ثانیه طول دارند.3.مدل انتقالی مجرای صوتی:از منظر شناسایی ویژگی‌ها به‌عنوان یک صدای زبانی، مهم‌ترین زیرفرآیند مکانیزم تولید موج گفتار، آرتیکولاسیون مجرای صوتی است. طول مجرای صوتی بزرگسالان تقریباً 15 الی 17 سانتی‌متر است و طول موجِ (λ) موج گفتاری در مجرای صوتی تقریباً 35 سانتی متر و 7 سانتی متر به ترتیب در 1 کیلوهرتز و 5 کیلوهرتز است. علاوه بر این، شعاع معادل مجرای صوتی زمانی که سطح مقطع مجرای صوتی تقریباً یک دایره باشد، کمتر از 2 سانتی متر است. بنابراین، در محدوده فرکانسی کمتر از 4-5 کیلوهرتز، λ/4 بزرگتر از شعاع معادل مجرای صوتی است. بنابراین، مجرای صوتی به‌عنوان یک سیستم پارامتر توزیع‌شده از تیوب آکوستیک یک‌بعدی که مقطع آن به طور مداوم در حال تغییر است، تحلیل می‌شود. این بدان معنی است که انتقال موج گفتار را می توان مانند موج صفحه در نظر گرفت. اگرچه مجرای بینی در واقع به عنوان بخشی از مجرای صوتی وجود دارد، اما برای اهداف ساده از بحث حاضر در مورد ویژگی های اصلی دستگاه صوتی حذف شده است. تلفات گرمایی، تلفات ویسکوز و تلفات نشتی که همراه با انتقال امواج صوتی هستند، به اندازه‌ای کوچک هستند که در شرایط عادی نادیده گرفته شوند. بنابراین این تلفات معمولاً در مدلسازی نادیده گرفته می شوند.1.3.مدل موج پیشرونده: انتقال موج صوت در یک تیوب صوتی یک بعدی بدون تلفات دارای سطح مقطع غیریکنواخت را می توان با دو معادله دیفرانسیل جزئی همزمان نشان داد که شامل معادله تکانه و معادله بقای جرم است:انتشار موج صوتی در مجرای صوتی را می‌توان به طور کامل با نرخ مساحت یا با ضرایب بازتاب معادل توصیف کرد. این مدل را مدل تولید گفتار Kelly می‌نامند.2.3.مدل رزونانس: در این مدل، اتصال تطبیق امپدانس (impedance-matching connection) با بخش منبع صدا در نظر گرفته شده است و تلفات در مجرای صوتی تنها به طور معادل توسط موج انتشار به سمت عقب در بخش منبع صدا در نظر گرفته می شود. دیواره مجرای صوتی واقعی کاملاً سفت نیست، اما دارای جرم و مقاومت محدود است. این اثر فرکانس رزونانس و پهنای باند را افزایش می‌دهد، به خصوص برای فرمانت های مرتبه پایین‌تر.سهم هر فرمانت در طیف دامنه3.3.مدل تارهای صوتی: منبع صدای تارهای صوتی از پنج مشخصه فیزیکی اصلی تشکیل شده است:1) فرکانس بنیادی هم به سرعت و هم به کندی نوسان می‌کند.2) تغییرات سرعت حجم در دوره بنیادی (fundamental period) متناسب با تغییرات زمانی تابع ناحیه باز در چاکنای است و می‌توان آن را با امواج مثلثی نامتقارن تقریب زد.3) برای یک صدای قوی، glottal-closed-interval افزایش می یابد و موج مثلثی تیزتر می‌شود.4) پوشش طیفی فرکانس موج گلوتال دارای انحراف (inclination) 12- الی 18- db/oct است 5) برهم کنش مجرای صوتی را نمی توان در ناحیه فرکانس زیر 500 هرتز نادیده گرفت و بر شکل موج در شروع ارتعاش تارهای صوتی تأثیر می گذارد.یک مدل دو جرمی به عنوان یک مدل ارتعاش تارهای صوتی مورد بررسی قرار گرفته است که با موفقیت ارتعاش واقعی تارهای صوتی انسان را بیان می کند. همانطور که در شکل زیر نشان داده شده است، در این مدل، تارهای صوتی به دو قسمت تقسیم می‌شوند . فرض بر این است که تارهای صوتی به خاطر سادگی فقط در جهت عمودی حرکت می کنند.نتایج نشان می‌دهد که نرخ تغییر فرکانس ارتعاش تارهای صوتی با توجه به تغییر فشار ساب‌گلوتال 2 الی 3 هرتز در هر سانتی متر H2O است، و این که فقط کمی تحت تاثیر شکل دستگاه صوتی است. همبستگی قوی بین شکل مجرای صوتی (ویژگی‌های تشدید) و شکل موج تارهای صوتی قابل مشاهده است. علاوه بر این، اختلاف فاز بین حالت‌های ارتعاش برای قسمت‌های بالایی و پایینی تار صوتی بین ۰ تا ۶۰ اینچ است. در نهایت، مدل نشان می‌دهد که ارتعاش تارهای صوتی را می‌توان با فشار ساب گلوتال ، کشش تارهای صوتی، ناحیه باز شدن چاکنای در حالت خنثی و شکل مجرای صوتی تعیین کرد.مرجع اصلی:Digital Speech Processing, Synthesis, and Recognition- Sadaoki Furui آرمان پرناک آرمان پرناک Thu, 16 May 2024 16:42:41 +0330 خصوصیات اصلی گفتار https://virgool.io/@ArmanParnak/%D8%AE%D8%B5%D9%88%D8%B5%DB%8C%D8%A7%D8%AA-%D8%A7%D8%B5%D9%84%DB%8C-%DA%AF%D9%81%D8%AA%D8%A7%D8%B1-xjgr7za80yfd یک موج گفتار بطور کلی حامل اطلاعات زبانی، ویژگی‌های صوتی و احساسی گوینده است. 1.اطلاعات زبانی:موج گفتار انواع مختلفی از اطلاعات را منتقل می‌کند، که عمدتاً شامل الف) اطلاعات زبانی است که نشان‌دهنده معنا ومنظوری است که گوینده می‌خواهد منتقل کند، ب) اطلاعات فردی، که نشان‌دهنده این است که چه کسی دارد صحبت می‌کند و ج) اطلاعات احساسی ،که احساسات گوینده را نشان می‌دهد.فرآیند تولید گفتار انسان، با مفهوم‌پردازی اولیه ایده‌ای آغاز می‌شود که گوینده می‌خواهد به شنونده منتقل کند. متعاقباً گوینده با انتخاب کلمات و عبارات مناسب، آن ایده را به یک ساختار زبانی تبدیل کرده و سپس آنها را بر اساس قواعد دستوری مرتب می‌کند. سپس، مغز انسان دستورات عصب حرکتی را اعمال می کند تا عضلات مختلف اندام‌های صوتی حرکت داده شوند. این فرآیند اساساً به دو زیرفرآیند تقسیم می شود: فرآیند فیزیولوژیکی شامل اعصاب و ماهیچه ها و فرآیند فیزیکی که از طریق آن موج گفتار تولید و منتشر می شود.ویژگی‌های گفتار در زمره‌ی پدیده‌های فیزیکی پیوسته قرار می‌گیرند، اگرچه زبان منتقل شده توسط گفتار اساساً از واحدهای رمزگذاری‌شده‌ی (کدشده‌ی) گسسته تشکیل شده است.یک جمله با استفاده از واحدهای اصلی کلمه ساخته می شود، که هر کلمه از هجا تشکیل شده است، و هر هجا از واج تشکیل شده است، که به نوبه خود می‌تواند به عنوان مصوت یا صامت طبقه‌بندی شود. واج، کوچک‌ترین واحد صوتی زبان است که می‌تواند در معنا تغییری ایجاد کند. یک هجا به طور کلی از الحاق یک مصوت با یک یا چند صامت تشکیل می شود. تعداد مصوت ها و صامت ها بسته به روش طبقه‌بندی و زبان متفاوت است. به عنوان مثال، زبان فارسی دارای 6 مصوت و 23 صامت، زبان انگلیسی دارای 12 مصوت و 24 صامت و زبان ژاپنی دارای 5 مصوت و 20 صامت است.2.گفتار و شنود:همانطور که در شکل زیر (زنجیره گفتار) نشان داده شده است، موج گفتاری تولیدشده توسط اندام‌های صوتی از طریق هوا به گوش شنوندگان منتقل می‌شود. سپس موجِ گفتاریِ وارده شده در گوش، اندام‌های شنوایی را جهت تولید تکانه‌های عصبی فعال می کند تا از طریق سیستمِ عصبیِ شنوایی به مغزِ شنونده منتقل شود. این امر اجازه می‌دهد تا اطلاعات زبانی که گوینده قصد انتقال آن را دارد به آسانی برای شنونده قابل درک باشد. در عین حال، موج گفتار تولیدشده توسط گوینده، به طور طبیعی به گوش خود گوینده نیز منتقل می‌شود و به او اجازه می‌دهد تا با دریافت گفتار خود به عنوان بازخورد، به طور مداوم اندام‌های صوتی خود را کنترل کند.زنجیره گفتارمشهود است که وقتی گفتار خودمان با تاخیر زمانی مشخصی(اثر بازخورد تاخیری) به گوش ما بازمی‌گردد، صحبت‌کردن بسیار سخت خواهد شد. ارتباط ذاتی بین تولید گفتار و شنیدن، زنجیره گفتار نامیده می شود.از نظر تولید، زنجیره گفتار شامل مراحل زبانی، فیزیولوژیکی و فیزیکی (آکوستیکی) است که ترتیب این مراحل برای امر «شنود» معکوس است یعنی شامل مراحل آکوستیکی، فیزیولوژیکی و زبانی خواهد بود.یکی از مزایای قابلیت شنوایی، گوش دادن انتخابی است، که به شنونده اجازه می‌دهد حتی زمانی که چندین نفر به طور همزمان صحبت می‌کنند، تنها یک صدا را بشنود.از سوی دیگر، مکانیزم شنوایی انسان توانایی بسیار کمی از خود نشان می دهد. یک مثال از نقاط ضعف ذاتی آن این است که گوش نمی‌تواند دو صدایی که از نظر فرکانس مشابه هستند یا فاصله زمانی بسیار کوتاهی بین آنها وجود دارد را جدا و از همدیگر تمییز دهد. جنبه منفی دیگر این است که وقتی دو تُن یا نواخت (tones) همزمان وجود داشته باشند، یکی شنیده نمی شود زیرا توسط دیگری پوشانده شده است.قابلیت شنوایی پیچیده ذکر شده توسط مکانیزم پیچیده درک زبان که توسط مغز کنترل می شود، پشتیبانی می‌گردد.3.مکانیزم تولید گفتار:فرآیند تولید گفتار شامل سه زیرفرآیند است: تولید منبع (source generation)، آرتیکولاسیون (articulation) و انتشار (radiation). تولید منبع در گفتار، به فرآیند تولید گفتار از متن یا سایر منابع اشاره دارد. آرتیکولاسیون، به تنظیم شکل مجرای صوتی برای تولید اصوات مختلف زبانی گفته می‌شود؛ به عبارت دیگر به عمل تولید صدا، گفتن کلمات، بیان افکار یا احساسات در کلمات اشاره دارد. انتشار یا تشعشع، همان چیزی است که در لب‌ها اتفاق می افتد تا امواج صوتی در مجرای صوتی به هوای آزاد منتشر شود. مجموعه اندام صوتی انسان شامل ریه‌ها (lungs)، نای (trachea)، حنجره (larynx )، حلق (pharynx )، حفره بینی (nasal cavity) و حفره دهانی (oral cavity) است. اینها با هم یک تیوب یا لوله متصل را تشکیل می‌دهند. قسمت بالایی که از حنجره شروع می‌شود، مجرای صوتی (vocal tract) نامیده می‌شود که با حرکت دادن فک، زبان، لب‌ها و سایر قسمت‌های داخلی به اشکال مختلف تغییر می‌کند.مکانیزم صوتی انسانحفره بینی با بالارفتن velum یا نرم‌کام(soft palate)، از حلق و حفره دهان جدا می‌گردد (نرم‌کام، بافت نرمی است که بخش عقب سقف دهان را تشکیل می‌دهد. سخت‌کام که در بخش جلوتر دهان قرار گرفته استخوان دارد ولی نرم‌کام بدون استخوان است). هنگامی که عضلات شکم با بالا بردن دیافراگم به سمت بالا به حفره فشار وارد می کنند، هوا از ریه‌ها به سمت بالا و خارج هل داده می‌شود و جریان هوا از نای و چاکنای (glottis) می‌گذرد و به حنجره می‌رسد (چاکنای، دهانه یا مدخل نای است که پرده های صوتی در آن قرار دارند). چاکنای یا شکاف (فاصله) بین تارهای صوتی چپ و راست، که معمولاً در هنگام تنفس باز است، زمانی که گوینده قصد تولید صدا را دارد باریکتر می شود. سپس جریان هوا از طریق چاکنای به صورت دوره‌ای (متناوب) با باز و بسته شدن شکاف مطابق با تعامل بین جریان هوا و تارهای صوتی قطع می شود. این جریان متناوب که منبع گلوتال یا منبع گفتار نامیده می شود، می تواند توسط امواج مثلثی نامتقارن شبیه‌سازی شود.هنگامی که تارهای صوتی به شدت تحت فشار قرار می گیرند و فشار هوای خارج شده از ریه‌ها (فشار هوای ساب‌گلوتال) زیاد است، دوره باز و بسته شدن یعنی دوره ارتعاش تارهای صوتی کوتاه می‌شود و زیر و بمی صدا (pitch ) منبع بالا می‌رود. برعکس، شرایط فشار هوای کم، صدایی با زیر و بمیِ کمتر تولید می کند. این دوره ارتعاش تارهای صوتی را دوره بنیادی و عکس آن را فرکانس بنیادی می نامند.منبع صدا که از اجزای بنیادی و هارمونیک تشکیل شده است، توسط مجرای صوتی اصلاح می‌شود تا tonal qualities مانند /a/ و io/ تولید کند (در تولید مصوت -حرف صدادار- ). کیفیت تونال، به کیفیت احساس یا بیان اطلاق می شود که از طریق زبان، موسیقی یا سایر اشکال ارتباط منتقل می شود . در طول تولید مصوت، مجرای صوتی در یک پیکربندی نسبتاً پایدار در سراسر گفته (utterance) حفظ می‌شود.مکانیزم‌های سایشی و انسدادی: این دو مکانیزم، مسئول تغییر جریان هوا از ریه‌ها به صدای گفتار هستند. اینها مکانیزم های زیربنایی تولید دو نوع صامت هستند: اصطکاکی یا سایشی (fricatives ) و انسدادی یا انفجاری (plosives). صداهای سایشی مانند /s/ ,/f/, /ʃ/ ، صداهای نویزمانندی هستند که توسط جریان متلاطم ایجاد می‌شوند و زمانی اتفاق می‌افتد که جریان هوا از یک انقباض در مجرای صوتی ایجاد شده توسط زبان یا لب‌ها عبور می‌کند. تفاوت تونالِ (tonal difference) هر سایشی (fricative) مربوط به انقباض و شکل مجرای صوتی نسبتاً دقیقی است. انفجاریها (صامت های توقف)، مانند /p/, /t/, /k/ صداهای تکانشی ) impulsive هستند که با انتشار ناگهانی هوای پرفشار ایجاد می شود که با کنترل جریان هوا در مجرای صوتی، دوباره با استفاده از زبان یا لب ها ایجاد می شود. تفاوتِ تونال به تفاوت بین موقعیت کنترل و شکل مجرای صوتی مربوط می‌شود.تولید این صامت ها کاملاً مستقل از ارتعاش تارهای صوتی است. صامت هایی که با ارتعاش تارهای صوتی همراه هستند به صامت های صدادار و آن هایی که با این ارتعاش همراه نباشند صامت های بی صدا می گویند. صداهایی که با ارتعاش تارهای صوتی منتشر می شوند، صوتهای واکه‌دار (voiced sound) نامیده میشوند و صوتهایی که بدون ارتعاش هستند، صداهای بی‌واکه نامیده می شوند.نکته: صداهای نیمه‌مصوت (Semivowel)، خیشومی(nasal) و انسدادی‌سایشی(affricate) (این آوا از ترکیب آوای انسدادی ( stop ) و آوای سایشی ( fricative ) به وجود می آید) در خانواده صامت‌ها قرار می گیرند.نیمه‌مصوت‌ها به روشی مشابهِ مصوت‌ها تولید می‌شوند، اما ویژگی‌های فیزیکی آن‌ها به‌تدریج (بدون یک دوره بیان ثابت) تغییر می‌کند. اگرچه نیمه‌مصوتها در صامت‌ها قرار می‌گیرند، اما نه جریان هوای متلاطم دارند و نه صدای پالس‌مانند، زیرا انقباض مجرای صوتی شل است و حرکت اندام صوتی نسبتاً آهسته است.در تولید صداهای خیشومی، حفره بینی به انشعابی گسترده از حفره دهان تبدیل می‌شود و جریان هوا با پایین آوردن vellum و قطع جریان هوا در یک مکان خاص در حفره دهان به حفره بینی می‌رسد. هنگامی که حفره بینی در حین تولید واکه، بخشی از مجرای صوتی را همراه با حفره دهان تشکیل می‌دهد، vowel quality خیشومی می‌شود و مصوت خیشومی‏‌شده (nasalized vowel) را تولید می‌کند. بنابراین صدای خیشومی، آوایی است که در ادای آن مجرای گفتار در نقطه‏ای مسدود گردد، ولی عبور هوا به خارج بدون برخورد با هیچ مانعی از طریق بینی انجام شود.آفریکیت‌ها (Affricates)، از توالی صداهای انفجاری و اصطکاکی (plosive and fricative) تولید می شوند. برخی حروف، با بیرون دادن هوا از دهان ادا می‌شوند. آسپیراسیون یا دَمِش (Aspiration) و یا پچ‌پچ زمانی تولید می‌شود که یک جریان متلاطم در گلوت (دهانه حنجره) با باز کردن اندکی تارهای صوتی ایجاد شود تا لرزش تارهای صوتی ایجاد نشود.صوت ها ممکن است به طور کلی با pitch، loudness و quality مشخص شوند. . «quality» یا «timbre» یا طنین صدا، خصوصیاتی از صدا را توصیف می‌کند که به گوش اجازه می‌دهد صداهایی را که دارای زیر و بمی و بلندیِ یکسان هستند را تشخیص دهد. بنابراین timbre یک اصطلاح کلی برای ویژگی های قابل تشخیص یک tone است. qualityهای مختلف تُن، با تغییر شکل مجرای صوتی ایجاد می شوند که ویژگی های انتقال یعنی ویژگی‌های رزونانس مجرای صوتی را تغییر می‌دهند. صامت‌های انگلیسی به صورت زیر دسته‌بندی می‌شوند:صامت‌ها مصوت‌های انگلیسی به صورت زیر دسته‌بندی می‌شوند:مصوت‌هاخطوط افقی در شکل فوق، محل تقریبی انقباض مجرای صوتی را نشان می دهد: هر چه بیشتر به سمت چپ باشد، انقباض به جلو (نزدیک لب ها) نزدیک تر است. خطوط عمودی درجه انقباض را نشان می دهد که مربوط به موقعیت باز شدن فک است. پایین ترین خط در شکل حداکثر باز شدن فک را نشان می دهد. واج [ǝ] واکه خنثی نامیده می شود، زیرا زبان و لب برای تولید این واکه در خنثی ترین موقعیت قرار دارند، بنابراین شکل مجرای صوتی شبیه به یک لوله همگن است که سطح مقطع ثابتی دارد.4.خصوصیات آکوستیکی گفتار:طیف‌نگار صوتی در شکل فوق، الگوی زمانی روشن و تاریک طیف فرکانس را به صورت بصری نشان می‌دهد. قسمت‌های تاریک نشان‌دهنده مولفه‌های طیفی با انرژی بالا و نوارهای عمودی مربوط به دوره بنیادی (fundamental period) است. این شکل نشان می‌دهد که موج گفتار و طیف گفتار به عنوان فرآیندهای غیر ایستان (nonstationary)، در دوره‌های 1/2 ثانیه یا بیشتر تغییر می کنند. با این حال، اگر به دوره‌های 20-40 میلی‌ثانیه تقسیم‌بندی بکنیم، موج و طیف گفتار را می‌توان دارای ویژگی‌های ثابت در نظر گرفت. خطوط عمودی در این شکل مرزها را نشان می‌دهد. تقسیم‌بندی به طور خودکار بر اساس مقدار تغییرات طیفی کوتاه مدت انجام شده است. در طول دوره‌های تولید صامت بی‌واکه /s/ یا / tʃ/، امواج گفتار، امواجی تصادفی با دامنه‌های کوچک را نشان می‌دهند و طیف‌ها، الگوهای تصادفی را نشان می‌دهند. از سوی دیگر، در طول دوره‌های تولید صوتهای واکه‌دار(صدادار)، مانند صداهایی با /i، /e/، /a/، /o/، /u/، /N/، امواج گفتار، امواجی متناوب با دامنه‌های زیاد (همراه با طیف‌هایی که تکرارهای نسبتاً کلیِ الگوهای روشن و تاریک را نشان می‌دهد) را ارائه می‌دهند. محدوده دینامیکی دامنه موج گفتار به قدری زیاد است که اختلاف دامنه بین صوتهای بدون صدا با دامنه های کوچکتر و صوتهای صدادار با دامنه بزرگتر گاهی اوقات از 30 دسی‌بل فراتر می‌رود.فرمانت(formant): سازند یا فرمانت، به تمرکزی از انرژی صوتی حول یک فرکانس خاص در موج گفتار گفته می‌شود. چندین سازند وجود دارد که هر کدام در فرکانس متفاوتی هستند. هر سازند مربوط به یک رزونانس (تشدید) در مجرای صوتی است. مولفه‌های فرکانسیِ غالب که واج‌های متناظر با مولفه‌های فرکانسِ تشدیدِ مصوت‌ها را مشخص می‌کنند، عموماً دارای سه فرمانت هستند که به آنها فرمانت‌های اول، دوم و سوم می‌گویند ،که با مولفه‌ی پایین ترین فرکانس شروع می‌شوند. آنها معمولاً به صورت F2، F1 و F3 نوشته می‌شوند. با این حال، حتی برای یک واج یکسان، این فرکانس‌های سازند تا حد زیادی بسته به گوینده متفاوت است. علاوه بر این، فرکانس‌های سازند بسته به واج‌های مجاور در گفتارهای پیوسته، مانند آنهایی که در طول مکالمه منتشر می‌شوند، متفاوت است.کوارتیکولاسیون (coarticulation):به همپوشانیِ ویژگی‌های آوایی از واج به واج را کوارتیکولاسیون یا همفراگویی می‌گویند. هر واج را می‌توان به عنوان هدفی در نظر گرفت که اندام‌های صوتی به سمت آن نشانه می‌روند اما هرگز به آن نمی‌رسند. به محض نزدیک شدن به هدف تقریباً به اندازه‌ای که برای شنونده قابل درک باشد، اندام‌ها مقصد خود را تغییر داده و شروع به حرکت به سمت یک هدف جدید می‌کنند. این کار برای به حداقل رساندن تلاش صرف شده در صحبت کردن انجام می‌شود و باعث روان شدن بیشتر می‌شود. پدیده کوارتیکولاسیون بر مشکلات سنتز گفتار (speech synthesis) و بازشناسی گفتار می افزاید. از آنجایی که گفتاری که در آن کوارتیکولاسیون اتفاق نیافتد برای گوش ما غیرطبیعی به نظر می‌رسد، برای سنتز با کیفیت بالا، بایستی درجه مناسبی از کوارتیکولاسیون را لحاظ کنیم. در بازشناسی، کوارتیکولاسیون به این معناست که ویژگی‌های واج‌های مجزا هرگز در هجاهای متصل (connected syllables) یافت نمی‌شوند. از این رو هر سیستم بازشناسی مبتنی بر شناسایی واج‌ها باید لزوماً برای تأثیرات زمینه‌ای تصحیح شود.جلو یا پشت بدنه زبان ضمن حفظ تقریبیِ ارتفاع زبان، باعث افزایش یا پایین آمدن F2 می‌شود که بر این اساس، بر شکل طیفی کلی تأثیر می‌گذارد.ویژگی‌های اصلی آکوستیک سازندهای مصوت را می‌توان با Fl و F2 مشخص کرد.شکل زیر نمودار پراکندگی فرکانس‌های سازند پنج مصوت جدا شده ژاپنی در صفحه F1-F2 را نشان می‌دهد که محورهای افقی و عمودی آنها به ترتیب فرکانس‌های سازند اول و دوم، یعنی F1 و F2 هستند. این شکل نشان‌دهنده توزیع برای 30 گوینده مرد و 30 گوینده زن و همچنین مقادیر میانگین و انحراف معیار برای این گویندگان است. همانطور که در این شکل نشان داده شده است، پنج مصوت معمولاً به شکل مثلثی توزیع می‌شوند که گاهی اوقات به آن مثلث مصوت گفته می‌شود.شکل زیر نمودار پراکندگی فرکانس‌های سازند 10 مصوت انگلیسی بیان شده توسط 76 گوینده (33 مرد ، 28 زن و 15 کودک) در صفحه F1-F2 را نشان می‌دهد. توزیع مصوت‌های استخراج شده از گفتار پیوسته به طور کلی نشان دهنده همپوشانی بین مصوت‌های مختلف است. سازند مرتبه بالاتر، بسته به مصوت‌های بیان شده، تغییرات کمتری را نشان می‌دهد. بنابراین، سازند مربته بالاتر برای هر گوینده با طول مجرای صوتی او (مرد یا زن) مقدار خاصی دارد. اگرچه دشوار است، اما پهنای باند سازند توسط بسیاری از محققان محاسبه شده است. محدوده مقادیر استخراج شده از 30 تا 120 هرتز (میانگین 50 هرتز) برای فرمانت اول (F1)، 30 تا 200 هرتز (میانگین 60 هرتز) برای فرمانت دوم (F2) و 40 تا 300 هرتز (میانگین 115 هرتز) برای فرمانت سوم (F3) است. تغییر در پهنای باند، اثرگذاری کوچکی روی کیفیت (quality) گفتارِ شنیده شده دارد.صامت‌ها بر اساس تناوب امواج (واکه‌دار/ بی‌واکه)، طیف فرکانس، مدت زمان و تغییرات زمانی طبقه‌بندی می‌شوند. ویژگی‌های آکوستیکیِ صامت‌ها تا حد زیادی به دلیل کوارتیکولاسیون با مصوت‌ها تغییر می‌کنند، زیرا صامت‌ها در اصل هیچ دوره پایدار یا حالت ثابتی ندارند. به خصوص با تکلم سریع، آرتیکولاسیونِ واج‌ئی که در ادامه می‌آید، یعنی حرکت زبان و لب به سمت محل بیان واج پیش رو، قبل از اتمام بیان واجی که در حال حاضر بیان می‌شود، شروع می‌شود. کوارتیکولاسیون گاهی اوقات بر واج‌هایی که فراتر از واج‌های مجاور قرار دارند تأثیر می‌گذارد. علاوه بر این، از آنجایی که اندام‌های کوارتیکولاسیون مختلف در تولید گفتار واقعی دخیل هستند و از آنجایی که هر اندام ثابت زمانی حرکت خود را دارد، پدیده های صوتی ناشی از این حرکات بسیار پیچیده است. از این رو، به دست آوردن تناظرِ یک به یک بین نمادهای آوایی و ویژگی های صوتی بسیار دشوار است. در این شرایط، تمرکز بر بررسی روش‌هایی برای تعیین هر واج با ترکیب ویژگی‌های نسبتاً ساده به جای تعیین ویژگی‌های صوتی خاص هر واج بوده است. این ویژگی‌هایی که تاکنون رسمیت یافته‌اند، که ویژگی‌های متمایز نامیده می‌شوند، شامل بازنمایی دودویی نُه جفت توصیفی هستند:1) vocal/nonvocalic, 2) consonantal/nonconsonantal, 3) compact/diffuse, 4) grave/acute, 5) flat/ plain, 6) nasal/oral, 7) tense/lax, 8) continuant/interrupted, 9) strident/ mellow.5.خصوصیات آماری گفتار:الف)توزیع سطح دامنهشکل زیر توزیع انباشته سطح دامنه گفتار را نشان می دهد که برای گفته‌های 80 گوینده (4 گوینده * 20 زبان) با مدت زمان تقریباً 37 دقیقه محاسبه شده استمحور افقی، به ویژه سطح دامنه، توسط مقدار موثر بلند مدت (long-term effective value) یا مقدار جذر میانگین مربعات (rms) نرمالایز شده است. محور عمودی فرکانس دامنه انباشته شده از مقادیر بزرگ را نشان می‌دهد، به عبارت دیگر فرکانس مقادیر دامنه بزرگتر از مقدار نشان داده شده است. این نتایج به وضوح تأیید می‌کند که محدوده دینامیکی دامنه گفتار از 50 دسی‌بل عبور می‌کند.تفاوت بین سطح دامنه (که در آن مقدار انباشته شده به 1٪ می‌رسد) و مقدار موثر طولانی مدت، ضریب پیک (peak factor) نامیده می‌شود زیرا به sharpness موج مربوط می‌شود.ب)طیف متوسط بلندمدتشکل زیر طیف‌های گفتاری متوسط طولانی‌مدت استخراج شده با استفاده از 20 کانال از فیلترهای میانگذر اکتاو یک‌سوم را نشان می‌دهد که محدوده فرکانس 0-9 کیلوهرتز را پوشش می‌دهند. این نتایج با استفاده از گفته‌های 80 سخنران 20 زبان به دست آمده است.همانطور که در شکل فوق مشخص است، بین گویندگان مرد و زن اختلاف جزئی وجود دارد، به جز محدوده فرکانس پایین که در آن طیف تحت تأثیر تغییرات فرکانس بنیادی قرار می‌گیرد.اختلاف بین زبان‌ها نیز بسیار کم است. بر اساس این نتایج، شکل طیف گفتار معمولی با ترکیب یک طیف مسطح و یک طیف با شیب 10- دسی‌بل/اکتاو نشان داده می‌شود. اولی برای محدوده فرکانس کمتر از 500 هرتز اعمال می شود، در حالی که دومی برای محدوده فرکانس بالاتر از 500 هرتز اعمال می شود. اگرچه طیف میانگین طولانی مدت محاسبه شده از طریق روش فوق الذکر تنها تفاوت های جزئی را بین گویندگان نشان می دهد، آنهایی که با رزولوشن فرکانسی بالا (high-frequency resolution) محاسبه می شوند قطعاً دارای تفاوت های فردی هستند.ج)تغییر و ناپایداری در فرکانس بنیادیتجزیه و تحلیل آماری تغییرات زمانی در فرکانس بنیادی در طول گفتار مکالمه برای هر گوینده نشان می‌دهد که میانگین و انحراف معیار برای صدای زنانه تقریباً دو برابر صدای مردان است که در شکل زیر نشان داده شده است:فرکانس بنیادی توزیع شده گویندگان در مقیاس فرکانس لگاریتمی را می‌توان با دو تابع توزیع نرمال که به ترتیب با صدای مرد و زن مطابقت دارند، تقریب زد، که در شکل زیر نشان داده شده است:میانگین و انحراف استاندارد برای صدای مردان به ترتیب 125 و 20.5 هرتز است، در حالی که برای صدای زنان دو برابر بزرگتر است. تجزیه و تحلیل فرکانس الگوی زمانی فرکانس اساسی (که در آن دوره silent به نرمی کانکت میشود) نشان می‌دهد که فرکانس تغییرات زمانی کمتر از 10 هرتز است. این نشان می‌دهد که سرعت تغییرات زمانی در فرکانس بنیادی نسبتاً آهسته است.د)نرخ گفتارگفتار مکالمه‌ (Conversational speech) شامل دوره‌های مکث (pause) و گفتار است و نسبت دوره‌های گفتار واقعی به عنوان نرخ گفتار نامیده می‌شود. گفتار مکالمه‌ یک شیوه اساسی رفتار انسان است. در مبادلات پیش زبانی بین مادر و نوزاد رخ می دهد و تنها منبع اطلاعات کودک در مورد زبان در حین اکتساب گفتار است. تغییر در سرعت گفتار عمدتاً با تغییر دوره‌های مکث انجام می‌شود. علاوه بر این، انبساط یا انقباض در طول دوره‌های مصوت به طور کلی بزرگتر از آن در دوره های صامت است.مرجع اصلی:Digital Speech Processing, Synthesis, and Recognition, Sadaoki Furui آرمان پرناک آرمان پرناک Tue, 14 May 2024 18:10:15 +0330 فیچرنویسی (Feature Writing) https://virgool.io/@ArmanParnak/%D9%81%DB%8C%DA%86%D8%B1%D9%86%D9%88%DB%8C%D8%B3%DB%8C-feature-writing-sv510z0d9fv0 𓁋 فیچرنویسی:فیچرنویسی، نوعی سبک ژورنال‌نویسی است که رویکردی روایی‌تر و توصیفی‌تر بیشتری نسبت به خبرنویسی دارد. هدف آن، درگیر نمودن خواننده با داستان ها و کاراکترهای جالب و ایده های تأمل برانگیز است. فیچرها اغلب فراتر از حقایق سطحی رفته تا بتوانند زوایا و ابعاد انسانیِ سوژه را بررسی کنند، در تجربیات شخصی کاوش کنند و احساسات را در خوانندگان برانگیزند. شناسایی مخاطب هدف برای یک مقاله فیچر، گام مهمی در فرآیند نوشتن است تا بر اساس آن محتوا، لحن و سبک تعیین گردد.𓁋 عناصر فیچرنویسی:☚ داستان سرایی قوی: شامل تنظیم صحنه، معرفی شخصیت‌ها یا موضوعات کلی و توسعه طرح یا مسئله‌ای است که خواننده را درگیر خود نگه می‌دارد.☚ توصیفات با جزئیات: از زبان زنده و حسدار برای ترسیم تصویری در خواننده استفاده می‌شود. از شیوه‌های توصیفی برای جان بخشیدن به موضوع استفاده کرده و با جزئیاتی که برای احساس و تخیل خواننده جذاب است، ترکیب می‌شود.☚ علائق انسانی: فیچرها اغلب حول تجربیات، احساسات و آرزوهای انسانی متمرکز می‌شوند. هدف آنها برقراری ارتباط با خوانندگان در سطح شخصی با تمرکز بر افراد مرتبط، چالش‌ها و دیدگاه‌های منحصر بفرد است.☚ پیشینه تحقیق: لازم است تا اطلاعاتی در خصوص موضوع گردآوری شود، با افراد مربوطه مصاحبه شود و صحت و اعتبار آن اتفاق یا حقیقت بررسی شود.☚ سرنخ‌ها و طعمه‌های جذاب: فیچرها اغلب با سرنخ‌ها و طعمه‌های قابل‌توجه آغاز می‌شوند تا از همان ابتدا خوانندگان را به سمت خود بکشاند. این آغاز کردن می‌تواند یک روایت جذاب، نقل قول گیرا و یا یک سوال جالب باشد.☚ ساختار و پیکربندی: معمولاً شامل مقدمه، بدنه (که در آن داستان و روایت توسعه پیدا می‌کند) و نتیجه‌گیری است.☚ خلاقیت و سبک: از ابزارهای ادبی مختلفی نظیر استعاره، تشبیه و دیالوگ‌های جذاب در این راستا استفاده می‌شود☚ دیدگاه‌های چندجانبه: فیچرها اغلب دیدگاه ها و جوانب مختلف را بررسی کرده و در نهایت یک دید جامع از موضوع را بی‌غرض، متعادل و بدون هیچگونه جبهه‌گیری خاص عرضه می‌کنند.𓁋 تفاوت خبرنویسی و فیچرنویسی:خبرنویسی، از یک سبک مستقیم و عینی پیروی می‌کند. وضوح، اختصار، زمان انتشار سریع، دارای یک لحن رسمی و ساختار هرم معکوس را در اولویت قرار می‌دهد بدین معنا که مهمترین اطلاعات در ابتدا ارائه می‌شود و جزئیات کم اهمیت‌تر در ادامه می‌آیند. در این نوشتار، از نظرات شخصی پرهیز می‌شود. در فیچرنویسی، مقالات می‌توانند در هر زمانی منتشر شوند. آن‌ها بر موضوعاتی مرتبط یا دیدگاه‌های منحصر به فرد تمرکز دارند. پژوهش و توسعه داستان‌های فیچر ممکن است زمان زیادی را صرف نماید و امکان کاوش جامع‌تری در مورد موضوع را فراهم کند. این نوع نوشتار، یک ارتباط احساسی با خواننده بوجود می‌آورد.𓁋 برای دستیابی به تکنیک شناسایی زوایا و دیدگاه‌های منحصر بفرد:☚ پیش از اینکه شروع به نوشتن کنید، خودتان غرق در تحقیقات کامل در خصوص موضوع کنید. این به درک جامع پیداکردن شما و کشف جنبه‌های کمتر شناخته‌شده کمک می‌کند.☚ تنها به یک یا دو منبع اطلاعاتی اکتفا نکنید☚ اغلب، زوایای منحصر بفرد، در نقطه نظرات و مناقشات پیرامون یک موضوع یافت می‌شوند. جنبه‌های مختلف موضوع را بررسی نمایید.☚ روایات و تجربیات شخصی می‌توانند در این راستا مفید واقع شوند. افرادی که مستقیماً از موضوع تاثیر پذیرفته‌اند و یا به هر نحوی با آن موضوع ارتباط داشته‌اند را پیدا کنید. داستان آن‌ها می‌تواند بُعدِ احساسیِ ماجرا باشد و دیدگاه تازه‌ای را به ما عرضه دارد.☚ ترندها و الگوهای گسترده‌تری که مرتبط با موضوعتان هستند را مد نظر قرار بدهید☚ از شکل‌ها و ساختارهای مختلفی برای فیچرتان استفاده کنید☚ کلیشه‌ها و فرضیاتی که با موضوعتان مرتبط هستند را بررسی کنید. سپس راه‌هایی برای به چالش کشیدن یا براندازی آن تصورات از پیش تعیین شده پیدا کنید☚ رویدادها، افراد و خرده فرهنگ‌های کمترشناخته‌شده‌ی مرتبط با موضوعتان را زیر ذره‌بین قرار دهید. با روشن کردن این روایاتِ نادیده گرفته شده می‌توانید دیدگاه تازه‌ای را برای خوانندگانتان عرضه کنید.𓁋 روند طوفان ذهنی و ایجاد ایده‌های فیچر:☚ تعریف هدف☚ گردآوری یک تیم متنوع از پیشینه و دیدگاه‌های مختلف☚ تولید ایده‌ها☚ تشویق به همکاری و ایجاد ایده‌ها☚ ایجاد یک محیط حامی و امن و بدور از قضاوت☚ ارزیابی و اولویت‌بندی کردن: ایده‌های جمع آوری شده را بر اساس معیارهایی نظیر امکان‌پذیر بودن، مطلوبیت، همسویی با هدف و تاثیر بالقوه ارزیابی می‌کنیم☚ توسعه نقشه‌های عملی: برای ایده‌های انتخاب شده از مرحله پیشین، برنامه‌های عملی که تعیین‌کننده مراحل لازم جهت پیاده‌سازی و آزمایش فیچرهای پیشنهادی است، را توسعه می‌دهیم. برای اطمینان از پیشرفت و مسئولیت‌پذیری، وظایف را تخصیص داده و جدول زمانی تعیین کنید.☚ آزمون و تکرار: ایده های انتخابی را پیاده‌سازی کنید و فیدبک حاصل را در نظر بگیرید. بر اساس این فیدبک‌ها، دوباره ایده‌ها را بازیابی کنید و مجدد بازخورد بگیرید. این کار را انقدر تکرار کنید تا به بهبودی لازم برسید.☚ پیاده‌سازی و مانیتورینگ: زمانی که فیچرها توسعه یافتند و بازیابی شدند، به یک محصول یا سرویس پیاده‌سازی کرده و عملکرد آن را مانیتور کنید.𓁋 عناصر حیاتی فیچرنویسی:☚ عنوان قوی: باید مختصر، گیرا و حامل اطلاعات مفید بوده و به خوانندگان ایده‌ی روشنی از فیچر بدهد.☚ سرنخ‌های قانع‌کننده☚ ساختار شفاف و جذاب☚ استفاده از نقل قول و مصاحبه☚ زبان توصیفی و زنده: استفاده از صفات مختلف، افعال قوی و زبان استعاره‌ای. هدف، خلق تصویر ذهنی زنده و برانگیختن احساسات در خواننده است.☚ روایت مرتبط و جالب: داستان‌های شخصی کوتاه باعث ارتباط انسانی‌تر و عمیق‌تر در خواننده میشود.☚ توجه به جزئیات☚ گذرهای نرم بین پاراگراف‌ها: حفظ ارتباط عمودی پاراگراف‌ها به لحاظ محتوایی می‌تواند موثر باشد☚ دیدگاه‌های منصفانه و عینی☚ استدلال‌ها و ادعاهای با پشتوانه محکم☚ استفاده از مثال‌، سند و مدرک☚ استفاده از آمار و داده: حضور داده، آمار و آنالیزهایی از قبیل مقایسه کردن سبب وزندهی به مقاله می‌شود☚ استفاده از تکنیک‌های داستان‌سرایی𓁋 تکنیک‌های نوشتن برای فیچرهای جذاب:☚ به جای استفاده از شرح و صفات کلی، از واژگانی استفاده کنید که بتوانند تصویر واضحی را در ذهن خواننده خلق و جزئیات ملموس بیشتری را منتقل نمایند. مثلاً به جای واژه‌ی ساده‌ی «قدیمی» در جمله «خانه قدیمی بود» می‌توان از واژگان جایگزین بهتری جهت توصیف استفاده کرد: «یک خانه‌ی خرابه متعلق به دوره ویکتوریا با تخته‌چوب و نرده‌های پوست‌کنده و خرد‌شده». به بیان دیگر، خواننده را با چیزهایی که می‌بینید، می‌شنوید، می‌چشید، می‌بویید و لمس می‌کنید، درگیر کنید. با ارائه‌ی جزئیات حس‌دار، قادر هستید تجربه‌ای چندبُعدی خلق کنید. به عنوان مثال به جای جمله «یک روز آفتابی بود...» می‌توانید تصویر و توصیفی چنین خلق کنید: «خورشید منظره را با رنگ طلایی پوشاند، هوا را گرم نمود و سایه‌هایی کشیده بر خیابان‌های سنگفرش‌شده افکند».☚ همچنین می‌توانید به جای توصیفِ مستقیم از آنچه اتفاق افتاده یا مشاهده می‌کنید، از توصیفاتِ سرزنده‌ و با حس و حال‌تری استفاده کنید. به عنوان مثال، جمله «او نگران بود» را می‌توانید با شرح حال سوژه نظیر «لرزیدن دست‌ها، قطره‌های ریز عرق پیشانی و صدای لرزان» ملموس‌تر کنید.☚ استفاده از تکنیک‌های داستان‌سرایی:توسعه شخصیت: کاراکتر اصلی را معرفی کنید. جزئیاتی در خصوص پیشینه او، تجربیات و انگیزه‌هایش شرح بدهید.درگیری و تنش: هر داستان خوبی به نقاطی چالش‌برانیگز جهت درگیر نمودن خواننده نیاز دارد.قوس روایی: شروع جذاب روایت و طرح مسئله‌ای چالشی بسیار مهم است چراکه اینکار باعث می‌شود مخاطب از همان اول میخکوب شود و سپس در ادامه به تشریح حل آن مسئله یا اتفاقات مربوطه بپردازید.زبان توصیفی: زبان توصیفی، احساسات خواننده را به مسئله نزدیک می‌کند.دیالوگ: برقراری دیالوگ بین کاراکترها و یا استفاده از نقل‌قول‌ها می‌توانند به پویاییِ فیچرتان کمک کنند.افزاره‌ها: از بکارگیری ابزارهای داستان‌سرایی نظیر پیش‌بینی، تعلیق و فلش‌بک غافل نشوید.پایان‌بندی موثر𓁋 سه نکته در خصوص ویرایش وبازخوانی نوشته‌تان:☚ پس از اتمام نوشته، پیش از آنکه شروع به فرآیند ویرایش کنید، استراحت کرده و سپس اقدام کنید. اینکار موجب می‌شود با دید بازتری به خطاهای احتمالی موجود و رفع آن‌ها بپردازید.☚ به جای اینکه تمام اشتباهات را یکجا پیدا و رفع کنید، فرآیند ویرایش را به چند مرحله تقسیم کنید؛ مثلاً ابتدا روی خطاهای دستوری و نشانه‌گذاری تمرکز نمایید و بعد سراغ انسجام و ساختار جملات بروید.☚ کارتان را چندین بار مرور کنید و هر بار روی یک جنبه تمرکز کنید. این به کشف خطاهای بیشتر کمک می‌کند.𓁋 هر بستری به منظور فیچرنویسی دارای خصوصیاتی است که در ادامه به آن می‌پردازیم:☚ نسخه چاپی:از لحاظ تعداد واژگان قابل استفاده، می‌توان گفت نسبت به سایر بسترها فضای بیشتری برای نوشتن است.☚ آنلاین:در تعداد واژگان محدودیت داریم؛ معمولاً 500 تا حداکثر 1500 کلمه. پاراگراف‌ها کوتاه‌تر است. از سبک نوشتاری کوتاه و سرراست استفاده میکند. در انتخاب کلمات کلیدی بایستی دقت نمود چرا که مهم است طوری انتخاب شوند که در معرض موتورهای جستجو قرار گیرند.☚ صوت:در محدوده چند دقیقه تا یک ساعت است. از لحاظ ساختاری می بایست به استفاده از مقدمه جذاب، گذارهای نرم بین هر بخش برنامه، نتیجه گیری مطلوب، استفاده از موزیک و مصاحبه اشاره داشت. برای سبک نوشتاری از تکنیک های داستان‌سرایی و توصیفات روشن استفاده می‌شود.☚ شبکه‌های اجتماعی:در استفاده از واژگان، بسیار محدودیت دارد. در بخش ساختار، دست‌مان برای بکارگیری تصاویر چشم‌انداز و ویدیو، عنوان و هشتگ‌ها باز است. در بحث سبک نوشتاری در این بستر، پرسشگری، تعامل از طریق لایک، کامنت و به اشتراک گذاری، ، هشتگ و استفاده از زبان مختصر و رسا موارد قابل توجهی هستند.منبع:"Feature Writing: The Art of Telling Stories", Alison.com آرمان پرناک آرمان پرناک Sun, 24 Mar 2024 10:46:01 +0330