خواندن ۱۹ دقیقه·۲ سال پیش

تعاریف و اصطلاحات حوزه پردازش گفتار

بسامد (frequency): تعداد حرکت نوسانی را در مدت زمانی معین، بسامد (فرکانس)گویند. هر حرکت کامل نوسانی، تناوب نامیده می‌شود.در بحث اندازه‌گیری، هرتز برابر با تعداد نوسان بر ثانیه است. هر قدر بسامد صدا بیشتر باشد (یعنی حرکت ارتعاشی تندتر باشد) صدای حاصل، «زیر»تر شنیده میشود و هر قدر بسامد صدا کمتر باشد، گوش صدا را بم تر خواهد شنید. گوش انسان قادر نیست صداهای خیلی بم (از 20هرتز کمتر) و صداهای خیلی زیر (از 20000 هرتز بیشتر) را بشنود. نُت های سمت راست پیانو، نُت های با فرکانس بالا (یا در واقع صدای زیر) هستند و نُت های سمت چپ پیانو دارای فرکانس پایین (یا درواقع صدای بم) هستند.

طول موج (wavelength): رابطه عکس با فرکانس دارد. صداهای با فرکانس بالا، طول موج کمتری دارند. جسم مرتعش هر تناوب کامل را در مدت زمانی مشخص انجام می دهد. از آنجا که اندازه گیری این زمانِ کوتاه (حداکثر 20/1 ثانیه) عملاً بسیار دشوار است، معمولاً واحد زمان ارتعاش را روی یک نوار که با سرعت یکنواخت و دقیقاً حساب شده، از کنار جسم می گذرد، به واحد طول محاسبه می کنند. طول موج را با واحد متر اندازه می گیرند.

دامنه (amplitude): حداکثر مسافتی که جسم مرتعش از نقطه تعادل خود (در وسط) به دو طرف (اوج یا حضیض) طی می کند، تاثیر احساسی دامنه شدت و ضعف صدای حاصل است؛ هر چه دامنه صدا بلندتر باشد، صوت شدیدتر و هر چه کوتاه تر باشد، صدا ضعیف تر (آهسته تر، کم صداتر) خواهد بود. در موسیقی یا علم فیزیک، به دامنه، شدت صدا هم گفته میشود.

فرکانس پایه یا فرکانس بنیادی (fundamental frequency): که اغلب به اختصار F0 نامیده می‌شود، پایین‌ترین مولفه فرکانسی یک صدا یا شکل موج متناوب است و به عنوان هارمونیک اول نیز شناخته می‌شود. از نظر برهم نهی سینوسی ها، فرکانس بنیادی به معنای کمترین فرکانس سینوسی در مجموع فرکانس های مرتبط هماهنگ یا فرکانس اختلاف بین فرکانس های مجاور است. در حوزه گفتار، نشانگرِ میزان ارتعاشات تارهای صوتی بوده و میزان درک صدای فرد را تعیین می‌کند به بیان دیگر، از نظر صدا و موسیقی، فرکانس پایه پایین‌ترین میزان در یک صدا است و سطحی را که ما درک می کنیم تعیین می کند. فرکانس پایه، مسئول ایجاد کیفیت موسیقایی یا آهنگی درک شده یک صدا است. بسامد پایه در مدت زمان تولید گفتار، الگوی آهنگ را تشکیل می‌دهد. میانگین بسامد پایه در طی مکالمه در مردان بین ۱۰۰ تا ۱۵۰ هرتز و در زنان بین ۱۸۰ تا ۲۵۰ هرتز است.

پوش طیفی (spectral envelope): شکلِ طیفِ قدرتِ صدا است. پوش طیفی یک نشانه مهم برای شناسایی منابع صوتی مانند صداها یا سازها و کلاس‌های خاصی از صداها مانند مصوت‌ها است.

ساختار ظریف (fine structure): به تغییر شکل موج در نرخ‌های نوسان بین 600 هرتز و 10000 هرتز اشاره دارد. ساختار ظریف اطلاعاتی در مورد طیف صدا از جمله الگوهای فرمانت می‌دهد.

فرمانت‌ یا سازند یا تمرکز انرژی صوتی (Formant): فرمانت ها، پیک‌های فرکانسی در طیف (نقاط ماکزیمم نمودار طیف فرکانسی سیگنال) هستند که دارای درجه بالایی از انرژی می‌باشند. به بیان دیگر، سازند یا بسامدهای تولید شده توسط موج صوتی، یک متغیر آکوستیکی است که در مجرای گفتار تشدید و بازآوایی می‌شود و در توصیف مصوت ها و صامت هایی که منبع آن ها واک است مورد بررسی قرار میگیرند. سازندها حاوی اطلاعات زبانی هستند بطوریکه فرمانت اول (میزان بازبودن حفره دهان)، فرمانت دوم (موقعیت زبان در مجرای دهان) و فرمانت سوم (میزان گردشدگی لب ها) را مشخص می‌کنند. سازند در طیف‌نگاشت به‌صورت نوارهای افقی تیره دیده می‌شود و تأثیر شکل مجرای گفتار در جریان هوا را نشان می‌دهد. سازندها در بررسی و تشخیص آواهای صدادار و بی صدا اهمیت زیادی دارند. هر حرف صدادار دارای سازند مشخصی‌ست( آنها به ویژه در مصوت‌ها برجسته هستند). هر فرمانت مربوط به یک رزونانس در مجرای صوتی است (به طور کلی، طیف به ازای هر 1000 هرتز یک فرمانت دارد). فرمانت‌ها را می‌توان به عنوان فیلتر در نظر گرفت.

طیف‌نگاره حروف صدادار انگلیسی [a, u, i] که سازندهای F1 و F2 را تشکیل میدهند

طیف‌نگاره (Spectrogram): نمایشی تصویری از چگالی طیفی بسامدهای یک سیگنال در زمان‌های متفاوت است. چنانچه طیف‌نگاره، برای نمایش سیگنال شنیداری به‌کار برده شود، به آن صدانگاره یا آوانما گفته می‌شود. طیف‌نگاره را می‌توان با بهره‌گیری از طیف‌سنج نوری، مجموعه‌ای از فیلترهای میان‌گذر، تبدیل فوریه یا تبدیل موجک (که به آن اسکالوگرام نیز می‌گویند)، ایجاد کرد. طیف‌نگاره معمولاً به صورت یک نقشه گرمایی، یعنی نگاره‌ای که در آن شدت، با تغییر رنگ یا روشنایی نشان داده می‌شود.

دوره بنیادی( fundamental period) : دوره بنیادیِ یک سیگنال، کوچکترین دوره‌ای است که کل سیگنال در طی آن تکرار می‌شود.

وضوح فرکانسی (frequency resolution): به توانایی تمایز بین فرکانس‌های مختلف در یک سیگنال اشاره دارد. وضوح فرکانس بالاتر امکان شناسایی دقیق‌تر فرکانس‌های مجزا را فراهم می‌کند. در زمینه پردازش سیگنال یا آنالیز طیفی، وضوح فرکانس یا رزولوشن فرکانسی اغلب با تبدیل فوریه گسسته (DFT) یا تبدیل فوریه سریع (FFT) مرتبط است، که معمولاً از یک سری تکنیک جهت تجزیه و تحلیل محتوای فرکانس سیگنال استفاده می‌شود. هنگام اعمالDFT یا FFT به سیگنال، وضوح فرکانس با تعداد نمونه‌ها یا نقاط داده استفاده شده در آنالیز تعیین می‌‍شود. وضوح فرکانس با طول مدت سیگنال آنالیز شده نسبت معکوس دارد. این بدان معنی است که با افزایش مدت زمان سیگنال، وضوح فرکانس بهبود می یابد و امکان اندازه گیری دقیق فرکانس را فراهم می کند. برعکس، طول مدت سیگنال کوتاه‌تر منجر به وضوح فرکانس ضعیف‌تر می‌شود و تمایز بین فرکانس‌های نزدیک به هم را به چالش می‌کشد. این به این دلیل است که یک پنجره زمانی طولانی تر، نقاط داده بیشتری را برای تجزیه و تحلیل فراهم می کند، که منجر به شبکه فرکانس ظریف تری در تبدیل فوریه می شود، که برای تجزیه و تحلیل محتوای فرکانس سیگنال ها استفاده می شود. دقت شود که بهبود وضوح فرکانس به معنای کاهش عرض هر bin فرکانس است که امکان تمایز دقیق بین فرکانس ها را فراهم می کند. بنابراین، وقتی می‌گوییم وضوح بهبود می‌یابد، منظور این است که اندازه‌گیری دقیق‌تر می‌شود، با یک مقدار عددی کوچک‌تر برای عرض هر bin فرکانسی.
از نظر ریاضی، وضوح فرکانس (Δf) را می توان به صورت متقابل کل مدت زمان(T) سیگنال مورد تجزیه و تحلیل محاسبه کرد: Δf = 1 / T. این بدان معنی است که هر چه مدت زمان کل سیگنال بیشتر باشد، وضوح فرکانس کمتر است و بالعکس. در عمل، وضوح فرکانس سطح جزئیات را در تحلیل فرکانس تعیین می‌کند.

گام یا زیر و بمی یا نواک (pitch): به فرکانس‌ پایه‌ی درک شده از صدای یک فرد اشاره دارد. این یک ویژگی ادراکی از صدا است که با احساس بالا بودن یا کم بودن یک تُن مطابقت دارد. گام در درجه اول توسط میزان ارتعاشات تارهای صوتی تعیین می‌شود که تحت تأثیر کشش و طول تارهای صوتی است. کشش بیشتر و طول کوتاه‌تر منجر به گام بیشتر می‌شود، در حالی که کشش کمتر و طول بیشتر باعث ایجاد گام کمتر می‌شود. معمولاً صدای با فرکانس بیشتر (مانند صدای زنان) را بالا (زیر) و صدای با فرکانس کمتر (مانند صدای مردان) را پایین (بَم) می‌نامند. طول تارهای صوتی در زنان کوچکتر از مردان است. هر چه طول تارهای صوتی کوتاه تر باشد، صدا زیرتر است. در ساز سنتور، سیم های کوتاه تر (سبک تر)، زیرتر و سیم های بلندتر (سنگین تر) بم تر صدا می دهند. زیر و بمی صدا رابطهٔ نزدیکی با فرکانس دارد اما این به معنای مساوی بودن این دو مفهوم نیست. فرکانس یک مفهوم علمی است که قابل اندازه‌گیری است در حالی که زیر و بمی ادراک شخصی هر فرد از موج صداست که به‌طور مستقیم قابل اندازه‌گیری نیست. گام، جنبه‌های آهنگین گفتار را به تصویر می‌کشد، از جمله افزایش و کاهش الگوهای زیر و بمی که به کیفیت‌های بیانی و ارتباطی زبان گفتاری کمک می‌کند. گام، اطلاعاتی را در مورد احساسات، مقاصد و ویژگی‌های زبانی گوینده منتقل می‌کند. همچنین برای تمایز بین سؤالات و گزاره‌ها، تأکید، و حتی انتقال جنبه های خاصی از هویت گوینده، مانند جنسیت یا سن، استفاده می‌شود.

لحن یا تُن (tone): به کیفیت یا ویژگی کلی صدای یک فرد اشاره دارد. جنبه‌های مختلفی از جمله گام صدا (pitch)، آهنگ صدا (intonation )، طنین یا رنگ صدا ( timbre) و احساس را در بر می گیرد. می‌تواند طیفی از احساسات، از جمله شادی، غم، عصبانیت یا تعجب را منتقل کند. همچنین به انتقال مقصود گوینده کمک می‌کند، مانند بیان سوال، فرمان یا کنایه. لحن، فراتر از کلماتی که صرفاً استفاده می شوند، به زبان گفتاری غنا و ظرافت می بخشد.

طنین یا رنگ صدا (timbre): به کیفیت یا رنگ منحصر به فرد صدای یک فرد اشاره دارد که آن را از دیگران متمایز می کند. رنگ صدا، تحت تأثیر عوامل مختلفی از جمله شکل و اندازه مجرای صوتی، پیکربندی تارهای صوتی و حرکات مفصلی درگیر در تولید صداهای گفتاری قرار می گیرد. رنگ صدا اغلب با استفاده از عباراتی مانند "خیشومی" (تودماغی) (nasal )، "تنفسی(توام با صدای تنفس) (breathy )"، "خشک"( raspy )(خش دار) (صدای گرفته)، "صاف" یا "غنی" توصیف می‌شود.

آهنگ یا طرز قرائت (intonation): به تغییرات زیر و بمی(pitch)، ملودی و الگوهای خطوطی که در یک گفته رخ می‌دهد اشاره دارد؛ شامل بالا رفتن و پایین آمدن گام در طول گفتار برای انتقال معنی، بیان احساسات و انتقال اطلاعات دستوری است. به عبارت کوتاه‌تر، بالا و پایین رفتن صدا یا لحن آوازی در گفتار، آهنگ نامیده می‌شود. در زبان انگلیسی چهار نوع intonation وجود دارد:
الف) Rising Intonation
ب) Falling Intonation
ج) Rising-Falling Intonation
د) Falling-Rising Intonation
آهنگ، نقش مهمی در ارتباط دارد زیرا به انتقال مقاصد، نگرش ها و احساسات گوینده کمک می‌کند. آهنگ صدا می تواند نشان دهد که یک عبارت یک سوال، یک بیانیه یا یک دستور باشد. تغییرات در آهنگ همچنین می‌تواند اطلاعات مهم را برجسته کند، بر کلمات یا عبارات خاصی تأکید کند، یا طعنه یا کنایه را منتقل کند.

نوا (Prosody): منعکس کننده ویژگی های عاطفی ظریف گوینده است؛ شامل حالت عاطفی آشکار یا پنهان، شکل بیان (گزاره، سؤال یا فرمان)، کنایه، تأکید خاص بر کلمات یا تکواژها، تضاد و تمرکز؛ به بیان دیگر، این مفهوم به ریتم، تکیه(stress) و آهنگ گفتار (intonation)، زيروبم کردن صدا و لحن گفتار اشاره دارد که باعث تلفظ و برداشت مفهومهاي مختلفی از گفتار میشود. به اشاره دارد. در حوزه سنتز گفتار، نوا يکی از فاکتورهای اصلی برای به دست آوردن يک گفتار سنتز باکیفیت زياد میباشد. نوا، عناصر زبان را نشان می دهد که توسط دستور زبان، علائم نگارشی یا انتخاب واژگان انکد نشده اند. از نظر شنیداری، متغیرهای نوایی عبارتند از: زیر و بمی صدا (pitch) (متغیر بین کم و زیاد)، طول صداها (متغیر بین کوتاه و بلند)، بلندی (loudness)، کیفیت timbre(کیفیت صدا). از نظر آکوستیک، متغیرهای نوایی عبارتند از: فرکانس پایه، مدت زمان (duration)، شدت یا سطح فشار صدا (بر حسب دسیبل)، ویژگی های طیفی (توزیع انرژی در قسمت های مختلف محدوده فرکانس قابل شنیدن).

فرکانس نایکوئیست (Nyquist frequency): که به افتخار مهندس هری نایکویست نامگذاری شده است، یک مفهوم مهم در پردازش سیگنال دیجیتال و تئوری نمونه برداری بوده و نشان دهنده حداکثر فرکانسی است که می تواند به طور دقیق در یک سیگنال دیجیتالی نمایش داده شود. با توجه به قضیه نمونه‌برداری نایکویست-شانون، برای بازسازی دقیق یک سیگنال زمان پیوسته از نسخه نمونه‌برداری شده آن، نرخ نمونه‌برداری (sampling rate) باید حداقل دو برابر بالاترین مولفه فرکانس موجود در سیگنال باشد. بنابراین فرکانس Nyquist ، نصفِ نرخ نمونه برداری است و حداکثر فرکانس را نشان می دهد( f_Nyquist = 0.5 * f_sampling. که f_sampling نرخ نمونه برداری است). نرخ نمونه برداری پایین (زیر Nyquist) منجر به aliasing شده و مولفه های فرکانس بالا به عنوان مولفه های پایین تر ظاهر می شوند. این از دست دادن اطلاعات می تواند مانع از تجزیه و تحلیل ناهماهنگی های ظریف در طیف صوتی شود. فرکانس نایکوئیست در صداهای دیجیتال، مخابرات و سایر زمینه هایی که سیگنال های آنالوگ به شکل دیجیتال تبدیل می شوند، مهم است و حد بالایی محدوده فرکانسی را که می تواند در حوزه دیجیتال بدون از دست دادن اطلاعات نمایش داده شود، تعریف می کند. برای بازتولید دقیق یک سیگنال، نرخ نمونه برداری باید به طور مناسب انتخاب شود تا معیار Nyquist را برآورده کند بنابراین به طور خلاصه، نمونه‌برداری نایکوئیست، حداقل نرخ نمونه‌گیری را برای جلوگیری از از دست دادن اطلاعات تنظیم می‌کند.

نرخ نمونه‌برداری (sampling rate): تعداد نمونه‌ای که در هر ثانیه از سیگنال گرفته می‌شود، نرخ نمونه‌برداری گویند. در واقع به نمونه برداری افقیِ سیگنال، نرخ نمونه‌برداری گفته می‌شود. سعی می‌کنند نرخ نمونه برداری رو عددی در نظر بگیرند که کیفیت مناسبی برای شنیدار انسان داشته باشد.

نرخ بیت یا عمق بیت (Bit depth) (Bit rate): به نمونه‌گیری عمودیِ سیگنال، نرخ بیت گفته می‌شود. مثلاً وقتی میگویند صدا را 16 بیت ضبط کردند، یعنی دو به توان 16 مقدار (معادل65536 مقدار) روی محور عمودی در نظر گرفته می‌شود. وقتی نرخ نمونه‌برداری و نرخ بیت را زیاد در نظر می‌گیریم، یعنی داریم به صدای واقعی تر و باکیفیت تر نزدیک تر میشویم.

فرآیند آنالیز گفتار: شامل چندین مرحله برای تجزیه و تحلیل و استخراج اطلاعات مربوطه از سیگنال های گفتاری است. توضیح گام به گام از این فرآیند بدین شرح است: 1)جمع آوری داده ها: اولین قدم جمع آوری داده های گفتاری است. این می تواند شامل ضبط گفتار با استفاده از میکروفون یا به دست آوردن صداهای ضبط شده از قبل موجود از یک پایگاه داده باشد. داده ها باید نماینده گفتاری باشد که می خواهید تحلیل کنید. 2) پیش پردازش: پیش پردازش برای افزایش کیفیت سیگنال گفتار و حذف هر گونه نویز یا مصنوعات ناخواسته انجام می شود. ممکن است شامل فیلتر کردن سیگنال، حذف نویز پس زمینه یا نرمال سازی دامنه سیگنال باشد. 3)فریم‌بندی: سیگنال گفتار به فریم‌ها یا بخش‌های کوچک‌تر تقسیم می‌شود که معمولاً حدود 20 تا 30 میلی‌ثانیه طول می‌کشد. این فریم‌ها به گونه‌ای انتخاب می‌شوند که ویژگی‌های زمانی گفتار را به تصویر بکشند و اطمینان حاصل کنند که سیگنال را می‌توان در بازه‌های زمانی کوتاه آنالیز کرد. 4) استخراج ویژگی: در این مرحله از هر فریم سیگنال گفتار، ویژگی های صوتی مختلفی استخراج می شود. ویژگی های رایج عبارتند از: pitch، formantها، انرژی، مدت زمان (duration) و ویژگی های طیفی. 5) مدل سازی: پس از استخراج ویژگی ها، می توان از آنها برای ساخت مدل هایی استفاده کرد که جنبه های خاصی از گفتار را به تصویر می کشد.

تکیه (stress): تأکید روی یک هجا از گفتار که به‌وسیلهٔ تلفظِ شدیدترِ آن هجا صورت می‌گیرد «تکیه» نام دارد. در بسیاری از زبان‌ها، گاهی تفاوت محل تکیه در کلام منجر به تفاوت معنا می‌شود.

تشدید (Gemination): به ادای مضاعف برخی آواها، به‌ویژه صامت‌ها، در جاهای مشخص در کلمه یا در مرز کلمات در گروه‌ها و جملات، تشدید گفته می‌شود.

واج (Phoneme): واج کوچک‌ترین بخش گفتار است و جایگزینی آن با واجی دیگر تفاوت معنایی ایجاد می‌کند. مانند آ، ب، پ، …،ن، و، ه، ی. مجموعه‌ای از آواها است که می‌تواند یک واژه را از واژه دیگر متمایز کند. برای مثال، در انگلیسی الگوهای صدایی /sɪn/ (sin) و /sɪŋ/ (sing) دو واژه متفاوت هستند که با جایگزینی یک واج /n/ با واج /ŋ/ از هم متمایز می‌شوند. کلماتی مثل این‌ها که تفاوت معنایی‌شان از طریق تضاد فقط در یک واج ایجاد می‌شود، جفت حداقلی نامیده می‌شوند. به کمک واج، تکواژ ساخته می‌شود(یک یا چند تکواژ یک واژه را می‌سازند). در زبان فارسی ۲۹ واج وجود دارد که به دو دستهٔ واکه(مصوت) (۶ واج) و همخوان(صامت) (۲۳ واج) تقسیم می‌شوند.

صامت (consonant): واج‌هایی که برای تولیدشان در دهان نیاز به انسداد یا مانع باشد، صامت می‌گویند. صامت‌ها آغاز و پایان هجا را می‌سازند.

مصوت (vowel): واج‌هایی که بدون مانع در برابر جریان هوا در دهان ساخته می‌شوند را مصوت یا واکه می‌نامند. در تمام زبان‌ها، مصوت‌ها هسته یا اوج هجا را می‌سازند. مصوّت‌ها در زبان فارسی شش مورد هستند؛ مصوت‌های بلند (آ - او - ای) و مصوت های کوتاه (فتحه، کسره، ضمه). این مفهوم که کیفیت مصوت ها اساساً با موقعیت زبان و گرد کردن لب تعیین می شود همچنان در آموزش استفاده می شود، زیرا توضیحی شهودی از نحوه تمایز مصوت ها ارائه می دهد.

بلندیِ مصوت: به‌معنی میزان بازشدگی دهان در حین ایجاد مصوت گفته می‌شود.

برگشتیِ مصوت: برگشتی مصوت به‌معنی محل قرارگیری زبان نسبت به پشت زبان است

گِردشدگی مصوت: به‌معنی حالت لب‌ها هنگام ایجاد مصوت است.

خیشومی‌شدگی (Nasalization): به تولید یک آوا در حالی که زبان کوچک دهان پایین می‌آید تا بخشی از هوا از طریق خیشوم خارج شود، گفته می‌شود. به بیان دیگر، تولید صدایی در حین پایین آمدن پرده، به طوری که در حین تولید صدا توسط دهان، مقداری هوا از بینی خارج شود. این پارامتر میزان تودماغی شدن صدا را مشخص میکند.

صامت خیشومی (Nasal consonant): به صامتی گفته می‌شود که هنگام تولید آن حفره دهان بسته می‌شود و جریان هوا از طریق بینی خارج می‌شود.

مصوت خیشومی (Nasal vowel): مصوتی است که از طریق پایین آمدن نرم‌کام (بافت نرمی است که بخش عقب سقف دهان را تشکیل می‌دهد) با خارج‌کردن هوا از طریق بینی، تولید می‌شوند. در اصطلاح عام، به این آواها «تودماغی» گفته می‌شود.

مونو (mono): به صدای تک کانال گفته می‌شود که ممکن است توسط یک میکروفن، یا توسط چند میکروفون ضبط و سپس در یک کانال صدا گنجانده شده باشد. صدا تنها از یک نقطه پخش می‌شود و یا صدای تمام منابع صوتی یکسان است. برای پخش صدای مونو تنها یک بلندگو ضروری است و اگر چند بلندگو استفاده شود، تنها همان صدا از هر بلندگو پخش می‌شود، برخلاف صدای استریو (دو کاناله) و صدای ساراند (چند کاناله). به دلیل اینکه صدای مونو در مقایسه با صدای استریو پنجاه درصد کم‌تر از پهنای باند استفاده می‌کند، از آن به طور گسترده‌ای در ارتباطات رادیویی و مخابراتی مثل تلفن و بی‌سیم که بیشتر کلام و افکت صوتی انتقال می‌یابد، استفاده می‌شود. استفاده از این نوع صدا برای ساخت پادکست، رادیو اینترنتی و هر محتوای کلامی، به همان دلیل ذکر شده توصیه می‌شود.

استریو (stereo): از شیوه‌های بازتولید صدا است که برای شنونده توهمی از ژرف‌نمایی شنیداری ایجاد می‌کند. این کار معمولاً با استفاده از دو یا چند کانال صوتی مستقل از طریق پیکربندی دو یا چند بلندگو (یا هدفون) انجام میشود، به نحوی که به نظر می‌رسد صدا از جهات مختلف منتشر می‌شود و شنونده به صورت طبیعی صدا را به صورت چند بعدی می‌شنود. در این شیوه در هنگام ضبط از دو میکروفون برای ضبط هر یک از خطوط صدا (چپ و راست) استفاده می‌شود. هر یک از خطوط به صورت مجزا ضبط می‌شود و همین خطوط در هنگام پخش از باند خود (چپ یا راست) پخش می‌گردد. این شیوه اصلی‌ترین روش ضبط صدای استریو است و به حقیقت بسیار نزدیک تر است. با پیشرفت تکنولوژی، روش‌های جدیدی جهت ایجاد بُعد برای صدا توسط نرم‌افزارهای کامپیوتری ایجاد شده‌است که در هنگام ساخت صدا در نرم‌افزار، با تعیین جهت برای صدا، نرم‌افزار به صورت خودکار، ۲ خط چپ و راست صدا را ایجاد می‌کند و بدین صورت حالت ۳ بعدی را برای صدا ایجاد می‌کند.

شدت صوت (sound intensity): شدت صدا یا شدت صوت که با نام شدت آکوستیکی نیز شناخته می‌شود،انرژی حمل شده توسط امواج صوتی بر واحد سطح تعریف می‌شود. یک کاربرد اصلی آن، اندازه میزان نویز در هوا برای گوش یک شنونده است.

طول مصوت (vowel length): به دیرشِ (duration) یک مصوت اطلاق می‌شود. طول یا کشش مصوت، طول درک شده‌ی یک صدای مصوت است. در برخی از زبان‌ها طول واکه یک عامل واجی مهم است، به این معنی که طول مصوت می‌تواند معنای کلمه را تغییر دهد.

چاکنای (Glottis): دهانه یا مدخلِ نای است که پرده‌های صوتی در آن قرار دارند. به تعریفِ زبان‌شناختی، چاکنایْ فاصلهٔ میانِ پرده‌هایِ صوتی است. چاکنای نقش مهمی در تولید اصوات دارد. به صامتی که با انسداد یا سایش در چاکنای تولید شود را صامت چاکنایی می‌گویند.

جایگاه تولید (place of articulation): واجگاه یا مخرج حروف یا جایگاه تولید، یکی از معیارهای اساسی در دسته‌بندی آواهای گفتار است. در آواشناسی تولیدی، جایگاه تولید به نقطه‌ای اشاره دارد که در آن اندام‌های گفتار انواع مختلف آواهای صامت را ایجاد می‌کنند. آواشناسی امروزی ۱۱ نقطه مجزا را در اندام گفتار شناسایی می‌کند: دولبی، لبی‌دندانی، دندانی، لثوی، برگشته، لثوی‌کامی، کامی، نرمکامی، زبانکی، حلقی و چاکنایی.

شیوه تولید (Manner of articulation): یکی از پارامترهای اصلی طبقه‌بندی آواها در آواشناسی تولیدی است که به نوع فرایند به کار رفته در تولید آوا می‌پردازد. تمایز میان مصوت و صامت معمولاً از طریق این پارامتر انجام می‌پذیرد.

تکواژ (Morpheme): تکواژها از به‌هم‌پیوستن واج‌ها (کوچکترین بخشهای گفتار) ساخته می‌شوند و تکواژها را نمی‌توان به واحدهای دستوری کوچک‌تر بخش کرد.

آوا (Phone): به هر صدا (در زبانهای گفتاری) یا ژستی (در زبانهای اشاره‌ای) گویند که متمایز و قابل شناسایی از سایر صداها یا ژست‌های موجود در آن زبان باشد.

واجگونه (allophone): به هریک از گونه‌های مجزای یک واج در یک زبان مشخص، واجگونه گفته میشود. آلوفون یکی از چند صدای گفتاریِ ممکن یا آواهای ممکن است، که برای تلفظ یک واج واحد در یک زبان خاص استفاده می‌شود. آلوفون ها، sound هستند، در حالی که واج مجموعه ای از این soundها هستند.

سگمنت یا قطعه (Segment): در زبان‌شناسی، به هر واحد مجزایی گفته می‌شود که می‌تواند چه به طور فیزیکی و چه به طور شنیداری در جریان گفتار تشخیص داده شود. می‌تواند با اصطلاح آوا هم‌معنی باشد.

صوت یا صدا(Sound): در فیزیک، صدا ارتعاشی است که به صورت موج آکوستیکی از طریق یک رسانه انتقال (رسانا) مانند گاز، مایع یا جامد منتشر می‌شود. در فیزیولوژی و روانشناسی انسان، صوت عبارت است از دریافت این گونه امواج و درک آنها توسط مغز. تنها امواج صوتی که فرکانس‌هایی بین 20 هرتز تا 20 کیلوهرتز دارند، در محدوده فرکانس صوتی، درک شنوایی را در انسان ایجاد می‌کنند. امواج صوتی بالای 20 کیلوهرتز به عنوان اولتراسوند (ultrasound) شناخته می شوند و برای انسان قابل شنیدن نیستند. امواج صوتی زیر 20 هرتز به عنوان اینتراسوند یا مادون صوت (infrasound) شناخته می شوند. امواج صوتی اغلب برای توصیف از نظر امواج صفحه سینوسی ساده می شوند که با این ویژگی های عمومی مشخص می شوند: فرکانس و طول موج، دامنه، فشار یا شدت صدا، سرعت صوت و جهت. در هوا در دما و فشار استاندارد، طول موج متناظر امواج صوتی از 17 متر (56 فوت) تا 17 میلی متر (0.67 اینچ) متغیر است.

انسایشی (Affricate): اصطلاحی در آواشناسی تولیدی است که به شیوه تولید یک آوا اشاره دارد و در تولید آن جریان هوا ابتدا با یک انسداد مواجه می‌شود و سپس با بازشدن تدریجی بست جریان هوا با اصطکاک خارج شده و آوای انسایشی را نتیجه می‌دهد.

صامت سایشی (Fricative consonant): نامی برای دسته‌بندی روش ساخت آوای یک صامت است. در تولید یک صامت سایشی با نزدیک شدن اندامهای گفتار به یکدیگر، شکافی باریک در مجرای گفتار شکل میگیرد که جریان هوا به دشواری از میان این شکاف گذشته و با ساییدگی (سایش) هوا با اندامهای گفتار صامت سایشی تولید شود. آشفتگی هوا در پشت این شکاف، صدای هیس‌مانندی تولید میکند که از مشخصه‌های صامتهای سایشی است. سایشی‌های کاربردی در زبانهای گوناگون اینهایند: /f/, /v/, /s/, /z/, /θ/, /ð/, /X/ و /ɤ/.

صامت حلقی (Pharyngeal consonant): یک صامت است که جایگاه تولید اصلی آن در حلق است. در زبان عربی همخوان‌های «ع» و «ح» حلقی هستند. در زبان انگلیسی ازین نوع صامت نداریم.

انسدادی یا انفجاری (Plosive): یک صامت ریوی (تنفسی) است که در آن مجرای صوتی مسدود می شود به طوری که تمام جریان هوا متوقف می شود. انسداد ممکن است با نوک یا تیغه زبان ([t]، [d])، بدن زبان ([k]، [ɡ])، لب‌ها ([p]، [b]) یا گلوت ([ʔ]) ایجاد شود.

واک (voice): در زبانشناسی اصطلاحی در طبقه‌بندی آواهای گفتار است که به لرزش پرده‌های صوتی در تولید یک واج اشاره دارد. حروفی را که تولیدشان با لرزش تارآواها همراه است «حروف واکدار» یا «حروف آوایی» می‌گویند

توجه: {به مرور تکمیل خواهد شد}

زبان فارسیصداسیگنالزبان انگلیسیگفتار

آرمان پرناک

شاید از این پست‌ها خوشتان بیاید

آرمان پرناک

خواندن ۱۹ دقیقه·۲ سال پیش

تعاریف و اصطلاحات حوزه پردازش گفتار

بسامد (frequency): تعداد حرکت نوسانی را در مدت زمانی معین، بسامد (فرکانس)گویند. هر حرکت کامل نوسانی، تناوب نامیده می‌شود.در بحث اندازه‌گیری، هرتز برابر با تعداد نوسان بر ثانیه است. هر قدر بسامد صدا بیشتر باشد (یعنی حرکت ارتعاشی تندتر باشد) صدای حاصل، «زیر»تر شنیده میشود و هر قدر بسامد صدا کمتر باشد، گوش صدا را بم تر خواهد شنید. گوش انسان قادر نیست صداهای خیلی بم (از 20هرتز کمتر) و صداهای خیلی زیر (از 20000 هرتز بیشتر) را بشنود. نُت های سمت راست پیانو، نُت های با فرکانس بالا (یا در واقع صدای زیر) هستند و نُت های سمت چپ پیانو دارای فرکانس پایین (یا درواقع صدای بم) هستند.

طول موج (wavelength): رابطه عکس با فرکانس دارد. صداهای با فرکانس بالا، طول موج کمتری دارند. جسم مرتعش هر تناوب کامل را در مدت زمانی مشخص انجام می دهد. از آنجا که اندازه گیری این زمانِ کوتاه (حداکثر 20/1 ثانیه) عملاً بسیار دشوار است، معمولاً واحد زمان ارتعاش را روی یک نوار که با سرعت یکنواخت و دقیقاً حساب شده، از کنار جسم می گذرد، به واحد طول محاسبه می کنند. طول موج را با واحد متر اندازه می گیرند.

دامنه (amplitude): حداکثر مسافتی که جسم مرتعش از نقطه تعادل خود (در وسط) به دو طرف (اوج یا حضیض) طی می کند، تاثیر احساسی دامنه شدت و ضعف صدای حاصل است؛ هر چه دامنه صدا بلندتر باشد، صوت شدیدتر و هر چه کوتاه تر باشد، صدا ضعیف تر (آهسته تر، کم صداتر) خواهد بود. در موسیقی یا علم فیزیک، به دامنه، شدت صدا هم گفته میشود.

فرکانس پایه یا فرکانس بنیادی (fundamental frequency): که اغلب به اختصار F0 نامیده می‌شود، پایین‌ترین مولفه فرکانسی یک صدا یا شکل موج متناوب است و به عنوان هارمونیک اول نیز شناخته می‌شود. از نظر برهم نهی سینوسی ها، فرکانس بنیادی به معنای کمترین فرکانس سینوسی در مجموع فرکانس های مرتبط هماهنگ یا فرکانس اختلاف بین فرکانس های مجاور است. در حوزه گفتار، نشانگرِ میزان ارتعاشات تارهای صوتی بوده و میزان درک صدای فرد را تعیین می‌کند به بیان دیگر، از نظر صدا و موسیقی، فرکانس پایه پایین‌ترین میزان در یک صدا است و سطحی را که ما درک می کنیم تعیین می کند. فرکانس پایه، مسئول ایجاد کیفیت موسیقایی یا آهنگی درک شده یک صدا است. بسامد پایه در مدت زمان تولید گفتار، الگوی آهنگ را تشکیل می‌دهد. میانگین بسامد پایه در طی مکالمه در مردان بین ۱۰۰ تا ۱۵۰ هرتز و در زنان بین ۱۸۰ تا ۲۵۰ هرتز است.

پوش طیفی (spectral envelope): شکلِ طیفِ قدرتِ صدا است. پوش طیفی یک نشانه مهم برای شناسایی منابع صوتی مانند صداها یا سازها و کلاس‌های خاصی از صداها مانند مصوت‌ها است.

ساختار ظریف (fine structure): به تغییر شکل موج در نرخ‌های نوسان بین 600 هرتز و 10000 هرتز اشاره دارد. ساختار ظریف اطلاعاتی در مورد طیف صدا از جمله الگوهای فرمانت می‌دهد.

فرمانت‌ یا سازند یا تمرکز انرژی صوتی (Formant): فرمانت ها، پیک‌های فرکانسی در طیف (نقاط ماکزیمم نمودار طیف فرکانسی سیگنال) هستند که دارای درجه بالایی از انرژی می‌باشند. به بیان دیگر، سازند یا بسامدهای تولید شده توسط موج صوتی، یک متغیر آکوستیکی است که در مجرای گفتار تشدید و بازآوایی می‌شود و در توصیف مصوت ها و صامت هایی که منبع آن ها واک است مورد بررسی قرار میگیرند. سازندها حاوی اطلاعات زبانی هستند بطوریکه فرمانت اول (میزان بازبودن حفره دهان)، فرمانت دوم (موقعیت زبان در مجرای دهان) و فرمانت سوم (میزان گردشدگی لب ها) را مشخص می‌کنند. سازند در طیف‌نگاشت به‌صورت نوارهای افقی تیره دیده می‌شود و تأثیر شکل مجرای گفتار در جریان هوا را نشان می‌دهد. سازندها در بررسی و تشخیص آواهای صدادار و بی صدا اهمیت زیادی دارند. هر حرف صدادار دارای سازند مشخصی‌ست( آنها به ویژه در مصوت‌ها برجسته هستند). هر فرمانت مربوط به یک رزونانس در مجرای صوتی است (به طور کلی، طیف به ازای هر 1000 هرتز یک فرمانت دارد). فرمانت‌ها را می‌توان به عنوان فیلتر در نظر گرفت.

طیف‌نگاره (Spectrogram): نمایشی تصویری از چگالی طیفی بسامدهای یک سیگنال در زمان‌های متفاوت است. چنانچه طیف‌نگاره، برای نمایش سیگنال شنیداری به‌کار برده شود، به آن صدانگاره یا آوانما گفته می‌شود. طیف‌نگاره را می‌توان با بهره‌گیری از طیف‌سنج نوری، مجموعه‌ای از فیلترهای میان‌گذر، تبدیل فوریه یا تبدیل موجک (که به آن اسکالوگرام نیز می‌گویند)، ایجاد کرد. طیف‌نگاره معمولاً به صورت یک نقشه گرمایی، یعنی نگاره‌ای که در آن شدت، با تغییر رنگ یا روشنایی نشان داده می‌شود.

دوره بنیادی( fundamental period) : دوره بنیادیِ یک سیگنال، کوچکترین دوره‌ای است که کل سیگنال در طی آن تکرار می‌شود.

وضوح فرکانسی (frequency resolution): به توانایی تمایز بین فرکانس‌های مختلف در یک سیگنال اشاره دارد. وضوح فرکانس بالاتر امکان شناسایی دقیق‌تر فرکانس‌های مجزا را فراهم می‌کند. در زمینه پردازش سیگنال یا آنالیز طیفی، وضوح فرکانس یا رزولوشن فرکانسی اغلب با تبدیل فوریه گسسته (DFT) یا تبدیل فوریه سریع (FFT) مرتبط است، که معمولاً از یک سری تکنیک جهت تجزیه و تحلیل محتوای فرکانس سیگنال استفاده می‌شود. هنگام اعمالDFT یا FFT به سیگنال، وضوح فرکانس با تعداد نمونه‌ها یا نقاط داده استفاده شده در آنالیز تعیین می‌‍شود. وضوح فرکانس با طول مدت سیگنال آنالیز شده نسبت معکوس دارد. این بدان معنی است که با افزایش مدت زمان سیگنال، وضوح فرکانس بهبود می یابد و امکان اندازه گیری دقیق فرکانس را فراهم می کند. برعکس، طول مدت سیگنال کوتاه‌تر منجر به وضوح فرکانس ضعیف‌تر می‌شود و تمایز بین فرکانس‌های نزدیک به هم را به چالش می‌کشد. این به این دلیل است که یک پنجره زمانی طولانی تر، نقاط داده بیشتری را برای تجزیه و تحلیل فراهم می کند، که منجر به شبکه فرکانس ظریف تری در تبدیل فوریه می شود، که برای تجزیه و تحلیل محتوای فرکانس سیگنال ها استفاده می شود. دقت شود که بهبود وضوح فرکانس به معنای کاهش عرض هر bin فرکانس است که امکان تمایز دقیق بین فرکانس ها را فراهم می کند. بنابراین، وقتی می‌گوییم وضوح بهبود می‌یابد، منظور این است که اندازه‌گیری دقیق‌تر می‌شود، با یک مقدار عددی کوچک‌تر برای عرض هر bin فرکانسی.
از نظر ریاضی، وضوح فرکانس (Δf) را می توان به صورت متقابل کل مدت زمان(T) سیگنال مورد تجزیه و تحلیل محاسبه کرد: Δf = 1 / T. این بدان معنی است که هر چه مدت زمان کل سیگنال بیشتر باشد، وضوح فرکانس کمتر است و بالعکس. در عمل، وضوح فرکانس سطح جزئیات را در تحلیل فرکانس تعیین می‌کند.

گام یا زیر و بمی یا نواک (pitch): به فرکانس‌ پایه‌ی درک شده از صدای یک فرد اشاره دارد. این یک ویژگی ادراکی از صدا است که با احساس بالا بودن یا کم بودن یک تُن مطابقت دارد. گام در درجه اول توسط میزان ارتعاشات تارهای صوتی تعیین می‌شود که تحت تأثیر کشش و طول تارهای صوتی است. کشش بیشتر و طول کوتاه‌تر منجر به گام بیشتر می‌شود، در حالی که کشش کمتر و طول بیشتر باعث ایجاد گام کمتر می‌شود. معمولاً صدای با فرکانس بیشتر (مانند صدای زنان) را بالا (زیر) و صدای با فرکانس کمتر (مانند صدای مردان) را پایین (بَم) می‌نامند. طول تارهای صوتی در زنان کوچکتر از مردان است. هر چه طول تارهای صوتی کوتاه تر باشد، صدا زیرتر است. در ساز سنتور، سیم های کوتاه تر (سبک تر)، زیرتر و سیم های بلندتر (سنگین تر) بم تر صدا می دهند. زیر و بمی صدا رابطهٔ نزدیکی با فرکانس دارد اما این به معنای مساوی بودن این دو مفهوم نیست. فرکانس یک مفهوم علمی است که قابل اندازه‌گیری است در حالی که زیر و بمی ادراک شخصی هر فرد از موج صداست که به‌طور مستقیم قابل اندازه‌گیری نیست. گام، جنبه‌های آهنگین گفتار را به تصویر می‌کشد، از جمله افزایش و کاهش الگوهای زیر و بمی که به کیفیت‌های بیانی و ارتباطی زبان گفتاری کمک می‌کند. گام، اطلاعاتی را در مورد احساسات، مقاصد و ویژگی‌های زبانی گوینده منتقل می‌کند. همچنین برای تمایز بین سؤالات و گزاره‌ها، تأکید، و حتی انتقال جنبه های خاصی از هویت گوینده، مانند جنسیت یا سن، استفاده می‌شود.

لحن یا تُن (tone): به کیفیت یا ویژگی کلی صدای یک فرد اشاره دارد. جنبه‌های مختلفی از جمله گام صدا (pitch)، آهنگ صدا (intonation )، طنین یا رنگ صدا ( timbre) و احساس را در بر می گیرد. می‌تواند طیفی از احساسات، از جمله شادی، غم، عصبانیت یا تعجب را منتقل کند. همچنین به انتقال مقصود گوینده کمک می‌کند، مانند بیان سوال، فرمان یا کنایه. لحن، فراتر از کلماتی که صرفاً استفاده می شوند، به زبان گفتاری غنا و ظرافت می بخشد.

طنین یا رنگ صدا (timbre): به کیفیت یا رنگ منحصر به فرد صدای یک فرد اشاره دارد که آن را از دیگران متمایز می کند. رنگ صدا، تحت تأثیر عوامل مختلفی از جمله شکل و اندازه مجرای صوتی، پیکربندی تارهای صوتی و حرکات مفصلی درگیر در تولید صداهای گفتاری قرار می گیرد. رنگ صدا اغلب با استفاده از عباراتی مانند "خیشومی" (تودماغی) (nasal )، "تنفسی(توام با صدای تنفس) (breathy )"، "خشک"( raspy )(خش دار) (صدای گرفته)، "صاف" یا "غنی" توصیف می‌شود.

آهنگ یا طرز قرائت (intonation): به تغییرات زیر و بمی(pitch)، ملودی و الگوهای خطوطی که در یک گفته رخ می‌دهد اشاره دارد؛ شامل بالا رفتن و پایین آمدن گام در طول گفتار برای انتقال معنی، بیان احساسات و انتقال اطلاعات دستوری است. به عبارت کوتاه‌تر، بالا و پایین رفتن صدا یا لحن آوازی در گفتار، آهنگ نامیده می‌شود. در زبان انگلیسی چهار نوع intonation وجود دارد:
الف) Rising Intonation
ب) Falling Intonation
ج) Rising-Falling Intonation
د) Falling-Rising Intonation
آهنگ، نقش مهمی در ارتباط دارد زیرا به انتقال مقاصد، نگرش ها و احساسات گوینده کمک می‌کند. آهنگ صدا می تواند نشان دهد که یک عبارت یک سوال، یک بیانیه یا یک دستور باشد. تغییرات در آهنگ همچنین می‌تواند اطلاعات مهم را برجسته کند، بر کلمات یا عبارات خاصی تأکید کند، یا طعنه یا کنایه را منتقل کند.

نوا (Prosody): منعکس کننده ویژگی های عاطفی ظریف گوینده است؛ شامل حالت عاطفی آشکار یا پنهان، شکل بیان (گزاره، سؤال یا فرمان)، کنایه، تأکید خاص بر کلمات یا تکواژها، تضاد و تمرکز؛ به بیان دیگر، این مفهوم به ریتم، تکیه(stress) و آهنگ گفتار (intonation)، زيروبم کردن صدا و لحن گفتار اشاره دارد که باعث تلفظ و برداشت مفهومهاي مختلفی از گفتار میشود. به اشاره دارد. در حوزه سنتز گفتار، نوا يکی از فاکتورهای اصلی برای به دست آوردن يک گفتار سنتز باکیفیت زياد میباشد. نوا، عناصر زبان را نشان می دهد که توسط دستور زبان، علائم نگارشی یا انتخاب واژگان انکد نشده اند. از نظر شنیداری، متغیرهای نوایی عبارتند از: زیر و بمی صدا (pitch) (متغیر بین کم و زیاد)، طول صداها (متغیر بین کوتاه و بلند)، بلندی (loudness)، کیفیت timbre(کیفیت صدا). از نظر آکوستیک، متغیرهای نوایی عبارتند از: فرکانس پایه، مدت زمان (duration)، شدت یا سطح فشار صدا (بر حسب دسیبل)، ویژگی های طیفی (توزیع انرژی در قسمت های مختلف محدوده فرکانس قابل شنیدن).

فرکانس نایکوئیست (Nyquist frequency): که به افتخار مهندس هری نایکویست نامگذاری شده است، یک مفهوم مهم در پردازش سیگنال دیجیتال و تئوری نمونه برداری بوده و نشان دهنده حداکثر فرکانسی است که می تواند به طور دقیق در یک سیگنال دیجیتالی نمایش داده شود. با توجه به قضیه نمونه‌برداری نایکویست-شانون، برای بازسازی دقیق یک سیگنال زمان پیوسته از نسخه نمونه‌برداری شده آن، نرخ نمونه‌برداری (sampling rate) باید حداقل دو برابر بالاترین مولفه فرکانس موجود در سیگنال باشد. بنابراین فرکانس Nyquist ، نصفِ نرخ نمونه برداری است و حداکثر فرکانس را نشان می دهد( f_Nyquist = 0.5 * f_sampling. که f_sampling نرخ نمونه برداری است). نرخ نمونه برداری پایین (زیر Nyquist) منجر به aliasing شده و مولفه های فرکانس بالا به عنوان مولفه های پایین تر ظاهر می شوند. این از دست دادن اطلاعات می تواند مانع از تجزیه و تحلیل ناهماهنگی های ظریف در طیف صوتی شود. فرکانس نایکوئیست در صداهای دیجیتال، مخابرات و سایر زمینه هایی که سیگنال های آنالوگ به شکل دیجیتال تبدیل می شوند، مهم است و حد بالایی محدوده فرکانسی را که می تواند در حوزه دیجیتال بدون از دست دادن اطلاعات نمایش داده شود، تعریف می کند. برای بازتولید دقیق یک سیگنال، نرخ نمونه برداری باید به طور مناسب انتخاب شود تا معیار Nyquist را برآورده کند بنابراین به طور خلاصه، نمونه‌برداری نایکوئیست، حداقل نرخ نمونه‌گیری را برای جلوگیری از از دست دادن اطلاعات تنظیم می‌کند.

نرخ نمونه‌برداری (sampling rate): تعداد نمونه‌ای که در هر ثانیه از سیگنال گرفته می‌شود، نرخ نمونه‌برداری گویند. در واقع به نمونه برداری افقیِ سیگنال، نرخ نمونه‌برداری گفته می‌شود. سعی می‌کنند نرخ نمونه برداری رو عددی در نظر بگیرند که کیفیت مناسبی برای شنیدار انسان داشته باشد.

نرخ بیت یا عمق بیت (Bit depth) (Bit rate): به نمونه‌گیری عمودیِ سیگنال، نرخ بیت گفته می‌شود. مثلاً وقتی میگویند صدا را 16 بیت ضبط کردند، یعنی دو به توان 16 مقدار (معادل65536 مقدار) روی محور عمودی در نظر گرفته می‌شود. وقتی نرخ نمونه‌برداری و نرخ بیت را زیاد در نظر می‌گیریم، یعنی داریم به صدای واقعی تر و باکیفیت تر نزدیک تر میشویم.

فرآیند آنالیز گفتار: شامل چندین مرحله برای تجزیه و تحلیل و استخراج اطلاعات مربوطه از سیگنال های گفتاری است. توضیح گام به گام از این فرآیند بدین شرح است: 1)جمع آوری داده ها: اولین قدم جمع آوری داده های گفتاری است. این می تواند شامل ضبط گفتار با استفاده از میکروفون یا به دست آوردن صداهای ضبط شده از قبل موجود از یک پایگاه داده باشد. داده ها باید نماینده گفتاری باشد که می خواهید تحلیل کنید. 2) پیش پردازش: پیش پردازش برای افزایش کیفیت سیگنال گفتار و حذف هر گونه نویز یا مصنوعات ناخواسته انجام می شود. ممکن است شامل فیلتر کردن سیگنال، حذف نویز پس زمینه یا نرمال سازی دامنه سیگنال باشد. 3)فریم‌بندی: سیگنال گفتار به فریم‌ها یا بخش‌های کوچک‌تر تقسیم می‌شود که معمولاً حدود 20 تا 30 میلی‌ثانیه طول می‌کشد. این فریم‌ها به گونه‌ای انتخاب می‌شوند که ویژگی‌های زمانی گفتار را به تصویر بکشند و اطمینان حاصل کنند که سیگنال را می‌توان در بازه‌های زمانی کوتاه آنالیز کرد. 4) استخراج ویژگی: در این مرحله از هر فریم سیگنال گفتار، ویژگی های صوتی مختلفی استخراج می شود. ویژگی های رایج عبارتند از: pitch، formantها، انرژی، مدت زمان (duration) و ویژگی های طیفی. 5) مدل سازی: پس از استخراج ویژگی ها، می توان از آنها برای ساخت مدل هایی استفاده کرد که جنبه های خاصی از گفتار را به تصویر می کشد.

تکیه (stress): تأکید روی یک هجا از گفتار که به‌وسیلهٔ تلفظِ شدیدترِ آن هجا صورت می‌گیرد «تکیه» نام دارد. در بسیاری از زبان‌ها، گاهی تفاوت محل تکیه در کلام منجر به تفاوت معنا می‌شود.

تشدید (Gemination): به ادای مضاعف برخی آواها، به‌ویژه صامت‌ها، در جاهای مشخص در کلمه یا در مرز کلمات در گروه‌ها و جملات، تشدید گفته می‌شود.

واج (Phoneme): واج کوچک‌ترین بخش گفتار است و جایگزینی آن با واجی دیگر تفاوت معنایی ایجاد می‌کند. مانند آ، ب، پ، …،ن، و، ه، ی. مجموعه‌ای از آواها است که می‌تواند یک واژه را از واژه دیگر متمایز کند. برای مثال، در انگلیسی الگوهای صدایی /sɪn/ (sin) و /sɪŋ/ (sing) دو واژه متفاوت هستند که با جایگزینی یک واج /n/ با واج /ŋ/ از هم متمایز می‌شوند. کلماتی مثل این‌ها که تفاوت معنایی‌شان از طریق تضاد فقط در یک واج ایجاد می‌شود، جفت حداقلی نامیده می‌شوند. به کمک واج، تکواژ ساخته می‌شود(یک یا چند تکواژ یک واژه را می‌سازند). در زبان فارسی ۲۹ واج وجود دارد که به دو دستهٔ واکه(مصوت) (۶ واج) و همخوان(صامت) (۲۳ واج) تقسیم می‌شوند.

صامت (consonant): واج‌هایی که برای تولیدشان در دهان نیاز به انسداد یا مانع باشد، صامت می‌گویند. صامت‌ها آغاز و پایان هجا را می‌سازند.

مصوت (vowel): واج‌هایی که بدون مانع در برابر جریان هوا در دهان ساخته می‌شوند را مصوت یا واکه می‌نامند. در تمام زبان‌ها، مصوت‌ها هسته یا اوج هجا را می‌سازند. مصوّت‌ها در زبان فارسی شش مورد هستند؛ مصوت‌های بلند (آ - او - ای) و مصوت های کوتاه (فتحه، کسره، ضمه). این مفهوم که کیفیت مصوت ها اساساً با موقعیت زبان و گرد کردن لب تعیین می شود همچنان در آموزش استفاده می شود، زیرا توضیحی شهودی از نحوه تمایز مصوت ها ارائه می دهد.

بلندیِ مصوت: به‌معنی میزان بازشدگی دهان در حین ایجاد مصوت گفته می‌شود.

برگشتیِ مصوت: برگشتی مصوت به‌معنی محل قرارگیری زبان نسبت به پشت زبان است

گِردشدگی مصوت: به‌معنی حالت لب‌ها هنگام ایجاد مصوت است.

خیشومی‌شدگی (Nasalization): به تولید یک آوا در حالی که زبان کوچک دهان پایین می‌آید تا بخشی از هوا از طریق خیشوم خارج شود، گفته می‌شود. به بیان دیگر، تولید صدایی در حین پایین آمدن پرده، به طوری که در حین تولید صدا توسط دهان، مقداری هوا از بینی خارج شود. این پارامتر میزان تودماغی شدن صدا را مشخص میکند.

صامت خیشومی (Nasal consonant): به صامتی گفته می‌شود که هنگام تولید آن حفره دهان بسته می‌شود و جریان هوا از طریق بینی خارج می‌شود.

مصوت خیشومی (Nasal vowel): مصوتی است که از طریق پایین آمدن نرم‌کام (بافت نرمی است که بخش عقب سقف دهان را تشکیل می‌دهد) با خارج‌کردن هوا از طریق بینی، تولید می‌شوند. در اصطلاح عام، به این آواها «تودماغی» گفته می‌شود.

مونو (mono): به صدای تک کانال گفته می‌شود که ممکن است توسط یک میکروفن، یا توسط چند میکروفون ضبط و سپس در یک کانال صدا گنجانده شده باشد. صدا تنها از یک نقطه پخش می‌شود و یا صدای تمام منابع صوتی یکسان است. برای پخش صدای مونو تنها یک بلندگو ضروری است و اگر چند بلندگو استفاده شود، تنها همان صدا از هر بلندگو پخش می‌شود، برخلاف صدای استریو (دو کاناله) و صدای ساراند (چند کاناله). به دلیل اینکه صدای مونو در مقایسه با صدای استریو پنجاه درصد کم‌تر از پهنای باند استفاده می‌کند، از آن به طور گسترده‌ای در ارتباطات رادیویی و مخابراتی مثل تلفن و بی‌سیم که بیشتر کلام و افکت صوتی انتقال می‌یابد، استفاده می‌شود. استفاده از این نوع صدا برای ساخت پادکست، رادیو اینترنتی و هر محتوای کلامی، به همان دلیل ذکر شده توصیه می‌شود.

استریو (stereo): از شیوه‌های بازتولید صدا است که برای شنونده توهمی از ژرف‌نمایی شنیداری ایجاد می‌کند. این کار معمولاً با استفاده از دو یا چند کانال صوتی مستقل از طریق پیکربندی دو یا چند بلندگو (یا هدفون) انجام میشود، به نحوی که به نظر می‌رسد صدا از جهات مختلف منتشر می‌شود و شنونده به صورت طبیعی صدا را به صورت چند بعدی می‌شنود. در این شیوه در هنگام ضبط از دو میکروفون برای ضبط هر یک از خطوط صدا (چپ و راست) استفاده می‌شود. هر یک از خطوط به صورت مجزا ضبط می‌شود و همین خطوط در هنگام پخش از باند خود (چپ یا راست) پخش می‌گردد. این شیوه اصلی‌ترین روش ضبط صدای استریو است و به حقیقت بسیار نزدیک تر است. با پیشرفت تکنولوژی، روش‌های جدیدی جهت ایجاد بُعد برای صدا توسط نرم‌افزارهای کامپیوتری ایجاد شده‌است که در هنگام ساخت صدا در نرم‌افزار، با تعیین جهت برای صدا، نرم‌افزار به صورت خودکار، ۲ خط چپ و راست صدا را ایجاد می‌کند و بدین صورت حالت ۳ بعدی را برای صدا ایجاد می‌کند.

شدت صوت (sound intensity): شدت صدا یا شدت صوت که با نام شدت آکوستیکی نیز شناخته می‌شود،انرژی حمل شده توسط امواج صوتی بر واحد سطح تعریف می‌شود. یک کاربرد اصلی آن، اندازه میزان نویز در هوا برای گوش یک شنونده است.

طول مصوت (vowel length): به دیرشِ (duration) یک مصوت اطلاق می‌شود. طول یا کشش مصوت، طول درک شده‌ی یک صدای مصوت است. در برخی از زبان‌ها طول واکه یک عامل واجی مهم است، به این معنی که طول مصوت می‌تواند معنای کلمه را تغییر دهد.

چاکنای (Glottis): دهانه یا مدخلِ نای است که پرده‌های صوتی در آن قرار دارند. به تعریفِ زبان‌شناختی، چاکنایْ فاصلهٔ میانِ پرده‌هایِ صوتی است. چاکنای نقش مهمی در تولید اصوات دارد. به صامتی که با انسداد یا سایش در چاکنای تولید شود را صامت چاکنایی می‌گویند.

جایگاه تولید (place of articulation): واجگاه یا مخرج حروف یا جایگاه تولید، یکی از معیارهای اساسی در دسته‌بندی آواهای گفتار است. در آواشناسی تولیدی، جایگاه تولید به نقطه‌ای اشاره دارد که در آن اندام‌های گفتار انواع مختلف آواهای صامت را ایجاد می‌کنند. آواشناسی امروزی ۱۱ نقطه مجزا را در اندام گفتار شناسایی می‌کند: دولبی، لبی‌دندانی، دندانی، لثوی، برگشته، لثوی‌کامی، کامی، نرمکامی، زبانکی، حلقی و چاکنایی.

شیوه تولید (Manner of articulation): یکی از پارامترهای اصلی طبقه‌بندی آواها در آواشناسی تولیدی است که به نوع فرایند به کار رفته در تولید آوا می‌پردازد. تمایز میان مصوت و صامت معمولاً از طریق این پارامتر انجام می‌پذیرد.

تکواژ (Morpheme): تکواژها از به‌هم‌پیوستن واج‌ها (کوچکترین بخشهای گفتار) ساخته می‌شوند و تکواژها را نمی‌توان به واحدهای دستوری کوچک‌تر بخش کرد.

آوا (Phone): به هر صدا (در زبانهای گفتاری) یا ژستی (در زبانهای اشاره‌ای) گویند که متمایز و قابل شناسایی از سایر صداها یا ژست‌های موجود در آن زبان باشد.

واجگونه (allophone): به هریک از گونه‌های مجزای یک واج در یک زبان مشخص، واجگونه گفته میشود. آلوفون یکی از چند صدای گفتاریِ ممکن یا آواهای ممکن است، که برای تلفظ یک واج واحد در یک زبان خاص استفاده می‌شود. آلوفون ها، sound هستند، در حالی که واج مجموعه ای از این soundها هستند.

سگمنت یا قطعه (Segment): در زبان‌شناسی، به هر واحد مجزایی گفته می‌شود که می‌تواند چه به طور فیزیکی و چه به طور شنیداری در جریان گفتار تشخیص داده شود. می‌تواند با اصطلاح آوا هم‌معنی باشد.

صوت یا صدا(Sound): در فیزیک، صدا ارتعاشی است که به صورت موج آکوستیکی از طریق یک رسانه انتقال (رسانا) مانند گاز، مایع یا جامد منتشر می‌شود. در فیزیولوژی و روانشناسی انسان، صوت عبارت است از دریافت این گونه امواج و درک آنها توسط مغز. تنها امواج صوتی که فرکانس‌هایی بین 20 هرتز تا 20 کیلوهرتز دارند، در محدوده فرکانس صوتی، درک شنوایی را در انسان ایجاد می‌کنند. امواج صوتی بالای 20 کیلوهرتز به عنوان اولتراسوند (ultrasound) شناخته می شوند و برای انسان قابل شنیدن نیستند. امواج صوتی زیر 20 هرتز به عنوان اینتراسوند یا مادون صوت (infrasound) شناخته می شوند. امواج صوتی اغلب برای توصیف از نظر امواج صفحه سینوسی ساده می شوند که با این ویژگی های عمومی مشخص می شوند: فرکانس و طول موج، دامنه، فشار یا شدت صدا، سرعت صوت و جهت. در هوا در دما و فشار استاندارد، طول موج متناظر امواج صوتی از 17 متر (56 فوت) تا 17 میلی متر (0.67 اینچ) متغیر است.

انسایشی (Affricate): اصطلاحی در آواشناسی تولیدی است که به شیوه تولید یک آوا اشاره دارد و در تولید آن جریان هوا ابتدا با یک انسداد مواجه می‌شود و سپس با بازشدن تدریجی بست جریان هوا با اصطکاک خارج شده و آوای انسایشی را نتیجه می‌دهد.

صامت سایشی (Fricative consonant): نامی برای دسته‌بندی روش ساخت آوای یک صامت است. در تولید یک صامت سایشی با نزدیک شدن اندامهای گفتار به یکدیگر، شکافی باریک در مجرای گفتار شکل میگیرد که جریان هوا به دشواری از میان این شکاف گذشته و با ساییدگی (سایش) هوا با اندامهای گفتار صامت سایشی تولید شود. آشفتگی هوا در پشت این شکاف، صدای هیس‌مانندی تولید میکند که از مشخصه‌های صامتهای سایشی است. سایشی‌های کاربردی در زبانهای گوناگون اینهایند: /f/, /v/, /s/, /z/, /θ/, /ð/, /X/ و /ɤ/.

صامت حلقی (Pharyngeal consonant): یک صامت است که جایگاه تولید اصلی آن در حلق است. در زبان عربی همخوان‌های «ع» و «ح» حلقی هستند. در زبان انگلیسی ازین نوع صامت نداریم.

انسدادی یا انفجاری (Plosive): یک صامت ریوی (تنفسی) است که در آن مجرای صوتی مسدود می شود به طوری که تمام جریان هوا متوقف می شود. انسداد ممکن است با نوک یا تیغه زبان ([t]، [d])، بدن زبان ([k]، [ɡ])، لب‌ها ([p]، [b]) یا گلوت ([ʔ]) ایجاد شود.

واک (voice): در زبانشناسی اصطلاحی در طبقه‌بندی آواهای گفتار است که به لرزش پرده‌های صوتی در تولید یک واج اشاره دارد. حروفی را که تولیدشان با لرزش تارآواها همراه است «حروف واکدار» یا «حروف آوایی» می‌گویند

توجه: {به مرور تکمیل خواهد شد}

زبان فارسیصداسیگنالزبان انگلیسیگفتار

آرمان پرناک

شاید از این پست‌ها خوشتان بیاید