بسامد (frequency): تعداد حرکت نوسانی را در مدت زمانی معین، بسامد (فرکانس)گویند. هر حرکت کامل نوسانی، تناوب نامیده میشود.در بحث اندازهگیری، هرتز برابر با تعداد نوسان بر ثانیه است. هر قدر بسامد صدا بیشتر باشد (یعنی حرکت ارتعاشی تندتر باشد) صدای حاصل، «زیر»تر شنیده میشود و هر قدر بسامد صدا کمتر باشد، گوش صدا را بم تر خواهد شنید. گوش انسان قادر نیست صداهای خیلی بم (از 20هرتز کمتر) و صداهای خیلی زیر (از 20000 هرتز بیشتر) را بشنود. نُت های سمت راست پیانو، نُت های با فرکانس بالا (یا در واقع صدای زیر) هستند و نُت های سمت چپ پیانو دارای فرکانس پایین (یا درواقع صدای بم) هستند.
طول موج (wavelength): رابطه عکس با فرکانس دارد. صداهای با فرکانس بالا، طول موج کمتری دارند. جسم مرتعش هر تناوب کامل را در مدت زمانی مشخص انجام می دهد. از آنجا که اندازه گیری این زمانِ کوتاه (حداکثر 20/1 ثانیه) عملاً بسیار دشوار است، معمولاً واحد زمان ارتعاش را روی یک نوار که با سرعت یکنواخت و دقیقاً حساب شده، از کنار جسم می گذرد، به واحد طول محاسبه می کنند. طول موج را با واحد متر اندازه می گیرند.
دامنه (amplitude): حداکثر مسافتی که جسم مرتعش از نقطه تعادل خود (در وسط) به دو طرف (اوج یا حضیض) طی می کند، تاثیر احساسی دامنه شدت و ضعف صدای حاصل است؛ هر چه دامنه صدا بلندتر باشد، صوت شدیدتر و هر چه کوتاه تر باشد، صدا ضعیف تر (آهسته تر، کم صداتر) خواهد بود. در موسیقی یا علم فیزیک، به دامنه، شدت صدا هم گفته میشود.
فرکانس پایه یا فرکانس بنیادی (fundamental frequency): که اغلب به اختصار F0 نامیده میشود، پایینترین مولفه فرکانسی یک صدا یا شکل موج متناوب است و به عنوان هارمونیک اول نیز شناخته میشود. از نظر برهم نهی سینوسی ها، فرکانس بنیادی به معنای کمترین فرکانس سینوسی در مجموع فرکانس های مرتبط هماهنگ یا فرکانس اختلاف بین فرکانس های مجاور است. در حوزه گفتار، نشانگرِ میزان ارتعاشات تارهای صوتی بوده و میزان درک صدای فرد را تعیین میکند به بیان دیگر، از نظر صدا و موسیقی، فرکانس پایه پایینترین میزان در یک صدا است و سطحی را که ما درک می کنیم تعیین می کند. فرکانس پایه، مسئول ایجاد کیفیت موسیقایی یا آهنگی درک شده یک صدا است. بسامد پایه در مدت زمان تولید گفتار، الگوی آهنگ را تشکیل میدهد. میانگین بسامد پایه در طی مکالمه در مردان بین ۱۰۰ تا ۱۵۰ هرتز و در زنان بین ۱۸۰ تا ۲۵۰ هرتز است.
پوش طیفی (spectral envelope): شکلِ طیفِ قدرتِ صدا است. پوش طیفی یک نشانه مهم برای شناسایی منابع صوتی مانند صداها یا سازها و کلاسهای خاصی از صداها مانند مصوتها است.
ساختار ظریف (fine structure): به تغییر شکل موج در نرخهای نوسان بین 600 هرتز و 10000 هرتز اشاره دارد. ساختار ظریف اطلاعاتی در مورد طیف صدا از جمله الگوهای فرمانت میدهد.
فرمانت یا سازند یا تمرکز انرژی صوتی (Formant): فرمانت ها، پیکهای فرکانسی در طیف (نقاط ماکزیمم نمودار طیف فرکانسی سیگنال) هستند که دارای درجه بالایی از انرژی میباشند. به بیان دیگر، سازند یا بسامدهای تولید شده توسط موج صوتی، یک متغیر آکوستیکی است که در مجرای گفتار تشدید و بازآوایی میشود و در توصیف مصوت ها و صامت هایی که منبع آن ها واک است مورد بررسی قرار میگیرند. سازندها حاوی اطلاعات زبانی هستند بطوریکه فرمانت اول (میزان بازبودن حفره دهان)، فرمانت دوم (موقعیت زبان در مجرای دهان) و فرمانت سوم (میزان گردشدگی لب ها) را مشخص میکنند. سازند در طیفنگاشت بهصورت نوارهای افقی تیره دیده میشود و تأثیر شکل مجرای گفتار در جریان هوا را نشان میدهد. سازندها در بررسی و تشخیص آواهای صدادار و بی صدا اهمیت زیادی دارند. هر حرف صدادار دارای سازند مشخصیست( آنها به ویژه در مصوتها برجسته هستند). هر فرمانت مربوط به یک رزونانس در مجرای صوتی است (به طور کلی، طیف به ازای هر 1000 هرتز یک فرمانت دارد). فرمانتها را میتوان به عنوان فیلتر در نظر گرفت.
طیفنگاره (Spectrogram): نمایشی تصویری از چگالی طیفی بسامدهای یک سیگنال در زمانهای متفاوت است. چنانچه طیفنگاره، برای نمایش سیگنال شنیداری بهکار برده شود، به آن صدانگاره یا آوانما گفته میشود. طیفنگاره را میتوان با بهرهگیری از طیفسنج نوری، مجموعهای از فیلترهای میانگذر، تبدیل فوریه یا تبدیل موجک (که به آن اسکالوگرام نیز میگویند)، ایجاد کرد. طیفنگاره معمولاً به صورت یک نقشه گرمایی، یعنی نگارهای که در آن شدت، با تغییر رنگ یا روشنایی نشان داده میشود.
دوره بنیادی( fundamental period) : دوره بنیادیِ یک سیگنال، کوچکترین دورهای است که کل سیگنال در طی آن تکرار میشود.
وضوح فرکانسی (frequency resolution): به توانایی تمایز بین فرکانسهای مختلف در یک سیگنال اشاره دارد. وضوح فرکانس بالاتر امکان شناسایی دقیقتر فرکانسهای مجزا را فراهم میکند. در زمینه پردازش سیگنال یا آنالیز طیفی، وضوح فرکانس یا رزولوشن فرکانسی اغلب با تبدیل فوریه گسسته (DFT) یا تبدیل فوریه سریع (FFT) مرتبط است، که معمولاً از یک سری تکنیک جهت تجزیه و تحلیل محتوای فرکانس سیگنال استفاده میشود. هنگام اعمالDFT یا FFT به سیگنال، وضوح فرکانس با تعداد نمونهها یا نقاط داده استفاده شده در آنالیز تعیین میشود. وضوح فرکانس با طول مدت سیگنال آنالیز شده نسبت معکوس دارد. این بدان معنی است که با افزایش مدت زمان سیگنال، وضوح فرکانس بهبود می یابد و امکان اندازه گیری دقیق فرکانس را فراهم می کند. برعکس، طول مدت سیگنال کوتاهتر منجر به وضوح فرکانس ضعیفتر میشود و تمایز بین فرکانسهای نزدیک به هم را به چالش میکشد. این به این دلیل است که یک پنجره زمانی طولانی تر، نقاط داده بیشتری را برای تجزیه و تحلیل فراهم می کند، که منجر به شبکه فرکانس ظریف تری در تبدیل فوریه می شود، که برای تجزیه و تحلیل محتوای فرکانس سیگنال ها استفاده می شود. دقت شود که بهبود وضوح فرکانس به معنای کاهش عرض هر bin فرکانس است که امکان تمایز دقیق بین فرکانس ها را فراهم می کند. بنابراین، وقتی میگوییم وضوح بهبود مییابد، منظور این است که اندازهگیری دقیقتر میشود، با یک مقدار عددی کوچکتر برای عرض هر bin فرکانسی.
از نظر ریاضی، وضوح فرکانس (Δf) را می توان به صورت متقابل کل مدت زمان(T) سیگنال مورد تجزیه و تحلیل محاسبه کرد: Δf = 1 / T. این بدان معنی است که هر چه مدت زمان کل سیگنال بیشتر باشد، وضوح فرکانس کمتر است و بالعکس. در عمل، وضوح فرکانس سطح جزئیات را در تحلیل فرکانس تعیین میکند.
گام یا زیر و بمی یا نواک (pitch): به فرکانس پایهی درک شده از صدای یک فرد اشاره دارد. این یک ویژگی ادراکی از صدا است که با احساس بالا بودن یا کم بودن یک تُن مطابقت دارد. گام در درجه اول توسط میزان ارتعاشات تارهای صوتی تعیین میشود که تحت تأثیر کشش و طول تارهای صوتی است. کشش بیشتر و طول کوتاهتر منجر به گام بیشتر میشود، در حالی که کشش کمتر و طول بیشتر باعث ایجاد گام کمتر میشود. معمولاً صدای با فرکانس بیشتر (مانند صدای زنان) را بالا (زیر) و صدای با فرکانس کمتر (مانند صدای مردان) را پایین (بَم) مینامند. طول تارهای صوتی در زنان کوچکتر از مردان است. هر چه طول تارهای صوتی کوتاه تر باشد، صدا زیرتر است. در ساز سنتور، سیم های کوتاه تر (سبک تر)، زیرتر و سیم های بلندتر (سنگین تر) بم تر صدا می دهند. زیر و بمی صدا رابطهٔ نزدیکی با فرکانس دارد اما این به معنای مساوی بودن این دو مفهوم نیست. فرکانس یک مفهوم علمی است که قابل اندازهگیری است در حالی که زیر و بمی ادراک شخصی هر فرد از موج صداست که بهطور مستقیم قابل اندازهگیری نیست. گام، جنبههای آهنگین گفتار را به تصویر میکشد، از جمله افزایش و کاهش الگوهای زیر و بمی که به کیفیتهای بیانی و ارتباطی زبان گفتاری کمک میکند. گام، اطلاعاتی را در مورد احساسات، مقاصد و ویژگیهای زبانی گوینده منتقل میکند. همچنین برای تمایز بین سؤالات و گزارهها، تأکید، و حتی انتقال جنبه های خاصی از هویت گوینده، مانند جنسیت یا سن، استفاده میشود.
لحن یا تُن (tone): به کیفیت یا ویژگی کلی صدای یک فرد اشاره دارد. جنبههای مختلفی از جمله گام صدا (pitch)، آهنگ صدا (intonation )، طنین یا رنگ صدا ( timbre) و احساس را در بر می گیرد. میتواند طیفی از احساسات، از جمله شادی، غم، عصبانیت یا تعجب را منتقل کند. همچنین به انتقال مقصود گوینده کمک میکند، مانند بیان سوال، فرمان یا کنایه. لحن، فراتر از کلماتی که صرفاً استفاده می شوند، به زبان گفتاری غنا و ظرافت می بخشد.
طنین یا رنگ صدا (timbre): به کیفیت یا رنگ منحصر به فرد صدای یک فرد اشاره دارد که آن را از دیگران متمایز می کند. رنگ صدا، تحت تأثیر عوامل مختلفی از جمله شکل و اندازه مجرای صوتی، پیکربندی تارهای صوتی و حرکات مفصلی درگیر در تولید صداهای گفتاری قرار می گیرد. رنگ صدا اغلب با استفاده از عباراتی مانند "خیشومی" (تودماغی) (nasal )، "تنفسی(توام با صدای تنفس) (breathy )"، "خشک"( raspy )(خش دار) (صدای گرفته)، "صاف" یا "غنی" توصیف میشود.
آهنگ یا طرز قرائت (intonation): به تغییرات زیر و بمی(pitch)، ملودی و الگوهای خطوطی که در یک گفته رخ میدهد اشاره دارد؛ شامل بالا رفتن و پایین آمدن گام در طول گفتار برای انتقال معنی، بیان احساسات و انتقال اطلاعات دستوری است. به عبارت کوتاهتر، بالا و پایین رفتن صدا یا لحن آوازی در گفتار، آهنگ نامیده میشود. در زبان انگلیسی چهار نوع intonation وجود دارد:
الف) Rising Intonation
ب) Falling Intonation
ج) Rising-Falling Intonation
د) Falling-Rising Intonation
آهنگ، نقش مهمی در ارتباط دارد زیرا به انتقال مقاصد، نگرش ها و احساسات گوینده کمک میکند. آهنگ صدا می تواند نشان دهد که یک عبارت یک سوال، یک بیانیه یا یک دستور باشد. تغییرات در آهنگ همچنین میتواند اطلاعات مهم را برجسته کند، بر کلمات یا عبارات خاصی تأکید کند، یا طعنه یا کنایه را منتقل کند.
نوا (Prosody): منعکس کننده ویژگی های عاطفی ظریف گوینده است؛ شامل حالت عاطفی آشکار یا پنهان، شکل بیان (گزاره، سؤال یا فرمان)، کنایه، تأکید خاص بر کلمات یا تکواژها، تضاد و تمرکز؛ به بیان دیگر، این مفهوم به ریتم، تکیه(stress) و آهنگ گفتار (intonation)، زيروبم کردن صدا و لحن گفتار اشاره دارد که باعث تلفظ و برداشت مفهومهاي مختلفی از گفتار میشود. به اشاره دارد. در حوزه سنتز گفتار، نوا يکی از فاکتورهای اصلی برای به دست آوردن يک گفتار سنتز باکیفیت زياد میباشد. نوا، عناصر زبان را نشان می دهد که توسط دستور زبان، علائم نگارشی یا انتخاب واژگان انکد نشده اند. از نظر شنیداری، متغیرهای نوایی عبارتند از: زیر و بمی صدا (pitch) (متغیر بین کم و زیاد)، طول صداها (متغیر بین کوتاه و بلند)، بلندی (loudness)، کیفیت timbre(کیفیت صدا). از نظر آکوستیک، متغیرهای نوایی عبارتند از: فرکانس پایه، مدت زمان (duration)، شدت یا سطح فشار صدا (بر حسب دسیبل)، ویژگی های طیفی (توزیع انرژی در قسمت های مختلف محدوده فرکانس قابل شنیدن).
فرکانس نایکوئیست (Nyquist frequency): که به افتخار مهندس هری نایکویست نامگذاری شده است، یک مفهوم مهم در پردازش سیگنال دیجیتال و تئوری نمونه برداری بوده و نشان دهنده حداکثر فرکانسی است که می تواند به طور دقیق در یک سیگنال دیجیتالی نمایش داده شود. با توجه به قضیه نمونهبرداری نایکویست-شانون، برای بازسازی دقیق یک سیگنال زمان پیوسته از نسخه نمونهبرداری شده آن، نرخ نمونهبرداری (sampling rate) باید حداقل دو برابر بالاترین مولفه فرکانس موجود در سیگنال باشد. بنابراین فرکانس Nyquist ، نصفِ نرخ نمونه برداری است و حداکثر فرکانس را نشان می دهد( f_Nyquist = 0.5 * f_sampling. که f_sampling نرخ نمونه برداری است). نرخ نمونه برداری پایین (زیر Nyquist) منجر به aliasing شده و مولفه های فرکانس بالا به عنوان مولفه های پایین تر ظاهر می شوند. این از دست دادن اطلاعات می تواند مانع از تجزیه و تحلیل ناهماهنگی های ظریف در طیف صوتی شود. فرکانس نایکوئیست در صداهای دیجیتال، مخابرات و سایر زمینه هایی که سیگنال های آنالوگ به شکل دیجیتال تبدیل می شوند، مهم است و حد بالایی محدوده فرکانسی را که می تواند در حوزه دیجیتال بدون از دست دادن اطلاعات نمایش داده شود، تعریف می کند. برای بازتولید دقیق یک سیگنال، نرخ نمونه برداری باید به طور مناسب انتخاب شود تا معیار Nyquist را برآورده کند بنابراین به طور خلاصه، نمونهبرداری نایکوئیست، حداقل نرخ نمونهگیری را برای جلوگیری از از دست دادن اطلاعات تنظیم میکند.
نرخ نمونهبرداری (sampling rate): تعداد نمونهای که در هر ثانیه از سیگنال گرفته میشود، نرخ نمونهبرداری گویند. در واقع به نمونه برداری افقیِ سیگنال، نرخ نمونهبرداری گفته میشود. سعی میکنند نرخ نمونه برداری رو عددی در نظر بگیرند که کیفیت مناسبی برای شنیدار انسان داشته باشد.
نرخ بیت یا عمق بیت (Bit depth) (Bit rate): به نمونهگیری عمودیِ سیگنال، نرخ بیت گفته میشود. مثلاً وقتی میگویند صدا را 16 بیت ضبط کردند، یعنی دو به توان 16 مقدار (معادل65536 مقدار) روی محور عمودی در نظر گرفته میشود. وقتی نرخ نمونهبرداری و نرخ بیت را زیاد در نظر میگیریم، یعنی داریم به صدای واقعی تر و باکیفیت تر نزدیک تر میشویم.
فرآیند آنالیز گفتار: شامل چندین مرحله برای تجزیه و تحلیل و استخراج اطلاعات مربوطه از سیگنال های گفتاری است. توضیح گام به گام از این فرآیند بدین شرح است: 1)جمع آوری داده ها: اولین قدم جمع آوری داده های گفتاری است. این می تواند شامل ضبط گفتار با استفاده از میکروفون یا به دست آوردن صداهای ضبط شده از قبل موجود از یک پایگاه داده باشد. داده ها باید نماینده گفتاری باشد که می خواهید تحلیل کنید. 2) پیش پردازش: پیش پردازش برای افزایش کیفیت سیگنال گفتار و حذف هر گونه نویز یا مصنوعات ناخواسته انجام می شود. ممکن است شامل فیلتر کردن سیگنال، حذف نویز پس زمینه یا نرمال سازی دامنه سیگنال باشد. 3)فریمبندی: سیگنال گفتار به فریمها یا بخشهای کوچکتر تقسیم میشود که معمولاً حدود 20 تا 30 میلیثانیه طول میکشد. این فریمها به گونهای انتخاب میشوند که ویژگیهای زمانی گفتار را به تصویر بکشند و اطمینان حاصل کنند که سیگنال را میتوان در بازههای زمانی کوتاه آنالیز کرد. 4) استخراج ویژگی: در این مرحله از هر فریم سیگنال گفتار، ویژگی های صوتی مختلفی استخراج می شود. ویژگی های رایج عبارتند از: pitch، formantها، انرژی، مدت زمان (duration) و ویژگی های طیفی. 5) مدل سازی: پس از استخراج ویژگی ها، می توان از آنها برای ساخت مدل هایی استفاده کرد که جنبه های خاصی از گفتار را به تصویر می کشد.
تکیه (stress): تأکید روی یک هجا از گفتار که بهوسیلهٔ تلفظِ شدیدترِ آن هجا صورت میگیرد «تکیه» نام دارد. در بسیاری از زبانها، گاهی تفاوت محل تکیه در کلام منجر به تفاوت معنا میشود.
تشدید (Gemination): به ادای مضاعف برخی آواها، بهویژه صامتها، در جاهای مشخص در کلمه یا در مرز کلمات در گروهها و جملات، تشدید گفته میشود.
واج (Phoneme): واج کوچکترین بخش گفتار است و جایگزینی آن با واجی دیگر تفاوت معنایی ایجاد میکند. مانند آ، ب، پ، …،ن، و، ه، ی. مجموعهای از آواها است که میتواند یک واژه را از واژه دیگر متمایز کند. برای مثال، در انگلیسی الگوهای صدایی /sɪn/ (sin) و /sɪŋ/ (sing) دو واژه متفاوت هستند که با جایگزینی یک واج /n/ با واج /ŋ/ از هم متمایز میشوند. کلماتی مثل اینها که تفاوت معناییشان از طریق تضاد فقط در یک واج ایجاد میشود، جفت حداقلی نامیده میشوند. به کمک واج، تکواژ ساخته میشود(یک یا چند تکواژ یک واژه را میسازند). در زبان فارسی ۲۹ واج وجود دارد که به دو دستهٔ واکه(مصوت) (۶ واج) و همخوان(صامت) (۲۳ واج) تقسیم میشوند.
صامت (consonant): واجهایی که برای تولیدشان در دهان نیاز به انسداد یا مانع باشد، صامت میگویند. صامتها آغاز و پایان هجا را میسازند.
مصوت (vowel): واجهایی که بدون مانع در برابر جریان هوا در دهان ساخته میشوند را مصوت یا واکه مینامند. در تمام زبانها، مصوتها هسته یا اوج هجا را میسازند. مصوّتها در زبان فارسی شش مورد هستند؛ مصوتهای بلند (آ - او - ای) و مصوت های کوتاه (فتحه، کسره، ضمه). این مفهوم که کیفیت مصوت ها اساساً با موقعیت زبان و گرد کردن لب تعیین می شود همچنان در آموزش استفاده می شود، زیرا توضیحی شهودی از نحوه تمایز مصوت ها ارائه می دهد.
بلندیِ مصوت: بهمعنی میزان بازشدگی دهان در حین ایجاد مصوت گفته میشود.
برگشتیِ مصوت: برگشتی مصوت بهمعنی محل قرارگیری زبان نسبت به پشت زبان است
گِردشدگی مصوت: بهمعنی حالت لبها هنگام ایجاد مصوت است.
خیشومیشدگی (Nasalization): به تولید یک آوا در حالی که زبان کوچک دهان پایین میآید تا بخشی از هوا از طریق خیشوم خارج شود، گفته میشود. به بیان دیگر، تولید صدایی در حین پایین آمدن پرده، به طوری که در حین تولید صدا توسط دهان، مقداری هوا از بینی خارج شود. این پارامتر میزان تودماغی شدن صدا را مشخص میکند.
صامت خیشومی (Nasal consonant): به صامتی گفته میشود که هنگام تولید آن حفره دهان بسته میشود و جریان هوا از طریق بینی خارج میشود.
مصوت خیشومی (Nasal vowel): مصوتی است که از طریق پایین آمدن نرمکام (بافت نرمی است که بخش عقب سقف دهان را تشکیل میدهد) با خارجکردن هوا از طریق بینی، تولید میشوند. در اصطلاح عام، به این آواها «تودماغی» گفته میشود.
مونو (mono): به صدای تک کانال گفته میشود که ممکن است توسط یک میکروفن، یا توسط چند میکروفون ضبط و سپس در یک کانال صدا گنجانده شده باشد. صدا تنها از یک نقطه پخش میشود و یا صدای تمام منابع صوتی یکسان است. برای پخش صدای مونو تنها یک بلندگو ضروری است و اگر چند بلندگو استفاده شود، تنها همان صدا از هر بلندگو پخش میشود، برخلاف صدای استریو (دو کاناله) و صدای ساراند (چند کاناله). به دلیل اینکه صدای مونو در مقایسه با صدای استریو پنجاه درصد کمتر از پهنای باند استفاده میکند، از آن به طور گستردهای در ارتباطات رادیویی و مخابراتی مثل تلفن و بیسیم که بیشتر کلام و افکت صوتی انتقال مییابد، استفاده میشود. استفاده از این نوع صدا برای ساخت پادکست، رادیو اینترنتی و هر محتوای کلامی، به همان دلیل ذکر شده توصیه میشود.
استریو (stereo): از شیوههای بازتولید صدا است که برای شنونده توهمی از ژرفنمایی شنیداری ایجاد میکند. این کار معمولاً با استفاده از دو یا چند کانال صوتی مستقل از طریق پیکربندی دو یا چند بلندگو (یا هدفون) انجام میشود، به نحوی که به نظر میرسد صدا از جهات مختلف منتشر میشود و شنونده به صورت طبیعی صدا را به صورت چند بعدی میشنود. در این شیوه در هنگام ضبط از دو میکروفون برای ضبط هر یک از خطوط صدا (چپ و راست) استفاده میشود. هر یک از خطوط به صورت مجزا ضبط میشود و همین خطوط در هنگام پخش از باند خود (چپ یا راست) پخش میگردد. این شیوه اصلیترین روش ضبط صدای استریو است و به حقیقت بسیار نزدیک تر است. با پیشرفت تکنولوژی، روشهای جدیدی جهت ایجاد بُعد برای صدا توسط نرمافزارهای کامپیوتری ایجاد شدهاست که در هنگام ساخت صدا در نرمافزار، با تعیین جهت برای صدا، نرمافزار به صورت خودکار، ۲ خط چپ و راست صدا را ایجاد میکند و بدین صورت حالت ۳ بعدی را برای صدا ایجاد میکند.
شدت صوت (sound intensity): شدت صدا یا شدت صوت که با نام شدت آکوستیکی نیز شناخته میشود،انرژی حمل شده توسط امواج صوتی بر واحد سطح تعریف میشود. یک کاربرد اصلی آن، اندازه میزان نویز در هوا برای گوش یک شنونده است.
طول مصوت (vowel length): به دیرشِ (duration) یک مصوت اطلاق میشود. طول یا کشش مصوت، طول درک شدهی یک صدای مصوت است. در برخی از زبانها طول واکه یک عامل واجی مهم است، به این معنی که طول مصوت میتواند معنای کلمه را تغییر دهد.
چاکنای (Glottis): دهانه یا مدخلِ نای است که پردههای صوتی در آن قرار دارند. به تعریفِ زبانشناختی، چاکنایْ فاصلهٔ میانِ پردههایِ صوتی است. چاکنای نقش مهمی در تولید اصوات دارد. به صامتی که با انسداد یا سایش در چاکنای تولید شود را صامت چاکنایی میگویند.
جایگاه تولید (place of articulation): واجگاه یا مخرج حروف یا جایگاه تولید، یکی از معیارهای اساسی در دستهبندی آواهای گفتار است. در آواشناسی تولیدی، جایگاه تولید به نقطهای اشاره دارد که در آن اندامهای گفتار انواع مختلف آواهای صامت را ایجاد میکنند. آواشناسی امروزی ۱۱ نقطه مجزا را در اندام گفتار شناسایی میکند: دولبی، لبیدندانی، دندانی، لثوی، برگشته، لثویکامی، کامی، نرمکامی، زبانکی، حلقی و چاکنایی.
شیوه تولید (Manner of articulation): یکی از پارامترهای اصلی طبقهبندی آواها در آواشناسی تولیدی است که به نوع فرایند به کار رفته در تولید آوا میپردازد. تمایز میان مصوت و صامت معمولاً از طریق این پارامتر انجام میپذیرد.
تکواژ (Morpheme): تکواژها از بههمپیوستن واجها (کوچکترین بخشهای گفتار) ساخته میشوند و تکواژها را نمیتوان به واحدهای دستوری کوچکتر بخش کرد.
آوا (Phone): به هر صدا (در زبانهای گفتاری) یا ژستی (در زبانهای اشارهای) گویند که متمایز و قابل شناسایی از سایر صداها یا ژستهای موجود در آن زبان باشد.
واجگونه (allophone): به هریک از گونههای مجزای یک واج در یک زبان مشخص، واجگونه گفته میشود. آلوفون یکی از چند صدای گفتاریِ ممکن یا آواهای ممکن است، که برای تلفظ یک واج واحد در یک زبان خاص استفاده میشود. آلوفون ها، sound هستند، در حالی که واج مجموعه ای از این soundها هستند.
سگمنت یا قطعه (Segment): در زبانشناسی، به هر واحد مجزایی گفته میشود که میتواند چه به طور فیزیکی و چه به طور شنیداری در جریان گفتار تشخیص داده شود. میتواند با اصطلاح آوا هممعنی باشد.
صوت یا صدا(Sound): در فیزیک، صدا ارتعاشی است که به صورت موج آکوستیکی از طریق یک رسانه انتقال (رسانا) مانند گاز، مایع یا جامد منتشر میشود. در فیزیولوژی و روانشناسی انسان، صوت عبارت است از دریافت این گونه امواج و درک آنها توسط مغز. تنها امواج صوتی که فرکانسهایی بین 20 هرتز تا 20 کیلوهرتز دارند، در محدوده فرکانس صوتی، درک شنوایی را در انسان ایجاد میکنند. امواج صوتی بالای 20 کیلوهرتز به عنوان اولتراسوند (ultrasound) شناخته می شوند و برای انسان قابل شنیدن نیستند. امواج صوتی زیر 20 هرتز به عنوان اینتراسوند یا مادون صوت (infrasound) شناخته می شوند. امواج صوتی اغلب برای توصیف از نظر امواج صفحه سینوسی ساده می شوند که با این ویژگی های عمومی مشخص می شوند: فرکانس و طول موج، دامنه، فشار یا شدت صدا، سرعت صوت و جهت. در هوا در دما و فشار استاندارد، طول موج متناظر امواج صوتی از 17 متر (56 فوت) تا 17 میلی متر (0.67 اینچ) متغیر است.
انسایشی (Affricate): اصطلاحی در آواشناسی تولیدی است که به شیوه تولید یک آوا اشاره دارد و در تولید آن جریان هوا ابتدا با یک انسداد مواجه میشود و سپس با بازشدن تدریجی بست جریان هوا با اصطکاک خارج شده و آوای انسایشی را نتیجه میدهد.
صامت سایشی (Fricative consonant): نامی برای دستهبندی روش ساخت آوای یک صامت است. در تولید یک صامت سایشی با نزدیک شدن اندامهای گفتار به یکدیگر، شکافی باریک در مجرای گفتار شکل میگیرد که جریان هوا به دشواری از میان این شکاف گذشته و با ساییدگی (سایش) هوا با اندامهای گفتار صامت سایشی تولید شود. آشفتگی هوا در پشت این شکاف، صدای هیسمانندی تولید میکند که از مشخصههای صامتهای سایشی است. سایشیهای کاربردی در زبانهای گوناگون اینهایند: /f/, /v/, /s/, /z/, /θ/, /ð/, /X/ و /ɤ/.
صامت حلقی (Pharyngeal consonant): یک صامت است که جایگاه تولید اصلی آن در حلق است. در زبان عربی همخوانهای «ع» و «ح» حلقی هستند. در زبان انگلیسی ازین نوع صامت نداریم.
انسدادی یا انفجاری (Plosive): یک صامت ریوی (تنفسی) است که در آن مجرای صوتی مسدود می شود به طوری که تمام جریان هوا متوقف می شود. انسداد ممکن است با نوک یا تیغه زبان ([t]، [d])، بدن زبان ([k]، [ɡ])، لبها ([p]، [b]) یا گلوت ([ʔ]) ایجاد شود.
واک (voice): در زبانشناسی اصطلاحی در طبقهبندی آواهای گفتار است که به لرزش پردههای صوتی در تولید یک واج اشاره دارد. حروفی را که تولیدشان با لرزش تارآواها همراه است «حروف واکدار» یا «حروف آوایی» میگویند
توجه: {به مرور تکمیل خواهد شد}