صوت (صدا)، یکی از مهمترین حالات انرژی و علاوه بر آن یکی از عوامل مهم در برقراری ارتباط میان ما، انسانها، و همچنین سایر موجودات میباشد. اما با وجود این مقدار اهمیت صوت در زندگی و تعاملات روزمره ما و با وجود پیشرفتهای فعلی، کامپیوترها و تکنولوژی امروزه هنوز توانایی درک کامل محتوای معنایی صوت را ندارند. پردازش صدا، حوزهای است که در تلاش است با ارائه روشهای مناسب و بهینه، این امر را محقق کند.
یکی از مسائل مهم در این حوزه، مساله تشخیص خودکار گفتار میباشد.
در این مساله، به دنبال راهحلی برای تبدیل صوت ورودی دارای گفتار، به متن هستیم. راهحلهای یافتشده برای این مساله، در شرایطی که گفتار ورودی واضح باشد، به نسبت خوب عمل میکند اما در صورت وجود نویز در ورودی عملکرد این روشها شاهد افت خواهد بود.
در جهت حل این مشکل، دو راهحل زیر مطرح شدهاند:
در این مقاله، ما شاهد راهحلی مبتنی بر رویکرد دوم هستیم. یکی از شهود مهم در جهت عملکرد مثبت این رویکرد، مکانیزم طبیعی تشخیص گفتار در انسان میباشد که علاوه بر استفاده از سیستم شنیداری برای درک صوت و گفتار، با نگاه به حرکت لبهای گوینده، تلاش میکند تا در صورت عدم درک قسمتی از گفتار فرد، آن را حدس بزند.
مدل ارائهشده در این مقاله، نسبت به دیگر مقالات ارائه شده دارای دو نکته برجسته میباشد:
این در حالی است که غالب روشهای ارائهشده برای حل این مساله، مبتنی بر یادگیری نظارتشده بوده است. برتری روشهای خود-ناظر نسبت به روشهای نظارتشده، عملکرد بهتر در موقعیتهایی است که دادههای برچسبگذاریشده به میزان کافی وجود نداشته باشد. مدلهای مبتنی بر یادگیری نظارتشده، محدود به تعداد دادههای برچسبگذاریشده میباشند و تنها در صورتی میتوانند عملکرد بهتری داشته باشند که حجم داده برچسبگذاریشده بیشتری را در فرایند آموزش استفاده کرده باشند.
برای بررسی کامل این مقاله خواندنی و جذاب میتوانید از این لینک اقدام کنید.