خواندن ۲ دقیقه·۴ سال پیش

درک محتوای صوتی با استفاده از داده‌های بصری

صوت (صدا)، یکی از مهم‌ترین حالات انرژی و علاوه بر آن یکی از عوامل مهم در برقراری ارتباط میان ما، انسان‌ها، و هم‌چنین سایر موجودات می‌باشد. اما با وجود این مقدار اهمیت صوت در زندگی و تعاملات روزمره ما و با وجود پیشرفت‌های فعلی، کامپیوتر‌ها و تکنولوژی امروزه هنوز توانایی درک کامل محتوای معنایی صوت را ندارند. پردازش صدا، حوزه‌ای است که در تلاش است با ارائه روش‌های مناسب و بهینه، این امر را محقق کند.

یکی از مسائل مهم در این حوزه، مساله تشخیص خودکار گفتار می‌باشد.
در این مساله، به دنبال راه‌حلی برای تبدیل صوت ورودی دارای گفتار، به متن هستیم. راه‌حل‌های یافت‌شده برای این مساله، در شرایطی که گفتار ورودی واضح باشد، به نسبت خوب عمل می‌کند اما در صورت وجود نویز در ورودی عملکرد این روش‌ها شاهد افت خواهد بود.

در جهت حل این مشکل، دو راه‌حل زیر مطرح شده‌اند:

تقویت گفتار و صوت
استفاده از داده‌های بصری علاوه بر گفتار

در این مقاله، ما شاهد راه‌حلی مبتنی بر رویکرد دوم هستیم. یکی از شهود مهم در جهت عملکرد مثبت این رویکرد، مکانیزم طبیعی تشخیص گفتار در انسان می‌باشد که علاوه بر استفاده از سیستم شنیداری برای درک صوت و گفتار، با نگاه به حرکت لب‌های گوینده، تلاش می‌کند تا در صورت عدم درک قسمتی از گفتار فرد، آن را حدس بزند.

درک گفتار و محتوای صوتی با استفاده از داده‌های بصری

مدل ارائه‌شده در این مقاله، نسبت به دیگر مقالات ارائه شده دارای دو نکته برجسته می‌باشد:

استفاده از یک بازنمایی کلی مبتنی بر صوت و تصویر
یادگیری با رویکرد خود-ناظر و نیمه-ناظر

این در حالی است که غالب روش‌های ارائه‌شده برای حل این مساله، مبتنی بر یادگیری نظارت‌شده بوده است. برتری روش‌های خود-ناظر نسبت به روش‌های نظارت‌شده، عملکرد بهتر در موقعیت‌هایی است که داده‌های برچسب‌گذاری‌شده به میزان کافی وجود نداشته باشد. مدل‌های مبتنی بر یادگیری نظارت‌شده، محدود به تعداد داده‌های برچسب‌گذاری‌شده می‌باشند و تنها در صورتی می‌توانند عملکرد بهتری داشته باشند که حجم داده برچسب‌گذاری‌شده بیشتری را در فرایند آموزش استفاده کرده باشند.

برای بررسی کامل این مقاله خواندنی و جذاب می‌توانید از این لینک اقدام کنید.