كنترلرهای ترافیك هوایی نقش بسیار مهمی در راهنمایی و تشخیص هواپیماها در حریم هوایی و سطح فرودگاه دارند و مقدار قابل توجهی از مكالمات بین كنترلرها و خلبانان از طریق كانالهای رادیویی است. با توجه به این موضوع، رونویسی خودكار این مكالمات باعث بهبود امنیت سیستم و پیشرفت عملكردهای عملیاتی و نظارت بر انطباق اطلاعات میشود.
با این حال سیستمهای بازشناسی گفتار خودكاری كه تا به امروز پیشنهاد شده اند دقت لازم برای استفادههای عملی را دارا نبودهاند. عواملی مانند كانالهای رادیویی نویز دار، سرعت تكلم بالا و لهجههای متنوع چالشهایی را برای توسعه بازشناسی گفتار برای كنترلرهای ترافیك هوایی به وجود میآورند اما از سوی دیگر این مكالمات دارای واژگان خاص و مشخص و همینطور عبارتهای استانداردی هستند كه میتوان از آنها برای جهتدهی به الگوریتمها و تقویت آنها در این زمینه استفاده كرد.
جدید ترین مدلهای تشخیص گفتار خودكار، برای دامنه لغات وسیع، از مدلهای اچ ام ام استفاده كرده اند. اخیرا از مدلهای تركیبی اچ ام ام با مدلهای جی ام ام و یا شبكه های عصبی عمیق استفاده كرده اند و به تازگی، مدلهای سر به سر تشخیص گفتاری كه از شبكه های عصبی عمیق استفاده میكنند پیشرفت های قابل توجهی در افزایش دقت مدلهای تشخیص گفتار داشته اند.
یكی از مزایای كلیدی مدلهای سر به سر در مقابل راهكار های كلاسیك مانند مدلهایی كه بر پایه اچ ام ام هستند سهولت آموزش مدل است، زیرا آنها به خط لوله های پیچیده و مراحل پردازش فوق مهندسی شده نیاز ندارند. با وجود چندین تولكیت متن باز تشخیص گفتارخودكار محققان میتوانند مدلهای متنوعی را بر پایه مدلهای یادگیری عمیق نوشته و با آن تطبیق دهند.
دقت مدلهای تشخیص گفتار خودكار به میزان دادههای برچسبگذاری شده بستگی دارد. میزان دادههای صوتی رونوشت شده عرصه مكالمات خلبان در مقابل دیگر عرصههای تشخیص گفتار خودكار بسیار ناچیز است. پس برای حل این موضوع ما از روش نیمه نظارت شده استفاده میكنیم كه باعث كاهش بیست و پنج درصدی نرخ خطای كلمه میشود. همچنین محققان از مسیرهای هوایی پرواز نیز برای افزایش متن نوشته به مدلها استفاده كردهاند كه باعث كاهش پنجاه درصدی میزان خطای فرمان شد اما تغییر چشمگیری در میزان خطای كلمه حاصل نشد.
كارهای پیشین همچنین از فرهنگ لغت كوچكتری نسبت به بقیه عرصهها استفاده كردهاند تا بتوانند مدلهای زبانی بهتری را توسعه بدهند كه نتیجه این امر افزایش بیست درصدی دقت مدل را در پی داشته است.
در این مقاله ما مدل تشخیص گفتار خودكاری را توسعه میدهیم كه مكالمات خلبان با برج مراقبت را به صورت متن رونویسی میكند.
مدل پیشنهاد شده بر اساس ساختار سر به سر تشخیص گفتار به همراه یك شبكه عصبی عمیق است كه نسبت به مدلهای مرسومی كه بر پایه رویكردهای اچ ام ام هستند مزایایی را داراست. مدلهایی كه بر پایه اچ ام ام هستند متشكل از چندین ماژول مختلف ) مدل زبانی، مدل تلفظی، و غیره ( هستند كه هر ماژول به صورت جداگانه بهینهسازی میشود و تابعی كه این ماژول هارا مرتبط میكند لزوما بهینه بودن روابط را تضمین نمیكند.
در مقابل ، یك مدل سر به سر چندین ماژول متفاوت را فقط با یك شبكه عصبی عمیق جایگزین میكند كه بدون نیاز به تنظیم دستی پیشرفته حالات، نگاشت مستقیم سیگنالهای زبانی را به زنجیرهای از كاراكترها مقدور میسازد و همینطور آموزش یك مدل سر به سر بسیار آسانتر از روشهای مرسوم قدیمی است. علاوه بر آموزش مدل با رونوشتها ما دقت مدل را با آموزش انتقالی و تنظیم دقیق پارامترها كه از قبل بر روی دادههای زبان گفتاری آموزش داده شده اند مقایسه میكنیم.
برای بررسی این مقاله به سایت عصر گویش پرداز مراجعه کنید