خلاصه
تشخیص "گفتار" به عنوان خط اتصال کاربر در برنامه های جدید به طور پیوسته دیده می شود. با پیشرفت این تکنولوژی، روشهای جدیدی برای انسان فراهم می شود تا با ماشین ها و اطلاعات حاصل از آنها، ارتباط برقرار کنند. انجام این کار در بسیاری از حوزه ها، کاربران را به انتظارات خود نزدیکتر کرده است. اگر چه هنوز چالش های زیادی در مورد فناوری وجود دارد، ولی تشخیص گفتار به یک سطح تکامل یافته نیاز به در نظر گرفتن استقرار آن در سیستم ها و محیط های پیچیده دارد. به این ترتیب ما درباره سیستم هایی بحث می کنیم که ما را به اجرای موفقیت آمیز تشخیص گفتار برنامه نیروی XXI زمین جنگجو نزدیک می کند.
ما در مورد اجزای کنترل صدای سیستم در این برنامه بحث می کنیم. نیازمندی های مرتبط با قابلیت اطمینان، تشخیص و مسائل پیچیده محاسباتی به طور کامل در این بخش مورد توجه قرار گرفته است. ما به طور صریح جنبه های مختلف سیستم و نحوه تاثیر آنها بر روی خط اتصال کاربر و آشکار شدن پارامترهای کاربرد واقعی را پوشش می دهیم. در نهایت، اجرای یک طبقه بندی مبتنی بر چند جمله ای را برای تشخیص گفتار در نظر می گیریم و ارزیابی عملکرد نهایی سیستم را در حوزه پایگاه اطلاعاتی خاص، ارائه می دهیم.
1. مقدمه
برنامه توسعه ساختار مهندسی زمین جنگجو (EMD)، برنامه انقلابی ارتش برای توسعه و ایجاد یک سیستم مبارزه با سربازان کاملاً متحد است. این سیستم از فناوری های پیشرفته برای ارائه اثربخشی بی نظیر با ارائه قابلیت بهبود شناسایی، به دست آوردن، قرار دادن و درگیر کردن اهداف در محدوده های بیشتر در طول روز یا شب استفاده می کند. این سیستم یک سرباز منفرد را به میدان جنگ دیجیتالی می فرستد تا باعث بهبود ارتباطات بهتر و آگاهی موقعیتی شود.
هدف از برنامه نیروی جنگجویان زمینی XXI، این است که باعث سرعت ارتقای میدان فناوری پیشرفته به برنامه EMD مبارزه زمینی شود. این برنامه، تضمین کننده مزیت تکنولوژی جهانی برای سیستم های مبارزه جنگجویان پیاده است.
2. طراحی سیستم و رابط کاربر
نمودار بلوکی اجزای پایه SVC در شکل 2 نشان داده شده است. سرباز، یک دکمه را روی سلاح خود فشار می دهد تا سیستم شروع به شناسایی کند. یک میکروفون لغو سر و صدای نزدیک به صحبت کردن، فرمان سخن گفتن توسط A / D دیجیتالی را ضبط می کند. فرایندهای شناسایی کننده گفتار کاربر و پاسخ مناسب او، توسط سرباز کامپیوتری اجرا می شود.
3. ساختار طبقه بندی شده
در حال حاضر روش های طبقه بندی زیادی برای حل مشکل تشخیص گفتار مورد استفاده قرار می گیرد. به طور سنتی، از روشهای آماری برای مدل سازی نطق سخنرانان استفاده می شود؛ محبوب ترین رویکرد، مدل مخفی مارکوف (HMM) است. اخیراً، روشهای طبقه بندی مختلفی برای این مشکل اعمال شده است. به منظور ارائه بهترین عملکرد برای سیستم های تشخیص گفتار، این عملکردها شامل داده های خارج از کلاس در مرحله آموزش هستند. برای SVC، یک رویکرد بر اساس طبقه بندی چند جمله ای اجرا می شود.
4. سخنرانی پر صدا و استرس زا
برای اطمینان از اینکه SVC به طور قابل اعتماد برای سرباز پیاده انجام می شود، داده های مربوط به سر و صدای خاص از تمرینات آتش سوزی طبیعی مورد ارزیابی قرار می گیرد. منابع قابل توجه سر و صدا عبارتند از آتش وسیله نقلیه و اسلحه. تجزیه و تحلیل این داده ها (و اطلاعات سر و صدا مشابه از پایگاه داده NOISEX-92)، باعث درک ویژگی های طیفی خاصی قابل استفاده در سناریوهای واقعی می شود. صدای خودرو معمولی به صورت نیمه ثابت با طیف عبور کم مشخص می شود. آتش سلاح ها، عمدتاً به صورت پرتاب کننده است.
5. رد کردن خارج از واژه
رویکرد رد OOV باید بدون اینکه به طور قابل توجهی باعث کاهش عملکرد تشخیص شود، به خوبی در شرایط پر سر و صدا انجام شود. علاوه بر این، "حافظه" پیچیدگی محاسباتی و مسائل مربوط به زمان تاخیر، محل نگرانی می باشد.
6. اعتبارسنجی
ما آزمایش های خود را بر روی پایگاه کلمات خاص جداگانه دامنه انجام می دهیم. این موضوع، شامل عبارات امری کوتاه است که برای کنترل سرباز کامپیوتری مورد استفاده قرار می گیرند. در مجموع 131 عبارت واژه منحصر به فرد وجود دارد که به 27 زیر مجموعه (محدوده) تقسیم می شوند که در حدود 2 تا 35 قرار دارند. داده های اطلاعاتی پایگاه، با استفاده از میکروفون Gentex با نرخ نمونه برداری تک جمله ای 11.025 کیلو هرتز و 16 بیتی جمع آوری می شود. مجموعه آموزشی شامل 100 سرباز مرد است که هر کدام فقط یک بار با یک دستور، کلمات را تکرار می کنند. مجموعه آزمایشی شامل 66 سرباز مرد است که دستورات مشابه را یک بار تکرار می کنند. سخنرانان در مجموعه های آموزشی و آزمایشی متمایز بوده، و دارای طیف گسترده ای از لهجه ها هستند.
7. نتیجه گیری
اجرای موفق رابط های تشخیص گفتار از طریق رویکرد سیستم ها به دست می آید. مهمتر از همه این است که کاربران برای اولین بار در فرآیند طراحی می توانند انتظارات خود و پارامترهای استفاده از سیستم را به طور کامل ضبط کنند. این موضوع باید به عنوان تمرین استاندارد برای حل کردن خصوصی در حوزه ها و محیط های جدید در نظر گرفته شود.
این مقاله در سال 2001 در نشریه آی تریپل ای و در کنفرانس بین المللی آکوستیک، گفتار و پردازش سیگنال، توسط آزمایشگاه رابط انسانی موتورولا منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله رویکرد سیستمی برای تشخیص گفتار در سایت ای ترجمه مراجعه نمایید.