رمزگشایی تشخیص صدا با یادگیری ماشینی

شکل ۱. در مطالعه‌ای که در Communications Biology منتشر شده‌است، دانشمندان علوم اعصاب در دانشگاه پیتسبورگ یک مدل یادگیری ماشینی ایجاد کرده‌اند تا بفهمند چگونه مغزها، از جمله مغز میمون‌های مارموست و خوکچه هندی، صداهایی مانند جفت‌گیری، غذا یا تماس‌های خطر را تشخیص داده و دسته‌بندی می‌کنند. محققان شباهت‌هایی بین تشخیص صدا و تشخیص چهره ترسیم کردند، جایی که مغز به جای تطبیق یک الگوی کامل، ویژگی‌های خاص را تشخیص می‌دهد. انتظار می‌رود که بینش‌های این مطالعه درک و درمان اختلالات تشخیص گفتار و بهبود سمعک‌ها را افزایش دهد.
شکل ۱. در مطالعه‌ای که در Communications Biology منتشر شده‌است، دانشمندان علوم اعصاب در دانشگاه پیتسبورگ یک مدل یادگیری ماشینی ایجاد کرده‌اند تا بفهمند چگونه مغزها، از جمله مغز میمون‌های مارموست و خوکچه هندی، صداهایی مانند جفت‌گیری، غذا یا تماس‌های خطر را تشخیص داده و دسته‌بندی می‌کنند. محققان شباهت‌هایی بین تشخیص صدا و تشخیص چهره ترسیم کردند، جایی که مغز به جای تطبیق یک الگوی کامل، ویژگی‌های خاص را تشخیص می‌دهد. انتظار می‌رود که بینش‌های این مطالعه درک و درمان اختلالات تشخیص گفتار و بهبود سمعک‌ها را افزایش دهد.


منتشر شده در scitechdaily به تاریخ ۲ می ۲۰۲۳
لینک منبع: The Babel of Brains: Decoding Sound Recognition With Machine Learning

دانشمندان علوم اعصاب در دانشگاه پیتسبورگ یک مدل یادگیری ماشینی ایجاد کرده‌اند تا بفهمند مغز چگونه صداهای ارتباطی را تشخیص می‌دهد. این مدل که بر روی خوکچه هندی آزمایش شد، فعالیت مغز را در پاسخ به دسته‌های مختلف صدا به دقت پیش‌بینی کرد. این تحقیق هم‌چنین نشان داد که خوکچه هندی می‌تواند صداهای تغییر یافته را تشخیص دهد و توانایی انسان برای درک لهجه‌های مختلف را منعکس کند. این کار می‌تواند به بهبود درک و درمان اختلالات تشخیص گفتار و تقویت سمعک کمک کند.

در مقاله‌ای که امروز (۲ می) در Communications Biology منتشر شد، دانشمندان علوم اعصاب شنوایی در دانشگاه پیتسبورگ یک مدل یادگیری ماشینی را توصیف می‌کنند که به توضیح چگونگی تشخیص مغز معنای صداهای ارتباطی، مانند تماس حیوانات یا کلمات گفتاری کمک می‌کند.

الگوریتم توصیف شده در این مطالعه، مدل‌سازی می‌کند که چگونه حیوانات اجتماعی، از جمله میمون‌های مارموست و خوکچه هندی، از شبکه‌های پردازش صدا در مغز خود برای تمایز بین دسته‌های صدا -مانند تماس برای جفت‌گیری، غذا یا خطر- استفاده می‌کنند و روی آن‌ها عمل می‌کنند.

این مطالعه گام مهمی به سوی درک پیچیدگی‌های پردازش عصبی است که اساس تشخیص صدا است. بینش‌های این کار راه را برای درک و در نهایت درمان اختلالاتی که بر تشخیص گفتار تأثیر می‌گذارند و بهبود سمعک‌ها هموار می‌کند.

دکتر Srivatsun Sadagopan، نویسنده ارشد و استادیار عصب‌شناسی پیت گفت: «کم و بیش هرکسی که ما می‌شناسیم در مقطعی از زندگی خود بخشی از شنوایی خود را از دست می‌دهند، چه در نتیجه افزایش سن یا قرار گرفتن در معرض صدا. درک زیست‌شناسی تشخیص صدا و یافتن راه‌هایی برای بهبود آن مهم است. اما فرآیند ارتباط صوتی به خودی خود جذاب است. روش‌هایی که مغز ما با یک‌دیگر تعامل می‌کند و می‌تواند ایده‌ها را بگیرد و آن‌ها را از طریق صدا منتقل کند، چیزی جز جادو نیست.»

انسان‌ها و حیوانات هر روز با تنوع حیرت‌انگیزی از صداها مواجه می‌شوند، از صدای ناخوشایند جنگل گرفته تا زمزمه داخل یک رستوران شلوغ. صرف‌نظر از آلودگی صوتی در دنیایی که ما را احاطه کرده است، انسان‌ها و سایر حیوانات قادر به برقراری ارتباط و درک یک‌دیگر هستند، از جمله زیر صدا یا لهجه. به‌عنوان مثال، وقتی کلمه سلام را می‌شنویم، صرف‌نظر از اینکه با لهجه آمریکایی یا انگلیسی گفته شده باشد، گوینده زن باشد یا مرد، یا در اتاقی ساکت یا تقاطعی شلوغ هستیم، معنی آن را تشخیص می‌دهیم.

این تیم با این شهود شروع کردند که روشی که مغز انسان معنای صداهای ارتباطی را تشخیص می‌دهد و می‌گیرد ممکن است شبیه به تشخیص چهره‌ها در مقایسه با اشیاء دیگر باشد. چهره‌ها بسیار متنوع هستند اما دارای برخی ویژگی‌های مشترک هستند.

مغز ما به‌جای تطبیق هر چهره‌ای که با آن روبه‌رو می‌شویم، به چهره‌ای «الگو»، ویژگی‌های مفیدی مانند چشم‌ها، بینی و دهان و موقعیت‌های نسبی آن‌ها را انتخاب می‌کند و نقشه‌ای ذهنی از این ویژگی‌های کوچک که یک صورت را توصیف می‌کند، ایجاد می‌کند.

در یک سری از مطالعات، تیم نشان داد که صداهای ارتباطی نیز ممکن است از چنین ویژگی‌های کوچکی تشکیل شوند. محققان ابتدا یک مدل یادگیری ماشینی برای پردازش صدا برای تشخیص صداهای مختلف ایجاد شده توسط حیوانات اجتماعی ساختند. برای آزمایش اینکه آیا پاسخ‌های مغز با مدل مطابقت دارد یا خیر، آن‌ها فعالیت مغزی خوکچه‌های هندی را که به صداهای ارتباطی خویشاوندان خود گوش می‌دادند، ضبط کردند. نورون‌های مناطقی از مغز که مسئول پردازش صداها هستند، با شنیدن صدایی که ویژگی‌هایی در انواع خاصی از این صداها وجود دارد، مانند مدل یادگیری ماشینی، با هجوم فعالیت الکتریکی روشن می‌شوند.

سپس آن‌ها می‌خواستند عملکرد مدل را در برابر رفتار واقعی حیوانات بررسی کنند.

خوکچه‌های هندی در یک محفظه قرار گرفتند و در معرض دسته‌های مختلف صداها قرار گرفتند -صدای جیر جیر و غرغر که به‌عنوان سیگنال‌های صوتی متمایز طبقه‌بندی می‌شوند. سپس محققان خوکچه‌های هندی را آموزش دادند تا به گوشه‌های مختلف محوطه راه بروند و بسته به دسته‌بندی صدا، پاداش دریافت کنند.

سپس، آن‌ها کارها را سخت‌تر کردند: برای تقلید از روشی که انسان‌ها معنای کلمات گفته شده توسط افراد با لهجه‌های مختلف را تشخیص می‌دهند، محققان تماس‌های خوکچه هندی را از طریق نرم‌افزارهای تغییر صدا اجرا کردند، آن‌ها را تسریع یا کاهش دادند، صدای آن‌ها را بالا و پایین کردند و نویز و اکو را اضافه کردند.

حیوانات نه‌تنها می‌توانستند این کار را به‌طور پیوسته انجام دهند که گویی تماس‌هایی که می‌شنیدند بدون تغییر بودند، بلکه علی‌رغم پژواک‌های مصنوعی یا سر و صدا به عملکرد خوب خود ادامه دادند. بهتر از آن، مدل یادگیری ماشینی رفتار آن‌ها (و فعال‌سازی زیربنایی نورون‌های پردازش صدا در مغز) را کاملاً توصیف کرد.

به‌عنوان گام بعدی، محققان دقت مدل را از حیوانات به گفتار انسان ترجمه می‌کنند.

از دیدگاه مهندسی، مدل‌های تشخیص گفتار بسیار بهتری وجود دارد. چیزی که در مورد مدل ما منحصر به فرد است این است که ما با رفتار و فعالیت مغز مطابقت نزدیکی داریم که به ما بینش بیش‌تری نسبت به زیست‌شناسی می‌دهد. Satyabrata Parida، سرپرست تیم تحقیق، دکترای فوق دکتری در بخش عصب‌شناسی پیت، گفت: در آینده، این بینش‌ها می‌تواند برای کمک به افراد مبتلا به شرایط عصبی رشدی یا کمک به مهندسی سمعک‌های بهتر مورد استفاده قرار گیرد.

ماناسوینی کار، دانشجوی آزمایشگاه ساداگوپان، گفت: «بسیاری از مردم با شرایطی دست و پنجه نرم می‌کنند که تشخیص گفتار را برایشان دشوار می‌کند. درک اینکه چگونه یک مغز عصبی کلمات را تشخیص می‌دهد و دنیای شنوایی اطراف خود را درک می‌کند، درک و کمک به کسانی را که در تلاش هستند ممکن می‌سازد.

این متن با استفاده از ربات ‌ترجمه مقالات زیست‌شناسی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.