صدا از کجا می آید؟

محققین علوم اعصاب دانشگاه MIT یک مدل کامپیوتری را توسعه دادند که می تواند این سوال را به خوبی مغز انسان پاسخ دهد.

مغز انسان به نحوی دقیق تنظیم شده است که نه تنها صداهای خاص را تشخیص دهد، بلکه همچنین می تواند جهت صدا را نیز بشناسد. با مقایسه فاصله صداهایی که به گوش چپ و راست می رسد، مغز می تواند مکان یک سگ پارس کننده، آژیر آتش نشانی یا ماشینی که نزدیک می شود، را تخمین بزند.

محققین علوم اعصاب دانشگاه MIT اکنون یک مدل کامپیوتری را توسعه داده اند که می تواند این کار پیچیده را انجام دهد. این مدل، که شامل شبکه های عصبی پیچشی متعدد است، نه تنها این کار را به خوبی مغز انسان انجام می دهد، بلکه همچنین تقلا می کند به همان روشی که مغز انسان انجام می دهد.

جاش مک درموت (دانشیار مغز و علوم شناختی و عضو موسسه مک گاورن MIT برای پژوهش های مغز) می گوید : « ما اکنون مدلی داریم که در حقیقت می تواند صدا ها را در دنیای واقعی مکان یابی کند. و وقتی که ما با مدل مانند یک انسان شرکت کننده آزمایشی رفتار می کنیم و این مجموعه آزمایشات بزرگ را که قبلا روی انسان ها در گذشته تست شده بود را شبیه سازی می کنیم، چیزی که مکررا می یابیم این است که این مدل نتایجی که روی انسان ها دیدیم را خلاصه می کند. یافته ها از مطالعات جدید پیشنهاد می کند که قابلیت انسان ها در درک موقعیت با چالش های ویژه محیط اطراف سازگار است »

مکان یابی از طریق مدل سازی

وقتی که ما یک صدا را می شنویم مانند سوت یک قطار، امواج صوتی به گوش چپ و راست ما به دفعات و شدت های کمی متفاوت می رسند، که بستگی دارد که صدا از کدام جهت می آید. بخش هایی از مغز میانی برای این تفاوت های کوچک اختصاص یافته است که کمک می کند تخمین بزنیم از کدام جهت صدا می آید، عملی که به مکان یابی نیز شناخته می شود.

این عمل به طور مشخص در شرایط جهان واقعی سخت تر نیز می شود – جایی که محیط اطراف اکو ها و صداهای زیادی یکباره شنیده می شوند.

دانشمندان جستجوی زیادی کردند که مدل هایی کامپیوتری بسازند که بتواند این نوع محاسبات مغز برای جهت یابی صدا را انجام دهد. این مدل ها بعضی مواقع در موقعیت های بدون نویز و سروصدا خیلی خوب عمل می کنند ولی نه هرگز در در محیط جهان واقعی با نویز ها و اکو هایش.

برای توسعه یک مدل مکان یابی پیچیده تر، تیم MIT به سمت شبکه های عصبی پیچشی تغییر جهت داد. این مدل سازی های کامپیوتری به طور گسترده استفاده شده اند تا سیستم بینایی انسان را مدل سازی کنند و تازه تر، مک درموت و دیگر دانشمندان به استفاده از آن در شنوایی پرداخته اند.

شبکه های عصبی پیچشی می توانند در معماری های بسیار متفاوتی طراحی شوند، بنابراین برای کمک کردن به آنها برای پیدا کردن آنهایی که می توانند بهترین عملکرد را در مکان یابی داشته باشند، تیم MIT از یک ابررایانه استفاده کرد که به آنها اجازه می دهد که درباره 1500 مدل مختلف تعلیم دهند و تست کنند. آن جستجو ده مورد را شناسایی کرد که به نظر مناسب ترین گزینه ها برای مکان یابی هستند ، که پژوهشگران بیشتر تعلیم دادند و از آن برای مطالعات بعدی خود استفاده کردند.

برای تعلیم دادن مدل، پژوهشگران یک دنیای مجازی ایجاد کردند که می تواند ابعاد اتاق و خواص بازتابی دیوار ها در اتاق را کنترل کند. همه این صدا ها که به مدل می رسد که ریشه در جایی در آن اتاق های مجازی داشت. این مجموعه بیش از 400 صدای تعلیمی دارد که شامل صدای انسان، صدای حیوانات، صدای ماشین ها مانند موتور اتوموبیل ها و صداهای طبیعی مانند صدای تندر می شود.

محققان همچنین مطمئن شدند که مدل با همان اطلاعات ارائه شده توسط گوش انسان شروع شده است. گوش خارجی یا Pinna ، چین های بسیاری برای بازتاب صدا دارد که که فرکانس ورودی به گوش را تغییر می دهند و این بازتاب ها بسته به جایی که صدا از آنجا می آید، متفاوت است. پژوهشگران این پدیده را با اجرا کردن هر صدا توسط یک تابع خاص ریاضیاتی قبل از اینکه وارد مدل کامپیوتری بشود، شبیه سازی کردند.

فرانک می گوید: « این به ما این امکان را می دهد که به مدل این سبک از اطلاعات را بدهیم که یک انسان دارد.»

بعد از تعلیم دادن مدل ها، پژوهشگران آنها را در محیط جهان واقعی تست می کنند. آنها یک مانکن را در یک اتاق حقیقی با میکروفون در گوش هایش قرار می دهند و صدا هارا از جهات مختلف پخش می کنند. سپس آنها آن صداهای ضبط شده را به مدل می دهند. مدل ها بسیار شبیه انسان ها عمل می کنند وقتی که از آنها خواسته می شود که آن صداها را جهت یابی کنند.

فرانک می گوید: « علی رغم اینکه مدل در یک جهان مجازی تعلیم داده شده است، وقتی که ما آن را ارزیابی می کنیم، آن می تواند صداها را در جهان واقعی مکان یابی کند.»