حالا هوش مصنوعی می‌تواند امواج مغز شما را به متن تبدیل کند

منتشرشده در Medium به تاریخ ۱ آپریل ۲۰۲۰
لینک مقاله اصلی: Now AI Can Turn Your Brain Waves into Text

رابط‌های مغز-ماشین در دهه گذشته پیشرفت‌های زیادی داشته‌اند. در حال حاضر گروهی از دانشمندان علوم کامپیوتر و عصب‌شناسی از دانشگاه سان‌فرانسیسکو یک گام فراتر رفته‌اند.

محققان از دو شبکه عصبی برای رمزگشایی فعالیت مغزی شرکت کنندگان خود و تعیین آنچه که آن‌ها می‌گفتند، استفاده کردند. آنچه آن‌ها به آن دست یافتند ترجمه بی‌درنگ فعالیت عصبی به متن بود.

در این تحقیق چهار شرکت‌کننده حضور داشتند و از قبل در مغز هر کدام ۲۵۰ الکترود، برای نظارت بر حملات صرعی، کار گذاشته شده بود. آن‌ها بین ۳۰ تا ۵۰ جمله را با صدای بلند و با کم‌تر از ۴۰ دقیقه زمان تمرین خواندند.

آن‌ها توانستند به سطح قابل‌توجهی از دقت برسند. برای یکی از شرکت کنندگان، نرخ خطا تنها ۳٪ بود. برای مقایسه،معمولا در آوانویسی گفتار حرفه‌ای  نرخ خطا ۵٪ است.

حتی بهتر از آن، وقتی شبکه‌ها بر روی یک شخص آموزش می‌بینند، برای هر شرکت‌کننده بعدی به آموزش کمتری نیاز دارند، حتی زمانی که الکترودها در سمت مخالف مغز قرار می‌گیرند.

اشتباهات در هنگام رخ دادنشان کمی طنز هم اضافه کردند. در یک مورد، عبارت «آن نوازندگان به طور اعجاب‌انگیزی هماهنگ بودند» به اشتباه «اسفناج یک خواننده مشهور بود» برداشت شد. در یک مثال دیگر، عبارت «حلقه سیمی نزدیک دیوار قرار داشت» به شکل «رابین یک سوسن زرد خواهد پوشید» تعبیر شد.

آن‌ها هیچ شباهتی به هم نداشتند اما الگوریتم‌ها صدا را رصد نمی‌کردند، بلکه امواج مغز را زیر نظر داشتند.

کلمات در مقابل آواها

الگوریتم‌های قبلی تلاش کرده‌اند که گفتار را براساس آواها مدل‌سازی کنند؛ واحد کوچکی از صدا که در کنار هم کلمات و جملات را می‌سازند. این مدل بر کلمات به عنوان بخش‌های اصلی سازنده متکی بود. در هر دو روش مزایا و معایبی وجود دارد.

برای شروع، تعداد واج‌ها نسبت به کلمات کمتر است، بنابراین برای درک دامنه وسیع‌تر، چیزهای کمتری برای آموزش وجود دارد. با این حال، از آنجا که کوتاه‌تر هستند و به شدت تحت‌تاثیر واج‌های قبلی (هم‌مخرج بودن) قرار دارند، تشخیص آن‌ها دشوارتر است.

از سوی دیگر، تفکیک کلمات از یکدیگر آسان‌تر است، اما تعداد کلماتی که برای ترسیم اغلب گفتگوهای ما مورد نیاز است، نسبتا زیاد است. در این آزمایش، مجموعه داده‌ها تنها شامل حدود ۲۵۰ کلمه بودند، در حالی که کسی که به زبان انگلیسی صحبت می‌کند به طور متوسط ۴۲۰۰۰ را بلد است.

با این وجود، محققان بر این باورند که این بهترین مدل است-زمانی که آن‌ها مدل واج را امتحان کردند، نرخ خطا تا ۳۳٪ افزایش یافت.

علاوه بر این، آن‌ها این مدل‌ها را برای کم‌تر از ۴۰ دقیقه آموزش دادند، برای کسی که یک ایمپلنت مغزی دائمی دارد، فضای بیشتری برای گسترش واژگان وجود دارد. همچنین این احتمال وجود دارد که هر کسی که کاملا صدایش را از دست داده باشد، با خوشحالی چند صد کلمه حرف بزند.

پیشرفت‌های آینده

جنبه مهم این تحقیق این است که هنگام به‌کار بردن جادو توسط الگوریتم‌ها، شرکت کنندگان با صدای بلند صحبت می‌کردند. همانطور که دکتر کریستین هرف گفت، ترجمه افکار چندان زیادی وجود ندارد، چرا که فعالیت مغزی در صحبت کردن درگیر است.

یکی از نویسندگان این تحقیق، دکتر جوزف ماکین، گفت: «در دراز مدت، ما فکر می‌کنیم افرادی که قدرت بیان خود را -بخاطر ALS، سکته، یا برخی آسیب‌های مغزی دیگر- از دست داده‌اند اما هنوز قوه شناخت خود را دارند، از پروتزهایی که در طول خطوط این تحقیق ایجاد شده‌اند، نفع خواهند برد. اما این کار حداقل چند سال طول می‌کشد.»

این فن‌آوری قطعا برای کسانی که فاقد توانایی برقراری ارتباط هستند، نوید بخش است. با این حال، من مطمئن هستم که بسیاری از ما فراتر از عملکرد احیا کننده فکر می‌کنیم و به قلمرو ذهن خوانی، تله‌پاتی و لایه‌های دیستوپیایی بسیاری از داستان‌های علمی‌تخیلی فکر می‌کنیم.

ترجمه این مقاله با استفاده از ربات ترجمه آنلاین مقالات هوش مصنوعی انجام شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است، در نتیجه ممکن است دارای برخی اشکالات ترجمه باشد.