آینده یادگیری عمیق از دیدگاه هینتون، لکون و بنجیو

منتشرشده در: syncedreview به تاریخ ۱۱ فوریه ۲۰۲۰
نویسندگان: Fangyu Cai & Yuan Yuan
لینک مقاله اصلی: https://medium.com/syncedreview/aaai-2020-whats-next-for-deep-learning-hinton-lecun-and-bengio-share-their-visions-e29385dcaed5
این مقاله با کمک ربات ترجمیار ترجمه شده و توسط تیم ترجمه نسل جدید مورد بازبینی و ویرایش قرار گرفته است.

پدرخوانده‌های هوش مصنوعی و برندگان ۲۰۱۸ جایزه تورینگ ACM جفری هینتون، یان لکون و یوشع بنجیو یکشنبه‌شب در رویدادی که توسط کنفرانس سی و چهارم هوش مصنوعی در نیویورک سازمان‌دهی شده بود، یک ارایه را به اشتراک گذاشتند. این سه محقق شبکه‌های عصبی عمیق را به یک جز حیاتی از علوم کامپیوتر تبدیل کرده‌اند، و در گفتگوهای فردی و یک بحث گروهی دیدگاه‌های خود را در مورد چالش‌های فعلی و پیش روی یادگیری عمیق و جایی که باید پیش برود مورد بحث قرار دادند.

یادگیری عمیق که در اواسط دهه ۱۹۸۰ معرفی شد، در اوایل دهه ۲۰۰۰ در جامعه هوش مصنوعی مورد توجه قرار گرفت. سال ۲۰۱۲ شاهد انتشار مقاله «شبکه عصبی عمیق چند ستونی برای طبقه‌بندی تصاویر» بودیم، که نشان داد چگونه حداکثر تجمع CNNها در کارت‌های گرافیکی می‌تواند عملکرد بسیاری از معیارهای پردازش تصویر را بهبود بخشد؛ در حالی که سیستم مشابهی که چند ماه بعد توسط هینتون و یک تیم از دانشگاه تورنتو معرفی شد، رقابت تصویر شبکه در مقیاس بزرگ را با فاصله قابل‌توجهی نسبت به روش‌های یادگیری ماشین مرسوم بالاتر برد. بسیاری این رویدادها را آغاز یک انقلاب عمیق آموزشی می‌دانند که هوش مصنوعی را تغییر داده‌است.

یادگیری عمیق برای تشخیص گفتار، طبقه‌بندی تصویر، درک محتوا، خودراهبری و خیلی چیزهای دیگر به کار رفته‌است. طبق گفته لکون - که اکنون رییس دانشمندان هوش مصنوعی در فیسبوک است - خدمات فعلی ارائه‌شده توسط فیسبوک، اینستاگرام، گوگل، و یوتیوب همگی با یادگیری عمیق ساخته شده‌اند.

با این حال، یادگیری عمیق، منتقدهای خود را هم دارد. پروفسور دانشگاه جانز هاپکینز و یکی از پیشگامان در زمینه بینایی کامپیوتر، آلن یویل، سال گذشته هشدار داد که پتانسیل یادگیری عمیق در بینایی کامپیوتر به بن‌بست رسیده‌است.

لکون در سخنان خود توضیح داد: «ما امروز محدودیت‌های یادگیری عمیق را زیاد خواندیم، اما بیشتر آن‌ها در واقع محدودیت‌های یادگیری تحت نظارت هستند.» یادگیری تحت نظارت معمولا به یادگیری با داده‌های برچسب دار اشاره دارد. لکون به مخاطبان در نیویورک گفت که یادگیری بدون نظارت و بدون برچسب - یا «یادگیری خود ناظر»، -نامی که او ترجیح می‌دهد- ممکن است یک تغییر دهنده بازی باشد که منجر به انقلاب بعدی هوش مصنوعی شود.

لکون افزود: «این بحثی است که جف [ هینتون ] چندین دهه است که انجام می‌دهد. من برای مدتی طولانی شکاک بودم اما نظرم را عوض کردم.»

هینتون: از سی ان ان حرکت کنید و به کپسول‌های رمزکننده‌ خودکار نگاه کنید.

دو رویکرد برای تشخیص اشیا وجود دارد. یک روش مبتنی بر مسیر قدیمی آشنا و خوب، با نمایش منطقی و ماژولار، اما این روش به طور معمول کار دستی مهندسی زیادی را طلب می‌کند. و سپس شبکه‌های عصبی کانولوشنی (CNNs) که همه چیز از شروع تا پایان یاد می‌گیرند.شبکه‌های کانولوشن با برقراری ارتباط بین این حقیقت که اگر یک ویژگی در یک مکان خوب باشد، در جای دیگر هم خوب است، به پیروزی بزرگی دست می‌یابند. اما رویکرد آن‌ها به شناسایی اشیا بسیار متفاوت از ادراک انسان است.

این موضوع بخش اول صحبت‌های هینتون را مشخص کرد و او شخصا به لکون گفت: «این در مورد مشکلات سی ان ان است و اینکه چرا آن‌ها بی‌ارزش هستند.»


شبکه‌های کانولوشنی برای مقابله با ترجمه‌ها طراحی شده‌اند، اما در برخورد با اثرات دیگر تغییر دیدگاه‌ها مانند چرخش و مقیاس بندی چندان خوب نیستند. یک روش مشخص استفاده از نقشه‌های ۴ بعدی یا ۶ بعدی به جای نقشه‌های ۲ بعدی است - اما بسیار گران است. و بنابراین شبکه‌های کانولوشنی به طور معمول در مورد دیدگاه‌های مختلف آموزش می‌بیند تا آن‌ها بتوانند دیدگاه‌ها را تعمیم دهند. هینتون توضیح داد: «این خیلی موثر نیست.» او گفت: «ما دوست داریم شبکه‌های عصبی بدون زحمت به دیدگاه‌های جدید تعمیم داده شوند. اگر یاد گرفتید که چیزی را تشخیص دهید، آن را ۱۰ برابر بزرگ‌تر کنید و آن را ۶۰ درجه بچرخانید، نباید هیچ مشکلی برای تشخیص ایجاد شود. ما می‌دانیم که گرافیک کامپیوتری اینگونه است و می‌خواهیم شبکه‌های عصبی را بیشتر شبیه به آن بسازیم.»

هینتون معتقد است پاسخ این سوال کپسول است. کپسول گروهی از نورون‌ها هستند که یاد می‌گیرند یک شکل یا بخش آشنا را نشان دهند. هینتون می‌گوید که ایده این است که ساختار بیشتری به شبکه‌های عصبی اضافه شود و امیدوار است که ساختار اضافی به آن‌ها کمک کند تا بهتر تعمیم پیدا کنند. کپسول‌ها تلاشی برای اصلاح اشتباهات موجود در شبکه‌های کانولوشنی هستند.

کپسول‌هایی که هینتون معرفی کرد، کدکننده‌های خودکار کپسوله هستند، که برای اولین بار در NeurIPS 2019 ظاهر شدند و از بسیاری جهات با نسخه‌های کپسول قبلی ICLR 2018 و NIPS 2017 متفاوت هستند. آن‌ها از یادگیری متمایز کننده استفاده کرده بودند. هینتون حتی در زمانی که می‌دانست این ایده بدی است گفت: «من همیشه می‌دانستم که یادگیری بدون نظارت کار درستی است - بنابراین انجام مدل‌های قبلی کار بدی بود» کپسول‌های ۲۰۱۹ از یادگیری بدون نظارت استفاده می‌کنند.


لکون: چرا یادگیری خودناظر، آینده یادگیری عمیق است.

لکون اشاره کرد که اگرچه یادگیری با نظارت برای مثال تشخیص گفتار و درک محتوا موفق بوده‌است، اما هنوز به مقدار زیادی از نمونه‌های لیبل‌خورده نیاز دارد. یادگیری تقویتی برای بازی‌ها و در شبیه‌سازی‌ها عالی عمل می‌کند، اما از آنجا که نیاز به آزمایش‌های زیادی دارد، در دنیای واقعی واقعا قابل‌اجرا نیست.

اولین چالش مورد بحث لکون این بود که چگونه می توان انتظار داشت که مدل‌ها با برچسب‌های کم‌تر، نمونه‌های کم‌تر یا آزمایش‌های کم‌تر، بیشتر یاد بگیرند.

اکنون لکون از راه‌حل یادگیری بدون نظارت (یادگیری خود ناظر) که هینتون برای اولین بار حدود ۱۵ سال پیش پیشنهاد داده بود، حمایت می‌کند. لکون توضیح داد: «در واقع این ایده یادگیری نشان دادن جهان قبل از یادگیری یک کار است - و این کاری است که نوزادان انجام می‌دهند» و اشاره کرد که واقعا درک این که چگونه انسان‌ها این قدر سریع و موثر یاد می‌گیرند می‌تواند کلیدی باشد که پتانسیل کامل یادگیری خودناظر را باز می‌کند.

یادگیری خودناظر عمدتا مسئول موفقیت پردازش زبان طبیعی (NLP) در طول یک سال و نیم گذشته یا بیشتر بوده است. ایده این است که یک سیستم یک قطعه متن، تصویر، یا ورودی ویدئو را نشان دهد، و یک مدل برای پیش‌بینی قطعه گم‌شده آموزش دهد - برای مثال برای پیش‌بینی کلمات گم‌شده در یک متن، که همان چیزی است که سیستم‌های زبان مانند BERT و ترانسفورمرها برای انجام آن ساخته شده‌اند.

اما موفقیت ترانسفورمرها و BERT و مشابهات به حوزه تصویر منتقل نشده است چون نشان دادن عدم قطعیت در پیش‌بینی بر روی تصاویر یا در ویدئو بسیار دشوارتر از متن است چون گسسته نیست. این عملی است که توزیع‌هایی را بر روی تمام کلمات موجود در یک فرهنگ لغت ایجاد کنیم، اما نمایش توزیع‌ها در تمام فریم های ویدئویی ممکن دشوار است. و از دیدگاه لکون: «مشکل فنی اصلی که ما باید حل کنیم این است که اگر بخواهیم یادگیری خودناظر را به روش‌های کسترده‌تری مانند ویدیو اعمال کنیم.»

راه‌حل پیشنهادی لکون ممکن است در مدل‌های انرژی متغیر پنهان باشد: «یک مدل مبتنی بر انرژی نوعی مدل احتمالی است، با این تفاوت که شما نرمالش نمی‌کنید. و یک راه برای آموزش مدل انرژی محور این است که به نمونه‌هایی که مشاهده می‌کنید انرژی کم و به نمونه‌هایی که مشاهده نمی‌کنید انرژی زیاد بدهید.»

لکون در سخنان خود دو چالش دیگر را مطرح کرد:

  • چگونه استدلال را با یادگیری مبتنی بر گرادیان سازگار کنیم.
  • چگونه یاد بگیریم که مراحل کار پیچیده را برنامه‌ریزی کنیم - یک کار پیچیده را به کارهای فرعی تجزیه کنیم.

لکون اظهار داشت که در حال حاضر به نظر نمی‌رسد که هیچ‌کس پاسخ خوبی به این دو چالش داشته باشد، و گفت که او باز است و منتظر هر گونه ایده ممکن است.

بنجیو: وقت آن است که آگاهی را بررسی کنیم

در عین حال، یوشع بنجو تمرکز خود را به آگاهی منتقل کرده‌است. پس از علوم اعصاب شناختی، او بر این باور است که زمان آن رسیده که یادگیری ماشین آگاهی را کشف کند، که به گفته او می‌تواند «پیشگامان جدید را برای کمک به تعمیم سیستماتیک و خوب» پدید آورد. در نهایت، بنجیو امیدوار است که چنین جهت تحقیقاتی بتواند به یادگیری عمیق اجازه دهد تا از "سیستم ۱ به سیستم ۲" گسترش یابد - با اشاره به دوگانگی معرفی‌شده توسط دانیل کانمن در کتاب «تفکر سریع و آهسته». سیستم ۱ نشان می‌دهد که یادگیری عمیق فعلی در درک حسی بسیار خوب است. در عین حال، سیستم ۲ نشان‌دهنده سخت، متوالی، آهسته، منطقی، آگاهانه و قابل‌بیان با زبان است.

قبل از اینکه او به درون درس‌های ارزشمندی که می‌توانند از آگاهی فرا گیرند شیرجه بزند، بنجیو به حضار در مورد علوم اعصاب شناختی توضیح داد. «قبلا در قرن گذشته دیده می‌شد که کار بر روی آگاهی به هر دلیلی نوعی تابو در بسیاری از علوم بود. اما خوشبختانه این امر تغییر کرده و به ویژه در علوم اعصاب شناختی. به طور خاص، نظریه فضای کاری جهانی توسط بارس و کار اخیر در این قرن براساس دهائنه، که واقعا این نظریه‌ها را برای توضیح بسیاری از مشاهدات علوم اعصاب عینی ایجاد کرد.»

بنجیو فرآیند آگاهانه را به تنگنایی تشبیه کرد و پرسید: «چرا این (تنگنا) معنی‌دار است؟ چرا مغز چنین تنگنایی دارد که در آن اطلاعات باید از این تنگنا عبور کنند، و تنها چند المان باید به بقیه مغز پخش شوند؟ چرا باید حافظه کوتاه‌مدت داشته باشیم که فقط شامل شش یا هفت المان باشد؟ منطقی به نظر نمی‌رسد».

بنجیو گفت: «خط پایین کشف جادو از آگاهی است» و پیش‌آگاهی را مطرح کرد، پیش‌درآمدی جدید برای یادگیری مفاهیم سطح بالا از نوعی که بشر با زبان دستکاری می‌کند. پیش‌آگاهی از نظریه‌های شناخت عصب‌شناسی آگاهی الهام می‌گیرد. «این مقدمه می‌تواند با سایر اولویت‌ها ترکیب شود تا به جدا کردن عوامل انتزاعی از یکدیگر کمک کند. آنچه در اینجا گفته می‌شود این است که در آن سطح از نمایش، دانش ما در این گراف بسیار پراکنده نشان داده می‌شود که در آن هر کدام از وابستگی‌ها، این عوامل شامل دو، سه، چهار یا پنج ماهیت هستند و همین.»

آگاهی همچنین می‌تواند الهام بخش چگونگی ساخت مدل باشد. بنجیو توضیح داد: «نمایندگان در زمان خاصی در یک مکان خاص هستند و کاری انجام می‌دهند و اثر دارند. و در نهایت این اثر می‌تواند پیامدهای ثابتی در سراسر جهان داشته باشد، اما زمان می‌برد. و بنابراین اگر ما بتوانیم مدل‌هایی از جهان بسازیم که در آن‌ها مفاهیم انتزاعی درست را داریم، که در آن‌ها می‌توانیم این تغییرات را تنها به یک یا چند متغیر خلاصه کنیم، آنگاه قادر خواهیم بود با این تغییرات سازگار شویم، زیرا ما به داده‌های زیادی نیاز نداریم، به همان اندازه مشاهدات نیاز است که برای درک آنچه که تغییر کرده‌است کافی باشد.»

پس اگر قرار است یادگیری عمیق به هوش انسان برسد، چه چیزی لازم است؟ بنیجو به پیشنهادهای قبلی خود اشاره کرد که بخش‌های گم‌شده پازل عبارتند از:

  • تعمیم سریع‌تر با مثال‌های کم‌تر
  • تعمیم توزیع خارج از موضوع، یادگیری انتقال بهتر، انطباق دامنه، کاهش فراموشی فاجعه‌بار در یادگیری مستمر
  • ترکیب پذیری اضافی از استدلال و آگاهی
  • ساختارهای تصادفی را کشف کنید و از آن‌ها استفاده کنید
  • مدل‌های بهتر از دنیا، از جمله حس مشترک
  • بهره‌برداری از دیدگاه عامل یادگیری تقویتی، اکتشاف بدون نظارت

همگرایی مغزهای هوش مصنوعی

در یک بحث گروهی، از هینتون، لکون و بنجیو پرسیده شد که چگونه رویکردهای تحقیقاتی خود را با همکاران متعهد به روش‌های سنتی‌تر تطبیق می‌دهند. هینتون به طور آشکار در برخی کنفرانس‌های AAAI غایب بود و در پاسخ به این سوال، اشاره کرد که چرا: «آخرین باری که مقاله‌ای را به AAAI ارایه کردم، بدترین مروری را که تا به حال داشته‌ام دریافت کردم. و این خیلی بد بود. او گفت: «هینتون هفت سال است که بر روی این ایده کار می‌کند [ نمایش‌های برداری ] و هیچ‌کس علاقه‌ای به آن ندارد. زمان حرکت است.»

هینتون درباره تلاش‌های خود برای یافتن یک زمینه مشترک و حرکت به سمت آن صحبت کرد: «در حال حاضر ما در موقعیتی هستیم که باید بگوییم، بیایید گذشته را فراموش کنیم و ببینیم آیا می‌توانیم ایده کاهش شیب گرادیان را در پارامترهای بزرگ سیستم انجام دهیم. و اجازه دهید ببینیم آیا می‌توانیم این ایده را قبول کنیم، چون این واقعا تمام چیزی است که ما تا کنون کشف کرده‌ایم. این واقعا جواب می‌دهد. این واقعیت که این روش کار می‌کند شگفت‌انگیز است. و بیایید ببینیم که آیا می‌توانیم چنین استدلالی را یاد بگیریم»

این مقاله با کمک ربات ترجمیار ترجمه شده و توسط تیم ترجمه نسل جدید مورد بازبینی و ویرایش قرار گرفته است.