من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
آینده یادگیری عمیق از دیدگاه هینتون، لکون و بنجیو
منتشرشده در: syncedreview به تاریخ ۱۱ فوریه ۲۰۲۰
نویسندگان: Fangyu Cai & Yuan Yuan
لینک مقاله اصلی: https://medium.com/syncedreview/aaai-2020-whats-next-for-deep-learning-hinton-lecun-and-bengio-share-their-visions-e29385dcaed5
این مقاله با کمک ربات ترجمیار ترجمه شده و توسط تیم ترجمه نسل جدید مورد بازبینی و ویرایش قرار گرفته است.
پدرخواندههای هوش مصنوعی و برندگان ۲۰۱۸ جایزه تورینگ ACM جفری هینتون، یان لکون و یوشع بنجیو یکشنبهشب در رویدادی که توسط کنفرانس سی و چهارم هوش مصنوعی در نیویورک سازماندهی شده بود، یک ارایه را به اشتراک گذاشتند. این سه محقق شبکههای عصبی عمیق را به یک جز حیاتی از علوم کامپیوتر تبدیل کردهاند، و در گفتگوهای فردی و یک بحث گروهی دیدگاههای خود را در مورد چالشهای فعلی و پیش روی یادگیری عمیق و جایی که باید پیش برود مورد بحث قرار دادند.
یادگیری عمیق که در اواسط دهه ۱۹۸۰ معرفی شد، در اوایل دهه ۲۰۰۰ در جامعه هوش مصنوعی مورد توجه قرار گرفت. سال ۲۰۱۲ شاهد انتشار مقاله «شبکه عصبی عمیق چند ستونی برای طبقهبندی تصاویر» بودیم، که نشان داد چگونه حداکثر تجمع CNNها در کارتهای گرافیکی میتواند عملکرد بسیاری از معیارهای پردازش تصویر را بهبود بخشد؛ در حالی که سیستم مشابهی که چند ماه بعد توسط هینتون و یک تیم از دانشگاه تورنتو معرفی شد، رقابت تصویر شبکه در مقیاس بزرگ را با فاصله قابلتوجهی نسبت به روشهای یادگیری ماشین مرسوم بالاتر برد. بسیاری این رویدادها را آغاز یک انقلاب عمیق آموزشی میدانند که هوش مصنوعی را تغییر دادهاست.
یادگیری عمیق برای تشخیص گفتار، طبقهبندی تصویر، درک محتوا، خودراهبری و خیلی چیزهای دیگر به کار رفتهاست. طبق گفته لکون - که اکنون رییس دانشمندان هوش مصنوعی در فیسبوک است - خدمات فعلی ارائهشده توسط فیسبوک، اینستاگرام، گوگل، و یوتیوب همگی با یادگیری عمیق ساخته شدهاند.
با این حال، یادگیری عمیق، منتقدهای خود را هم دارد. پروفسور دانشگاه جانز هاپکینز و یکی از پیشگامان در زمینه بینایی کامپیوتر، آلن یویل، سال گذشته هشدار داد که پتانسیل یادگیری عمیق در بینایی کامپیوتر به بنبست رسیدهاست.
لکون در سخنان خود توضیح داد: «ما امروز محدودیتهای یادگیری عمیق را زیاد خواندیم، اما بیشتر آنها در واقع محدودیتهای یادگیری تحت نظارت هستند.» یادگیری تحت نظارت معمولا به یادگیری با دادههای برچسب دار اشاره دارد. لکون به مخاطبان در نیویورک گفت که یادگیری بدون نظارت و بدون برچسب - یا «یادگیری خود ناظر»، -نامی که او ترجیح میدهد- ممکن است یک تغییر دهنده بازی باشد که منجر به انقلاب بعدی هوش مصنوعی شود.
لکون افزود: «این بحثی است که جف [ هینتون ] چندین دهه است که انجام میدهد. من برای مدتی طولانی شکاک بودم اما نظرم را عوض کردم.»
هینتون: از سی ان ان حرکت کنید و به کپسولهای رمزکننده خودکار نگاه کنید.
دو رویکرد برای تشخیص اشیا وجود دارد. یک روش مبتنی بر مسیر قدیمی آشنا و خوب، با نمایش منطقی و ماژولار، اما این روش به طور معمول کار دستی مهندسی زیادی را طلب میکند. و سپس شبکههای عصبی کانولوشنی (CNNs) که همه چیز از شروع تا پایان یاد میگیرند.شبکههای کانولوشن با برقراری ارتباط بین این حقیقت که اگر یک ویژگی در یک مکان خوب باشد، در جای دیگر هم خوب است، به پیروزی بزرگی دست مییابند. اما رویکرد آنها به شناسایی اشیا بسیار متفاوت از ادراک انسان است.
این موضوع بخش اول صحبتهای هینتون را مشخص کرد و او شخصا به لکون گفت: «این در مورد مشکلات سی ان ان است و اینکه چرا آنها بیارزش هستند.»
شبکههای کانولوشنی برای مقابله با ترجمهها طراحی شدهاند، اما در برخورد با اثرات دیگر تغییر دیدگاهها مانند چرخش و مقیاس بندی چندان خوب نیستند. یک روش مشخص استفاده از نقشههای ۴ بعدی یا ۶ بعدی به جای نقشههای ۲ بعدی است - اما بسیار گران است. و بنابراین شبکههای کانولوشنی به طور معمول در مورد دیدگاههای مختلف آموزش میبیند تا آنها بتوانند دیدگاهها را تعمیم دهند. هینتون توضیح داد: «این خیلی موثر نیست.» او گفت: «ما دوست داریم شبکههای عصبی بدون زحمت به دیدگاههای جدید تعمیم داده شوند. اگر یاد گرفتید که چیزی را تشخیص دهید، آن را ۱۰ برابر بزرگتر کنید و آن را ۶۰ درجه بچرخانید، نباید هیچ مشکلی برای تشخیص ایجاد شود. ما میدانیم که گرافیک کامپیوتری اینگونه است و میخواهیم شبکههای عصبی را بیشتر شبیه به آن بسازیم.»
هینتون معتقد است پاسخ این سوال کپسول است. کپسول گروهی از نورونها هستند که یاد میگیرند یک شکل یا بخش آشنا را نشان دهند. هینتون میگوید که ایده این است که ساختار بیشتری به شبکههای عصبی اضافه شود و امیدوار است که ساختار اضافی به آنها کمک کند تا بهتر تعمیم پیدا کنند. کپسولها تلاشی برای اصلاح اشتباهات موجود در شبکههای کانولوشنی هستند.
کپسولهایی که هینتون معرفی کرد، کدکنندههای خودکار کپسوله هستند، که برای اولین بار در NeurIPS 2019 ظاهر شدند و از بسیاری جهات با نسخههای کپسول قبلی ICLR 2018 و NIPS 2017 متفاوت هستند. آنها از یادگیری متمایز کننده استفاده کرده بودند. هینتون حتی در زمانی که میدانست این ایده بدی است گفت: «من همیشه میدانستم که یادگیری بدون نظارت کار درستی است - بنابراین انجام مدلهای قبلی کار بدی بود» کپسولهای ۲۰۱۹ از یادگیری بدون نظارت استفاده میکنند.
لکون: چرا یادگیری خودناظر، آینده یادگیری عمیق است.
لکون اشاره کرد که اگرچه یادگیری با نظارت برای مثال تشخیص گفتار و درک محتوا موفق بودهاست، اما هنوز به مقدار زیادی از نمونههای لیبلخورده نیاز دارد. یادگیری تقویتی برای بازیها و در شبیهسازیها عالی عمل میکند، اما از آنجا که نیاز به آزمایشهای زیادی دارد، در دنیای واقعی واقعا قابلاجرا نیست.
اولین چالش مورد بحث لکون این بود که چگونه می توان انتظار داشت که مدلها با برچسبهای کمتر، نمونههای کمتر یا آزمایشهای کمتر، بیشتر یاد بگیرند.
اکنون لکون از راهحل یادگیری بدون نظارت (یادگیری خود ناظر) که هینتون برای اولین بار حدود ۱۵ سال پیش پیشنهاد داده بود، حمایت میکند. لکون توضیح داد: «در واقع این ایده یادگیری نشان دادن جهان قبل از یادگیری یک کار است - و این کاری است که نوزادان انجام میدهند» و اشاره کرد که واقعا درک این که چگونه انسانها این قدر سریع و موثر یاد میگیرند میتواند کلیدی باشد که پتانسیل کامل یادگیری خودناظر را باز میکند.
یادگیری خودناظر عمدتا مسئول موفقیت پردازش زبان طبیعی (NLP) در طول یک سال و نیم گذشته یا بیشتر بوده است. ایده این است که یک سیستم یک قطعه متن، تصویر، یا ورودی ویدئو را نشان دهد، و یک مدل برای پیشبینی قطعه گمشده آموزش دهد - برای مثال برای پیشبینی کلمات گمشده در یک متن، که همان چیزی است که سیستمهای زبان مانند BERT و ترانسفورمرها برای انجام آن ساخته شدهاند.
اما موفقیت ترانسفورمرها و BERT و مشابهات به حوزه تصویر منتقل نشده است چون نشان دادن عدم قطعیت در پیشبینی بر روی تصاویر یا در ویدئو بسیار دشوارتر از متن است چون گسسته نیست. این عملی است که توزیعهایی را بر روی تمام کلمات موجود در یک فرهنگ لغت ایجاد کنیم، اما نمایش توزیعها در تمام فریم های ویدئویی ممکن دشوار است. و از دیدگاه لکون: «مشکل فنی اصلی که ما باید حل کنیم این است که اگر بخواهیم یادگیری خودناظر را به روشهای کستردهتری مانند ویدیو اعمال کنیم.»
راهحل پیشنهادی لکون ممکن است در مدلهای انرژی متغیر پنهان باشد: «یک مدل مبتنی بر انرژی نوعی مدل احتمالی است، با این تفاوت که شما نرمالش نمیکنید. و یک راه برای آموزش مدل انرژی محور این است که به نمونههایی که مشاهده میکنید انرژی کم و به نمونههایی که مشاهده نمیکنید انرژی زیاد بدهید.»
لکون در سخنان خود دو چالش دیگر را مطرح کرد:
- چگونه استدلال را با یادگیری مبتنی بر گرادیان سازگار کنیم.
- چگونه یاد بگیریم که مراحل کار پیچیده را برنامهریزی کنیم - یک کار پیچیده را به کارهای فرعی تجزیه کنیم.
لکون اظهار داشت که در حال حاضر به نظر نمیرسد که هیچکس پاسخ خوبی به این دو چالش داشته باشد، و گفت که او باز است و منتظر هر گونه ایده ممکن است.
بنجیو: وقت آن است که آگاهی را بررسی کنیم
در عین حال، یوشع بنجو تمرکز خود را به آگاهی منتقل کردهاست. پس از علوم اعصاب شناختی، او بر این باور است که زمان آن رسیده که یادگیری ماشین آگاهی را کشف کند، که به گفته او میتواند «پیشگامان جدید را برای کمک به تعمیم سیستماتیک و خوب» پدید آورد. در نهایت، بنجیو امیدوار است که چنین جهت تحقیقاتی بتواند به یادگیری عمیق اجازه دهد تا از "سیستم ۱ به سیستم ۲" گسترش یابد - با اشاره به دوگانگی معرفیشده توسط دانیل کانمن در کتاب «تفکر سریع و آهسته». سیستم ۱ نشان میدهد که یادگیری عمیق فعلی در درک حسی بسیار خوب است. در عین حال، سیستم ۲ نشاندهنده سخت، متوالی، آهسته، منطقی، آگاهانه و قابلبیان با زبان است.
قبل از اینکه او به درون درسهای ارزشمندی که میتوانند از آگاهی فرا گیرند شیرجه بزند، بنجیو به حضار در مورد علوم اعصاب شناختی توضیح داد. «قبلا در قرن گذشته دیده میشد که کار بر روی آگاهی به هر دلیلی نوعی تابو در بسیاری از علوم بود. اما خوشبختانه این امر تغییر کرده و به ویژه در علوم اعصاب شناختی. به طور خاص، نظریه فضای کاری جهانی توسط بارس و کار اخیر در این قرن براساس دهائنه، که واقعا این نظریهها را برای توضیح بسیاری از مشاهدات علوم اعصاب عینی ایجاد کرد.»
بنجیو فرآیند آگاهانه را به تنگنایی تشبیه کرد و پرسید: «چرا این (تنگنا) معنیدار است؟ چرا مغز چنین تنگنایی دارد که در آن اطلاعات باید از این تنگنا عبور کنند، و تنها چند المان باید به بقیه مغز پخش شوند؟ چرا باید حافظه کوتاهمدت داشته باشیم که فقط شامل شش یا هفت المان باشد؟ منطقی به نظر نمیرسد».
بنجیو گفت: «خط پایین کشف جادو از آگاهی است» و پیشآگاهی را مطرح کرد، پیشدرآمدی جدید برای یادگیری مفاهیم سطح بالا از نوعی که بشر با زبان دستکاری میکند. پیشآگاهی از نظریههای شناخت عصبشناسی آگاهی الهام میگیرد. «این مقدمه میتواند با سایر اولویتها ترکیب شود تا به جدا کردن عوامل انتزاعی از یکدیگر کمک کند. آنچه در اینجا گفته میشود این است که در آن سطح از نمایش، دانش ما در این گراف بسیار پراکنده نشان داده میشود که در آن هر کدام از وابستگیها، این عوامل شامل دو، سه، چهار یا پنج ماهیت هستند و همین.»
آگاهی همچنین میتواند الهام بخش چگونگی ساخت مدل باشد. بنجیو توضیح داد: «نمایندگان در زمان خاصی در یک مکان خاص هستند و کاری انجام میدهند و اثر دارند. و در نهایت این اثر میتواند پیامدهای ثابتی در سراسر جهان داشته باشد، اما زمان میبرد. و بنابراین اگر ما بتوانیم مدلهایی از جهان بسازیم که در آنها مفاهیم انتزاعی درست را داریم، که در آنها میتوانیم این تغییرات را تنها به یک یا چند متغیر خلاصه کنیم، آنگاه قادر خواهیم بود با این تغییرات سازگار شویم، زیرا ما به دادههای زیادی نیاز نداریم، به همان اندازه مشاهدات نیاز است که برای درک آنچه که تغییر کردهاست کافی باشد.»
پس اگر قرار است یادگیری عمیق به هوش انسان برسد، چه چیزی لازم است؟ بنیجو به پیشنهادهای قبلی خود اشاره کرد که بخشهای گمشده پازل عبارتند از:
- تعمیم سریعتر با مثالهای کمتر
- تعمیم توزیع خارج از موضوع، یادگیری انتقال بهتر، انطباق دامنه، کاهش فراموشی فاجعهبار در یادگیری مستمر
- ترکیب پذیری اضافی از استدلال و آگاهی
- ساختارهای تصادفی را کشف کنید و از آنها استفاده کنید
- مدلهای بهتر از دنیا، از جمله حس مشترک
- بهرهبرداری از دیدگاه عامل یادگیری تقویتی، اکتشاف بدون نظارت
همگرایی مغزهای هوش مصنوعی
در یک بحث گروهی، از هینتون، لکون و بنجیو پرسیده شد که چگونه رویکردهای تحقیقاتی خود را با همکاران متعهد به روشهای سنتیتر تطبیق میدهند. هینتون به طور آشکار در برخی کنفرانسهای AAAI غایب بود و در پاسخ به این سوال، اشاره کرد که چرا: «آخرین باری که مقالهای را به AAAI ارایه کردم، بدترین مروری را که تا به حال داشتهام دریافت کردم. و این خیلی بد بود. او گفت: «هینتون هفت سال است که بر روی این ایده کار میکند [ نمایشهای برداری ] و هیچکس علاقهای به آن ندارد. زمان حرکت است.»
هینتون درباره تلاشهای خود برای یافتن یک زمینه مشترک و حرکت به سمت آن صحبت کرد: «در حال حاضر ما در موقعیتی هستیم که باید بگوییم، بیایید گذشته را فراموش کنیم و ببینیم آیا میتوانیم ایده کاهش شیب گرادیان را در پارامترهای بزرگ سیستم انجام دهیم. و اجازه دهید ببینیم آیا میتوانیم این ایده را قبول کنیم، چون این واقعا تمام چیزی است که ما تا کنون کشف کردهایم. این واقعا جواب میدهد. این واقعیت که این روش کار میکند شگفتانگیز است. و بیایید ببینیم که آیا میتوانیم چنین استدلالی را یاد بگیریم»
این مقاله با کمک ربات ترجمیار ترجمه شده و توسط تیم ترجمه نسل جدید مورد بازبینی و ویرایش قرار گرفته است.
مطلبی دیگر از این انتشارات
مقدمهای بر الگوریتمهای ژنتیک
مطلبی دیگر از این انتشارات
صفر مطلق قابل دستیابی است؟ دانشمندان یک فرمول کوانتومی برای قانون سوم ترمودینامیک پیدا کردند
مطلبی دیگر از این انتشارات
۶ نکته طلایی برای راحتتر شدن مصاحبه در زوم