برنامه نویس علاقه مند
الگوریتمی که از طریق پاداش یاد می گیرد ممکن است نشان دهد مغز ما چگونه عمل می کند
الگوریتم یادگیری تقویتی جدید شناختمان را نسبت به خودمان تغییر خواهد داد
برای علاقهمندان به هوش مصنوعی واژه یادگیری تقویتی ناآشنا نیست. یادگیری تقویتی الگوریتمی است که تلاش میکند با پاداش و مجازات ماشین را آموزش دهد. لاجیسیا در جدیدترین ترجمه خود مقالهای از MIT Technology Review برای مخاطبان خود آماده کرده است که الگوریتم جدید یادگیری تقویتی شرکت دیپمایند گوگل را برسی میکند و در ادامه به تاثیرات آن بر علم عصبشناسی و شناخت ما از مغز خودمان میپردازد.
تربیت سگها الهام بخش هوش مصنوعی اولیه
ماروین مینسکی که در سال 1951 دانشجوی دانشگاه هاروارد بود، از مشاهدات رفتارشناسی حیوانات برای طراحی یک ماشین هوشمند استفاده کرد. او از ایدههای کار ایوان پاولوف، فیزیولوژیستی مشهوری که با استفاده از سگها چگونگی یادگیری حیوانات از طریق مجازات و پاداش نشان داده بود، استفاده نمود تا رایانهای بسازد که میتوانست از طریق مشابه یعنی پاداش و مجازات مداوم برای هر کاری که انجام میدهد یاد بگیرد و یک هزارتوی مجازی را حل کند.
هر چند در آن زمان، دانشمندان علوم اعصاب مکانیسمهای موجود در مغز را که به حیوانات اجازه میداد از طریق یادگیری تقویتی آموزش ببینند را کشف نکرده بودند، اما مینسکی هنوز هم قادر بود خود این رفتار را تا حدی شبیهسازی کرده و به پیشبرد هوش مصنوعی خود بپردازد. چند دهه بعد، همانطور که یادگیری تقویتی به بلوغ خود ادامه میداد به نوبه خود به حوزه علوم اعصاب کمک کرد تا این مکانیسمها را کشف کرده و باعث ایجاد چرخهای از پیشرفت متقابل بین این دو زمینه شود.
طبق مقالهای که در سایت Nature today منتشر شده؛ شرکت دیپمایند(DeepMind) بار دیگر موفق به ارائه نظریه جدیدی در مورد مکانیزمهای پاداشدهی در مغز آن هم با استفاده از اطلاعاتی که از یادگیری تقویتی به دست آورده، شود. این فرضیه که توسط یافتههای تجربی اولیه تقویت میشود، نه تنها میتواند درک ما نسبت به سلامت روان و انگیزه بهبود بخشد؛ همچنین میتواند جهت فعلی تحقیقات هوش مصنوعی را به سمت ساختن هوش مصنوعی انسان گونهتر هدایت کند. اما این فرضیه جدید چه میگوید؟ قبل از توضیح این نظریه یک توضیح کوتاه درباره یادگیری تقویتی ارايه میدهیم.
نورونهای دوپامین چه نقشی در یادگیری تقویتی انسان دارند؟
اساس روش یادگیری تقویتی از شیوه تربیت سگهای پائولو الهام میگیرد؛ میتوان به یک عامل (agent) مهارتهای جدید و پیچیده را از طریق بازخورد مثبت و منفی (مجازات و پاداش) آموزش داد. یک الگوریتم وظیفه اختصاص داده شده را با پیشبینی تصادفی این که کدام عمل ممکن است پاداشی به همراه داشته باشد، یاد میگیرد. پس از میلیونها یا حتی میلیاردها آزمایش، خطای پیشبینی الگوریتم به صفر همگرا میشود. در این مرحله عامل میداند که دقیقاً برای رسیدن به حداکثر پاداش خود چه اقداماتی را باید انجام دهد و بنابراین وظیفه خود را به اتمام میرساند.
به نظر میرسید مکانیزم پاداش مغز که در دهه ۱۹۹۰ با الهام از الگوریتمهای یادگیری تقویتی کشف شد نیز به همین روش کار میکند. هنگامی که یک انسان یا حیوان در حال انجام عملی است نورونهای دوپامین موجود، یعنی نورونهایی که وظیفه ساخت دوپامین را بر عهده دارند، پاداش مورد انتظار را پیشبینی میکنند. پس از دریافت پاداش واقعی آنها مقداری دوپامین، که منطبق با خطای پیشبینی است، ترشح میکنند. پاداش بهتر از حد انتظار باعث آزاد شدن دوپامین میشود، در حالی که پاداش بدتر از حد انتظار تولید شیمیایی آن را سرکوب میکند. به عبارت بهتر، دوپامین به عنوان یک سیگنال تصحیح کننده عمل می کند و به نورونها میگوید پیشبینیهای خود را تا زمانی که به واقعیت نزدیک شوند تنظیم نمایند. این پدیده معروف به خطای پیشبینی پاداش، بسیار به یک الگوریتم یادگیری تقویتی شبیه است.
مطالب مجله لاجیسیا در خرداد سال 1399 به سایت اصلی لاجیسیا منتقل شد و مطالب جدید نیز به شیوه سابق در سایت اصلی منتشر خواهد شد.
تاثیرات الگوریتم جدید یادگیری تقویتی دیپمایند
در سال 2017، محققان دیپمایند الگوریتم یادگیری تقویتی را معرفی کردند که از آن زمان تاکنون عملکرد چشمگیری در انجام وظایف گوناگون به نمایش گذاشتهاست. آنها باور دارند مقالهی جدید آنها که بر پایه ارتباط بین هوش مصنوعی و علوم اعصاب بنا شدهاست میتواند توضیحی دقیقتر درباره عملکرد نورونهای دوپامین در مغز ارائه کند.
این الگوریتم بهبود یافته نحوه پیشبینی پاداش را تغییر میدهد. رویکرد قدیمی پاداش را به صورت یک عدد اسکالر برآورد میکرد که نمایشدهنده میانگین خروجی مورد انتظار بود اما رویکرد جدید آن را با دقت بیشتری به صورت یک توزیع احتمالاتی نشان میدهد. برای اینکه بهتر متوجه موضوع بشوید به یک دستگاه شانسی (Slot machine) فکر کنید: شما در هر دور با احتمال خاصی برنده یا بازنده میشوید ولی امکان ندارد در یک دور بازی مقادیر میانگین را به عنوان خروجی ماشین دریافت کنید؛ به عبارت دیگر مقادیر میانگین نمایشدهنده خروجی مورد انتظار ما نیست.
این تغییرات ما را به سمت نظریه جدیدی سوق میدهند: آیا نورونهای دوپامین نیز با همان روش و به صورت توزیع احتمالاتی پاداش را پیش بینی می کنند؟
برای آزمایش این تئوری دیپمایند با گروهی از محققان دانشگاه هاروارد همکاری کرد تا رفتار نورونهای دوپامین را در موشها مشاهده کند. آنها پس از اختصاص یک وظیفه به موشها، توسط یک تاس به آنها پاداش دادند و سپس الگوی ترشح نورونهای دوپامین آنها را بررسی کردند. نتایج آزمایشها نشان داد که هر نورون مقدار متفاوتی از دوپامین را آزاد میکند؛ یعنی هر نورون نتیجه متفاوتی پیشبینی میکرد. برخی بیش از حد "خوشبینانه" بودند و مقادیر بیشتری را نسبت به واقعیت پیشبینی میکردند، برخی دیگر "بدبینتر" بودند و مقادیر کمتری نسبت به واقعیت پیشبینی میکردند. هنگامی که محققان توزیع آن پیشبینیها را نگاشت کردند، نتایج به مقادیر پاداش اصلی شباهت زیادی داشت. این دادهها شواهد قانعکنندهای را ارائه می دهند مبنی بر اینکه مغز در واقع از پیشبینیهای توزیع پاداش برای الگوریتم یادگیری تقویتی خود استفاده میکند.
نتایج مطالعات جدید در کامپیوتر و علوم شناختی
این مطالعه پیامدهایی برای هوش مصنوعی و علوم اعصاب دارد. در وهله اول یادگیری تقویتی با توزیع احتمالاتی را به عنوان یک مسیر امیدوار کننده برای تواناییهای پیشرفتهتر هوش مصنوعی تأیید میکند. مت بوتووینک، مدیر تحقیقات علوم اعصاب دیپمایندو یکی از نویسندگان اصلی مقاله در گفتگوی مطبوعاتی گفت: "اگر مغز از آن استفاده میکند، پس این روش احتمالا یک روش مناسب است. نتایج این تحقیق به ما میگوید که این روش محاسباتی به خوبی میتواند در دنیای واقعی اجرا شود و همچنین به خوبی با سایر فرایندهای محاسباتی مطابقت داشته باشد. "
در وهله دوم می تواند یکی از تئوریهای متعارف در علوم اعصاب درباره سیستم پاداش دهی مغز را به بروزرسانی کند که به نوبه خود میتواند درک ما را نسبت به همه چیز، از انگیزه گرفته تا سلامت روان، بهبود بخشد. برای مثال وجود نورون های "خوشبین" و "بدبین" چه معنایی خواهد داشت؟ اگر مغز به طور انتخابی فقط به یکی از آن دسته واکنش نشان دهد می تواند منجر به عدم تعادل شیمیایی و افسردگی شود؟
سرانجام رمزگشایی بیشتر فرآیندهای مغز میتواند روشن کند که چه چیزی باعث ایجاد هوش انسانی میشود. بوتووینک گفت: "این تحقیق دیدگاه جدیدی به ما در مورد آنچه به مغز در طول زندگی روزمره میگذرد، میدهد."
مطالب مجله لاجیسیا در خرداد سال 1399 به سایت اصلی لاجیسیا منتقل شد و مطالب جدید نیز به شیوه سابق در سایت اصلی منتشر خواهد شد.
مطلبی دیگر از این انتشارات
هوش مصنوعی آلفااستار در بازی StarCarft II
مطلبی دیگر از این انتشارات
چرا دسترسی به اینترنت به یکی از موارد حقوق بشری تبدیل شده است
مطلبی دیگر از این انتشارات
هوشمندسازی تبریز، از حرف تا عمل