الگوریتمی که از طریق پاداش یاد می گیرد ممکن است نشان دهد مغز ما چگونه عمل می کند

الگوریتم یادگیری تقویتی جدید شناختمان را نسبت به خودمان تغییر خواهد داد
برای علاقه‌مندان به هوش مصنوعی واژه یادگیری تقویتی ناآشنا نیست. یادگیری تقویتی الگوریتمی است که تلاش می‌کند با پاداش و مجازات ماشین را آموزش دهد. لاجیسیا در جدیدترین ترجمه خود مقاله‌ای از MIT Technology Review برای مخاطبان خود آماده کرده است که الگوریتم جدید یادگیری تقویتی شرکت دیپ‌مایند گوگل را برسی میکند و در ادامه به تاثیرات آن بر علم عصب‌شناسی و شناخت ما از مغز خودمان می‌پردازد.

تربیت سگ‌ها الهام بخش هوش مصنوعی اولیه

ماروین مینسکی که در سال 1951 دانشجوی دانشگاه هاروارد بود، از مشاهدات رفتارشناسی حیوانات برای طراحی یک ماشین هوشمند استفاده کرد. او از ایده‌های کار ایوان پاولوف، فیزیولوژیستی مشهوری که با استفاده از سگ‌ها چگونگی یادگیری حیوانات از طریق مجازات و پاداش نشان داده بود، استفاده نمود تا رایانه‌ای بسازد که می‌توانست از طریق مشابه یعنی پاداش و مجازات مداوم برای هر کاری که انجام می‌دهد یاد بگیرد و یک هزارتوی مجازی را حل کند.

هر چند در آن زمان، دانشمندان علوم اعصاب مکانیسم‌های موجود در مغز را که به حیوانات اجازه می‌داد از طریق یادگیری تقویتی آموزش ببینند را کشف نکرده بودند، اما مینسکی هنوز هم قادر بود خود این رفتار را تا حدی شبیه‌سازی کرده و به پیشبرد هوش مصنوعی خود بپردازد. چند دهه بعد، همانطور که یادگیری تقویتی به بلوغ خود ادامه می‌داد به نوبه خود به حوزه علوم اعصاب کمک کرد تا این مکانیسم‌ها را کشف کرده و باعث ایجاد چرخه‌ای از پیشرفت متقابل بین این دو زمینه شود.

طبق مقاله‌ای که در سایت Nature today منتشر شده؛ شرکت دیپ‌مایند(DeepMind) بار دیگر موفق به ارائه نظریه‌‌ جدیدی در مورد مکانیزم‌های پاداش‌دهی در مغز آن هم با استفاده از اطلاعاتی که از یادگیری تقویتی به دست آورده، شود. این فرضیه که توسط یافته‌های تجربی اولیه تقویت می‌شود، نه تنها می‌تواند درک ما نسبت به سلامت روان و انگیزه بهبود بخشد؛ هم‌چنین می‌تواند جهت فعلی تحقیقات هوش مصنوعی را به سمت ساختن هوش مصنوعی انسان گونه‌تر هدایت کند. اما این فرضیه جدید چه می‌گوید؟ قبل از توضیح این نظریه یک توضیح کوتاه درباره یادگیری تقویتی ارايه می‌دهیم.

نورون‌های دوپامین چه نقشی در یادگیری تقویتی انسان دارند؟

یادگیری تقویتی در دنیای واقعی
یادگیری تقویتی در دنیای واقعی


اساس روش یادگیری تقویتی از شیوه تربیت سگ‌های پائولو الهام می‌گیرد؛ می‌توان به یک عامل (agent) مهارت‌های جدید و پیچیده را از طریق بازخورد مثبت و منفی (مجازات و پاداش) آموزش داد. یک الگوریتم وظیفه اختصاص‌ داده ‌شده را با پیش‌بینی تصادفی این که کدام عمل ممکن است پاداشی به همراه داشته باشد، یاد می‌گیرد. پس از میلیون‌ها یا حتی میلیارد‌ها آزمایش، خطای پیش‌بینی الگوریتم به صفر همگرا می‌شود. در این مرحله عامل می‌داند که دقیقاً برای رسیدن به حداکثر پاداش خود چه اقداماتی را باید انجام دهد و بنابراین وظیفه خود را به اتمام می‌رساند.

به نظر می‌رسید مکانیزم پاداش مغز که در دهه ۱۹۹۰ با الهام از الگوریتم‌های یادگیری تقویتی کشف شد نیز به همین روش کار می‌کند. هنگامی که یک انسان یا حیوان در حال انجام عملی است نورون‌های دوپامین موجود، یعنی نورون‌هایی که وظیفه ساخت دوپامین را بر عهده دارند، پاداش مورد انتظار را پیش‌بینی می‌کنند. پس از دریافت پاداش واقعی آنها مقداری دوپامین، که منطبق با خطای پیش‌بینی است، ترشح می‌کنند. پاداش بهتر از حد انتظار باعث آزاد شدن دوپامین می‌شود، در حالی که پاداش بدتر از حد انتظار تولید شیمیایی آن را سرکوب می‌کند. به عبارت بهتر، دوپامین به عنوان یک سیگنال تصحیح کننده عمل می کند و به نورون‌ها می‌گوید پیش‌بینی‌های خود را تا زمانی که به واقعیت نزدیک شوند تنظیم نمایند. این پدیده معروف به خطای پیش‌بینی پاداش، بسیار به یک الگوریتم یادگیری تقویتی شبیه است.


مطالب مجله لاجیسیا در خرداد سال 1399 به سایت اصلی لاجیسیا منتقل شد و مطالب جدید نیز به شیوه سابق در سایت اصلی منتشر خواهد شد.

تاثیرات الگوریتم جدید یادگیری تقویتی دیپ‌مایند

در سال 2017، محققان دیپ‌مایند الگوریتم یادگیری تقویتی را معرفی کردند که از آن زمان تاکنون عملکرد چشمگیری در انجام وظایف گوناگون به نمایش گذاشته‌است. آن‌ها باور دارند مقاله‌ی جدید آن‌ها که بر پایه ارتباط بین هوش مصنوعی و علوم اعصاب بنا شده‌است می‌تواند توضیحی دقیق‌تر درباره عملکرد نورون‌های دوپامین در مغز ارائه کند.

این الگوریتم بهبود یافته نحوه پیش‌بینی پاداش را تغییر می‌دهد. رویکرد قدیمی پاداش را به صورت یک عدد اسکالر برآورد می‌کرد که نمایش‌دهنده میانگین خروجی مورد انتظار بود اما رویکرد جدید آن را با دقت بیشتری به صورت یک توزیع احتمالاتی نشان می‌دهد. برای اینکه بهتر متوجه موضوع بشوید به یک دستگاه شانسی (Slot machine) فکر کنید: شما در هر دور با احتمال خاصی برنده یا بازنده می‌شوید ولی امکان ندارد در یک دور بازی مقادیر میانگین را به عنوان خروجی ماشین دریافت کنید؛ به عبارت دیگر مقادیر میانگین نمایش‌دهنده خروجی مورد انتظار ما نیست.


slot machine
slot machine


این تغییرات ما را به سمت نظریه جدیدی سوق میدهند: آیا نورون‌های دوپامین نیز با همان روش و به صورت توزیع احتمالاتی پاداش را پیش بینی می کنند؟

برای آزمایش این تئوری دیپ‌مایند با گروهی از محققان دانشگاه هاروارد همکاری کرد تا رفتار نورون‌های دوپامین را در موش‌ها مشاهده کند. آن‌ها پس از اختصاص یک وظیفه به موش‌ها، توسط یک تاس به آن‌ها پاداش دادند و سپس الگوی ترشح نورون‌های دوپامین آن‌ها را بررسی کردند. نتایج آزمایش‌ها نشان داد که هر نورون مقدار متفاوتی از دوپامین را آزاد می‌کند؛ یعنی هر نورون نتیجه متفاوتی پیش‌بینی ‌می‌کرد. برخی بیش از حد "خوش‌بینانه" بودند و مقادیر بیشتری را نسبت به واقعیت پیش‌بینی می‌کردند، برخی دیگر "بدبین‌تر" بودند و مقادیر کمتری نسبت به واقعیت پیش‌بینی می‌کردند. هنگامی که محققان توزیع آن پیش‌بینی‌ها را نگاشت کردند، نتایج به مقادیر پاداش اصلی شباهت زیادی داشت. این داده‌ها شواهد قانع‌کننده‌ای را ارائه می دهند مبنی بر اینکه مغز در واقع از پیش‌بینی‌های توزیع پاداش برای الگوریتم یادگیری تقویتی خود استفاده می‌کند.


محققان با اندازه گیری رفتار نورون دوپامین در موش ها، دریافتند که توزیع احتمالاتی پیش بینی نورون ها (رمز گشایی شده) به مقدار پاداش اصلی بسیار نزدیک است.
محققان با اندازه گیری رفتار نورون دوپامین در موش ها، دریافتند که توزیع احتمالاتی پیش بینی نورون ها (رمز گشایی شده) به مقدار پاداش اصلی بسیار نزدیک است.


نتایج مطالعات جدید در کامپیوتر و علوم شناختی

این مطالعه پیامدهایی برای هوش مصنوعی و علوم اعصاب دارد. در وهله اول یادگیری تقویتی با توزیع احتمالاتی را به عنوان یک مسیر امیدوار کننده برای توانایی‌های پیشرفته‌تر هوش مصنوعی تأیید می‌کند. مت بوتووینک، مدیر تحقیقات علوم اعصاب دیپ‌مایندو یکی از نویسندگان اصلی مقاله در گفتگوی مطبوعاتی گفت: "اگر مغز از آن استفاده می‌کند، پس این روش احتمالا یک روش مناسب است. نتایج این تحقیق به ما می‌گوید که این روش محاسباتی به خوبی می‌تواند در دنیای واقعی اجرا شود و همچنین به خوبی با سایر فرایندهای محاسباتی مطابقت داشته باشد. "

در وهله دوم می تواند یکی از تئوری‌های متعارف در علوم اعصاب درباره سیستم پاداش دهی مغز را به‌ بروزرسانی کند که به نوبه خود می‌تواند درک ما را نسبت به همه چیز، از انگیزه گرفته تا سلامت روان، بهبود بخشد. برای مثال وجود نورون های "خوشبین" و "بدبین" چه معنایی خواهد داشت؟ اگر مغز به طور انتخابی فقط به یکی از آن دسته واکنش نشان دهد می تواند منجر به عدم تعادل شیمیایی و افسردگی شود؟

سرانجام رمزگشایی بیشتر فرآیندهای مغز می‌تواند روشن کند که چه چیزی باعث ایجاد هوش انسانی می‌شود. بوتووینک گفت: "این تحقیق دیدگاه جدیدی به ما در مورد آنچه به مغز در طول زندگی روزمره می‌گذرد، می‌دهد."


مطالب مجله لاجیسیا در خرداد سال 1399 به سایت اصلی لاجیسیا منتقل شد و مطالب جدید نیز به شیوه سابق در سایت اصلی منتشر خواهد شد.