من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
دوپامین و یادگیری تفاوت زمانی: یک رابطه مفید بین علوم اعصاب و هوش مصنوعی
منتشرشده در: وبلاگ دیپمایند به تاریخ ۱۵ ژانویه ۲۰۲۰
لینک مقاله اصلی: https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI
یادگیری و انگیزش توسط پاداشهای داخلی و خارجی هدایت میشوند. بسیاری از رفتارهای روزمره ما با پیشبینی هدایت میشوند، اینکه آیا یک عمل مشخص به یک نتیجه مثبت (یعنی پاداش) منجر خواهد شد یا خیر. مطالعه این که چگونه موجودات زنده از تجربه تا پیشبینی درست پاداشها یاد میگیرند، بیش از یک قرن است که یک زمینه تحقیقاتی مفید است، درست از زمان کار روانشناس ایوان پاولوف. در مشهورترین آزمایش او، سگها بعد از اینکه صدای زنگ در آمد، آموزش دیدند که منتظر غذا باشند. این سگها به محض شنیدن صدا، قبل از رسیدن غذا شروع به ترشح بزاق کردند که نشان میداد یاد گرفتهاند که پاداش را پیشبینی کنند. در آزمایش اصلی، پاولوف پیشبینی سگها را با اندازهگیری حجم بزاق تولید شده آنها تخمین زد. اما در دهههای اخیر، دانشمندان شروع به کشف رمزگشایی درونی چگونگی یادگیری این انتظارات توسط مغز کردهاند. در عین حال، در تماس نزدیک با مطالعه یادگیری پاداش در حیوانات، دانشمندان کامپیوتر الگوریتمهایی را برای یادگیری تقویتی در سیستمهای مصنوعی توسعه دادهاند. این الگوریتم ها سیستمهای هوش مصنوعی را قادر میسازند تا استراتژیهای پیچیده را بدون آموزش خارجی بیاموزند و به جای آن توسط پیشبینیهای پاداش هدایت شوند.
نقش کار جدید ما، که در مجله Nature (پی دی اف) منتشر شد، این است که پیشرفت اخیر در علوم کامپیوتر - که منجر به بهبود قابلتوجه در عملکرد در زمینه مشکلات یادگیری تقویتی میشود - ممکن است توضیح عمیق و پارسیمونی برای چندین ویژگی ناشناخته قبلی پاداش یادگیری در مغز فراهم کند، و راههای جدیدی برای تحقیق در سیستم دوپامین مغز، با مفاهیم بالقوه برای یادگیری و اختلالات انگیزش باز کند.
یک زنجیره پیشبینی: یادگیری تفاوت زمانی
یادگیری تقویتی یکی از قدیمیترین و قدرتمندترین ایدههای مرتبط با علوم اعصاب و هوش مصنوعی است. در اواخر دهه ۱۹۸۰، محققان علوم کامپیوتر تلاش میکردند تا الگوریتمهایی را توسعه دهند که بتوانند نحوه انجام رفتارهای پیچیده را خودشان یاد بگیرند و تنها از پاداش و تنبیه به عنوان یک سیگنال آموزشی استفاده کنند. این پاداشها در خدمت تقویت هر رفتاری هستند که منجر به کسب آنها میشود. برای حل یک مشکل مشخص، لازم است بدانیم که چگونه اقدامات فعلی منجر به پاداش در آینده میشوند. برای مثال، یک دانشآموز ممکن است با تقویت یاد بگیرد که مطالعه برای امتحان منجر به نمرات بهتر در آزمونها میشود. به منظور پیشبینی کل پاداش آینده که از یک عمل ناشی میشود، اغلب لازم است که گامهای زیادی به سوی آینده برداشته شوند.
یک پیشرفت مهم در حل مساله پیشبینی پاداش، الگوریتم یادگیری تفاوت زمانی (TD) بود. در یادگیری تفاوت زمانی از یک ترفند ریاضی برای جایگزینی استدلال پیچیده در مورد آینده با یک روش یادگیری بسیار ساده استفاده میشود که میتواند نتایج مشابهی را تولید کند.
این ترفند است: به جای تلاش برای محاسبه کل پاداش آینده، یادگیری تفاوت زمانی به سادگی تلاش میکند تا ترکیبی از پاداش فوری و پیشبینی پاداش خود را در لحظه بعدی در زمان پیشبینی کند. سپس، در لحظه بعدی، با ارایه اطلاعات جدید، پیشبینی جدید با آنچه انتظار میرفت مقایسه میشود. اگر آنها متفاوت باشند، الگوریتم محاسبه میکند که آنها چقدر متفاوت هستند، و از این "تفاوت زمانی" برای تنظیم پیشبینی قدیمی نسبت به پیشبینی جدید استفاده میکند. با تلاش مداوم برای نزدیک کردن این اعداد به یکدیگر در هر لحظه - مطابق با انتظارات به واقعیت - کل زنجیره پیشبینی به تدریج دقیقتر میشود.
در همان زمان، در اواخر دهه ۸۰ و اوایل دهه ۹۰، دانشمندان مغز و اعصاب برای درک رفتار نورونهای دوپامین تلاش میکردند. نورونهای دوپامین به صورت گروهی در ناحیه میانی مغز قرار میگیرند اما فرافکنی را به بسیاری از نواحی مغزی میفرستند که به طور بالقوه برخی پیامهای مرتبط جهانی را پخش میکنند. واضح بود که شلیک این نورونها با پاداش ارتباط دارد اما پاسخهای آنها نیز به ورودیهای حسی وابسته است و با تجربه شدن بیشتر حیوانات در یک کار مشخص، تغییر میکند.
خوشبختانه، برخی از محققان در پیشرفتهای اخیر علوم اعصاب و هوش مصنوعی مهارت داشتند. این دانشمندان در اواسط دهه ۱۹۹۰ متوجه شدند که پاسخ در برخی از نورونهای دوپامین نشاندهنده خطاهای پیشبینی پاداش است - زمانی که حیوان پاداش بیشتر یا پاداش کمتری نسبت به آنچه که انتظار داشت دریافت کرد، شلیک آنها نشان داده شد. بنابراین این محققان پیشنهاد کردند که مغز از یک الگوریتم یادگیری تفاوت زمانی استفاده میکند: خطای پیشبینی پاداش محاسبه میشود، از طریق سیگنال دوپامین به مغز پخش میشود، و برای هدایت یادگیری استفاده میشود. از آن زمان، نظریه خطای پیشبینی پاداش دوپامین در هزاران آزمایش تست و تایید شدهاست و به یکی از موفقترین نظریههای کمی در علوم اعصاب تبدیل شدهاست.
یادگیری تقویتی توزیعی
دانشمندان علوم کامپیوتر به بهبود الگوریتم ها برای یادگیری از پاداش و جزا ادامه دادهاند. از سال ۲۰۱۳، تمرکز بر یادگیری تقویت عمیق بودهاست: استفاده از شبکههای عصبی عمیق برای یادگیری نمایشهای قدرتمند در یادگیری تقویت. این امر الگوریتم های یادگیری تقویتی را قادر ساختهاست تا مسایل بسیار پیچیدهتر و مفیدتر را حل کنند.
یکی از پیشرفتهای الگوریتمی که یادگیری تقویتی را با شبکههای عصبی بهتر کردهاست یادگیری تقویتی توزیعی است. در بسیاری از موقعیتها (به خصوص در دنیای واقعی)، مقدار پاداش آینده که از یک عمل خاص ناشی میشود یک کمیت کاملا شناختهشده نیست، اما در عوض شامل یک تصادفی است. یک مثال در شکل ۱ نشانداده شدهاست. این یک نمایش ساده از موقعیتی است که در آن یک آواتار کنترلشده با کامپیوتر، آموزشدیده برای عبور از یک مسیر مانع، بر روی یک شکاف میپرد. نماینده در مورد سقوط آن یا رسیدن آن به طرف دیگر مطمئن نیست. بنابراین، توزیع پاداشهای پیشبینیشده دو برآمدگی دارد: یکی احتمال سقوط را نشان میدهد و دیگری احتمال رسیدن موفقیتآمیز به طرف دیگر را نشان میدهد.
در چنین شرایطی، یک الگوریتم یادگیری تفاوت زمانی استاندارد یاد میگیرد که پاداش آینده را که به طور متوسط دریافت خواهد شد پیشبینی کند - در این مورد، در بدست آوردن توزیع دو اوج بازدههای بالقوه شکست میخورد. از طرف دیگر، یک الگوریتم یادگیری تقویتی توزیعی یاد میگیرد که طیف کامل پاداشهای آینده را پیشبینی کند. شکل ۱ پیشبینی پاداش آموختهشده توسط یک عامل توزیعی را نشان میدهد.
طیفی از پیشبینیهای بدبینانه و خوش بینانه
یکی از سادهترین الگوریتم های یادگیری تقویتی توزیعی بسیار نزدیک به یادگیری تفاوت زمانی استاندارد است، و یادگیری تفاوت زمانی توزیعی نامیده میشود. درحالیکه استاندارد یادگیری تفاوت زمانی یک پیشبینی واحد را یاد میگیرد - متوسط پاداش مورد انتظار - یک شبکه یادگیری تفاوت زمانی توزیعی مجموعهای از پیشبینیهای متمایز را یاد میگیرد. هر یک از اینها از طریق همان روش استاندارد یادگیری تفاوت زمانی - با محاسبه یک خطای پیشبینی پاداش که تفاوت بین پیشبینیهای متوالی را توصیف میکند، آموزش داده میشود. اما عنصر حیاتی این است که هر پیشبینیکننده یک تبدیل متفاوت را به خطاهای پیشبینی پاداش خود اعمال میکند. برخی از پیشبینیکنندهها خطاهای پیشبینی پاداش خود (RPE) را هنگامی که خطای پیشبینی پاداش مثبت است "تقویت" یا "اضافهوزن" میکنند (شکل ۲ a). این امر باعث میشود که پیشبینیکننده یک پیشبینی خوش بینانه تر پاداش را یاد بگیرد، که متناظر با بخش بالاتری از توزیع پاداش است. دیگر پیشبینیکنندهها خطاهای پیشبینی پاداش منفی خود را تقویت میکنند (شکل ۲ a)، و بنابراین پیشبینیهای بدبینانه بیشتری یاد میگیرند. روی هم رفته، مجموعهای از پیشبینیها با مجموعه متنوعی از وزنهای بد بینانه و خوش بینانه توزیع کامل پاداش را ترسیم میکنند (شکل ۲ b، ۲ c).
علاوه بر سادگی، مزیت دیگر یادگیری تقویتی توزیعی این است که وقتی با شبکههای عصبی عمیق ترکیب میشود بسیار قدرتمند است. در ۵ سال گذشته، پیشرفتهای زیادی در الگوریتمهای مبتنی بر یادگیری تقویتی عمیق عامل DQN صورتگرفته است، و این پیشرفتها اغلب بر روی مجموعه معیار آتاری - ۵۷ از بازی Atari ۲۶۰۰ ارزیابی میشوند. شکل ۳ بسیاری از الگوریتم های استاندارد و توزیعی یادگیری تقویتی را که تحت شرایط یکسان آموزشدیده و ارزیابی شدهاند، بر روی این بنچمارک مقایسه میکند. عاملهای یادگیری تقویتی توزیعی بصورت آبی نشانداده شدهاند، و الگوی قابلتوجه بهبود را نشان میدهند. سه الگوریتم (QR - DQN، IQN و FQF)از انواع الگوریتم یادگیری تفاوت زمانی توزیعی هستند که ما در مورد آنها بحث کردهایم.
چرا الگوریتم های یادگیری تقویتی توزیعی تا این حد موثر هستند؟
از آنجا که یادگیری تفاوت زمانی توزیعی در شبکههای عصبی مصنوعی بسیار قدرتمند است، یک سوال طبیعی مطرح میشود: آیا یادگیری تفاوت زمانی توزیعی در مغز استفاده میشود؟ این سوال اصلی مقاله ما بود که اخیرا در نشریه Nature منتشر شد.
در این تحقیق، ما با یک آزمایشگاه تجربی در دانشگاه هاروارد همکاری کردیم تا ثبت سلولهای دوپامین در موشها را بررسی کنیم. آزمایشها نشان داد در حالی که موشها یک کار به خوبی آموختهشده را انجام دادند که در آن پاداش بزرگی غیرقابلپیشبینی دریافت کردند (که با تصویر تاس در شکل ۴ نشانداده شدهاست). ما ارزیابی کردیم که آیا فعالیت نورونهای دوپامین با یادگیری تفاوت زمانی استاندارد یا یادگیری تفاوت زمانی توزیعی سازگاری بیشتری دارد.
همانطور که در بالا توضیح داده شد، یادگیری تفاوت زمانی توزیعی بر مجموعهای از پیشبینیهای پاداش مجزا تکیه دارد. اولین سوال ما این بود که آیا میتوانیم چنین پیشبینیهای پاداش واقعا متنوعی را در دادههای عصبی ببینیم.
از تحقیقات قبلی میدانیم که سلولهای دوپامین میزان شلیک خود را تغییر میدهند تا خطای پیشبینی را نشان دهند - یعنی، اگر حیوانی بیش از حد انتظار پاداش دریافت کند. میدانیم که وقتی پاداش دریافت میشود باید خطای پیشبینی صفر وجود داشته باشد که اندازه دقیق آن چیزی است که یک سلول پیشبینی کرده بود، و بنابراین هیچ تغییری در نرخ آتش وجود ندارد. برای هر سلول دوپامین، اندازه پاداش را تعیین کردیم که برای آن میزان شلیک پایه خود را تغییر نداد. ما این را نقطه برگشت سل مینامیم. ما میخواستیم بدانیم که آیا این نقاط معکوس بین سلولها متفاوت هستند. در شکل ۴ c، ما نشان میدهیم که تفاوتهای مشخصی بین سلولها وجود دارد و برخی سلولها مقادیر بسیار زیادی از پاداش را پیشبینی میکنند و سلولهای دیگر پاداش بسیار کمی را پیشبینی میکنند. این تفاوتها در بالا و فراتر از میزان تفاوتهایی بودند که ما انتظار داریم از تغییرات تصادفی ذاتی در ثبتها ببینیم.
در یادگیری تفاوت زمانی توزیعی، این تفاوتها در پیشبینی پاداش ناشی از تقویت انتخابی خطاهای پیشبینی پاداش مثبت یا منفی است. تقویت خطاهای پیشبینی پاداش مثبت باعث یادگیری پیشبینیهای پاداش خوش بینانه تر میشود؛ تقویت خطاهای پیشبینی پاداش منفی باعث پیشبینی بدبینانه میشود. بنابراین ما بعدا میزان اینکه سلولهای دوپامین مختلف، تقویتکننده نسبی متفاوتی از انتظارات مثبت در مقابل انتظارات منفی نشان میدهند را اندازهگیری کردیم. بین سلولها، تنوع قابل اعتمادی را یافتیم که با سر و صدا قابل توضیح نبود. و به طور کلی، ما متوجه شدیم که همان سلولهایی که خطاهای پیشبینی پاداش مثبت شان را تقویت کردند، نقاط معکوس بالاتری داشتند (شکل ۴ c، پانلهای سمت راست پایین)- یعنی، آنها ظاهرا برای انتظار حجمهای پاداش بالاتر تنظیم شدهبودند.
در نهایت، نظریه یادگیری تفاوت زمانی توزیعشده پیشبینی میکند که این نقاط معکوس متنوع و تقارنهای مختلف، در سراسر سلولها، باید به طور جمعی توزیع پاداش آموختهشده را کدگذاری کنند. بنابراین سوال نهایی ما این بود که آیا میتوانیم توزیع پاداش را از میزان شلیک سلولهای دوپامین رمزگشایی کنیم. همانطور که در شکل ۵ نشانداده شدهاست، ما متوجه شدیم که در واقع تنها با استفاده از میزان شلیک سلولهای دوپامین، میتوانیم توزیع پاداش (اثر آبی)را بازسازی کنیم که تطابق بسیار نزدیکی با توزیع واقعی پاداش (ناحیه خاکستری)در کاری که موشها در آن درگیر بودند داشت. این بازسازی بر تفسیر نرخهای شلیک سلولهای دوپامین به عنوان خطاهای پیشبینی پاداش یک مدل یادگیری تفاوت زمانی توزیعی، و انجام استنتاج برای تعیین این که مدل در مورد چه توزیعی یاد گرفتهاست، تکیه داشت.
نتیجهگیری
به طور خلاصه، ما متوجه شدیم که نورونهای دوپامین در مغز هر کدام به سطوح مختلفی از بدبینی یا خوش بینی تنظیم شدهاند. اگر گروه کر بودند، همه آنها یک نت نمیخواندند، بلکه هماهنگ بودند - هر کدام با یک آهنگ ثابت، مانند خوانندگان باس و سوپرانو. در سیستمهای یادگیری تقویتی مصنوعی، این تنظیم متنوع یک سیگنال آموزشی غنیتر ایجاد میکند که یادگیری را در شبکههای عصبی سرعت میبخشد و ما حدس میزنیم که مغز ممکن است به همان دلیل از آن استفاده کند.
وجود یادگیری تقویتی توزیعی در مغز، پیامدهای جالبی هم برای هوش مصنوعی و هم علوم اعصاب دارد. اول، این کشف یادگیری تقویتی توزیعی را تایید میکند - به ما اطمینان میدهد که تحقیق هوش مصنوعی در مسیر درست قرار دارد، چون این الگوریتم در حال حاضر در هوشمندترین موجودیتی که از آن آگاه هستیم استفاده میشود: مغز.
دوم، سوالات جدیدی برای علم اعصاب و بینشهای جدید برای درک سلامت روانی و انگیزه مطرح میکند. چه اتفاقی میافتد اگر مغز فرد به طور انتخابی به نورونهای دوپامین خوش بین و بد بین گوش دهد؟ آیا این باعث تکانشگری یا افسردگی میشود؟ یک قدرت مغز نمایش قدرتمند آن است - این تصاویر چگونه با یادگیری توزیعی ساخته میشوند؟ زمانی که یک حیوان در مورد توزیع پاداش یاد میگیرد، چگونه این نمایش در جهت پاییندست مورد استفاده قرار میگیرد؟ تغییرپذیری خوش بینی در سلولهای دوپامین چگونه به دیگر اشکال شناختهشده تنوع در مغز مربوط میشود؟
در نهایت، ما امیدواریم که پرسیدن و پاسخ دادن به این پرسشها، پیشرفت در علوم اعصاب را تحریک کند که به نفع تحقیقات هوش مصنوعی و تکمیل دایره فضیلت است.
این متن با کمک مترجم مقاله هوش مصنوعی ترجمیار ترجمه شده و با کمترین ویرایش انسانی منتشر شده است. در مقاله اصلی ارجاعات به مقالات متعددی وجود داشته که میتوانید آنها را با استفاده از مقالهخوان ترجمیار به فارسی بخوانید.
مطلبی دیگر از این انتشارات
مولکول شناساییشده جدید میتواند چربی بدن را بسوزاند
مطلبی دیگر از این انتشارات
۱۰ ابزار کار هوشمند برتر در محل کار در سال ۲۰۲۲
مطلبی دیگر از این انتشارات
این ماده مانند حیوانات یاد میگیرد و میتواند به تحقیقات بیشتر در مورد هوش مصنوعی کمک کند