دوپامین و یادگیری تفاوت زمانی: یک رابطه مفید بین علوم اعصاب و هوش مصنوعی

منتشرشده در: وبلاگ دیپ‌مایند به تاریخ ۱۵ ژانویه ۲۰۲۰
لینک مقاله اصلی: https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI

یادگیری و انگیزش توسط پاداش‌های داخلی و خارجی هدایت می‌شوند. بسیاری از رفتارهای روزمره ما با پیش‌بینی هدایت می‌شوند، اینکه آیا یک عمل مشخص به یک نتیجه مثبت (یعنی پاداش) منجر خواهد شد یا خیر. مطالعه این که چگونه موجودات زنده از تجربه تا پیش‌بینی درست پاداش‌ها یاد می‌گیرند، بیش از یک قرن است که یک زمینه تحقیقاتی مفید است، درست از زمان کار روانشناس ایوان پاولوف. در مشهورترین آزمایش او، سگ‌ها بعد از اینکه صدای زنگ در آمد، آموزش دیدند که منتظر غذا باشند. این سگ‌ها به محض شنیدن صدا، قبل از رسیدن غذا شروع به ترشح بزاق کردند که نشان می‌داد یاد گرفته‌اند که پاداش را پیش‌بینی کنند. در آزمایش اصلی، پاولوف پیش‌بینی سگ‌ها را با اندازه‌گیری حجم بزاق تولید شده آن‌ها تخمین زد. اما در دهه‌های اخیر، دانشمندان شروع به کشف رمزگشایی درونی چگونگی یادگیری این انتظارات توسط مغز کرده‌اند. در عین حال، در تماس نزدیک با مطالعه یادگیری پاداش در حیوانات، دانشمندان کامپیوتر الگوریتم‌هایی را برای یادگیری تقویتی در سیستم‌های مصنوعی توسعه داده‌اند. این الگوریتم ها سیستم‌های هوش مصنوعی را قادر می‌سازند تا استراتژی‌های پیچیده را بدون آموزش خارجی بیاموزند و به جای آن توسط پیش‌بینی‌های پاداش هدایت شوند.

نقش کار جدید ما، که در مجله Nature (پی دی اف) منتشر شد، این است که پیشرفت اخیر در علوم کامپیوتر - که منجر به بهبود قابل‌توجه در عملکرد در زمینه مشکلات یادگیری تقویتی می‌شود - ممکن است توضیح عمیق و پارسیمونی برای چندین ویژگی ناشناخته قبلی پاداش یادگیری در مغز فراهم کند، و راه‌های جدیدی برای تحقیق در سیستم دوپامین مغز، با مفاهیم بالقوه برای یادگیری و اختلالات انگیزش باز کند.

یک زنجیره پیش‌بینی: یادگیری تفاوت زمانی

یادگیری تقویتی یکی از قدیمی‌ترین و قدرتمندترین ایده‌های مرتبط با علوم اعصاب و هوش مصنوعی است. در اواخر دهه ۱۹۸۰، محققان علوم کامپیوتر تلاش می‌کردند تا الگوریتم‌هایی را توسعه دهند که بتوانند نحوه انجام رفتارهای پیچیده را خودشان یاد بگیرند و تنها از پاداش و تنبیه به عنوان یک سیگنال آموزشی استفاده کنند. این پاداش‌ها در خدمت تقویت هر رفتاری هستند که منجر به کسب آن‌ها می‌شود. برای حل یک مشکل مشخص، لازم است بدانیم که چگونه اقدامات فعلی منجر به پاداش در آینده می‌شوند. برای مثال، یک دانش‌آموز ممکن است با تقویت یاد بگیرد که مطالعه برای امتحان منجر به نمرات بهتر در آزمون‌ها می‌شود. به منظور پیش‌بینی کل پاداش آینده که از یک عمل ناشی می‌شود، اغلب لازم است که گام‌های زیادی به سوی آینده برداشته شوند.

یک پیشرفت مهم در حل مساله پیش‌بینی پاداش، الگوریتم یادگیری تفاوت زمانی (TD) بود. در یادگیری تفاوت زمانی از یک ترفند ریاضی برای جایگزینی استدلال پیچیده در مورد آینده با یک روش یادگیری بسیار ساده استفاده می‌شود که می‌تواند نتایج مشابهی را تولید کند.

این ترفند است: به جای تلاش برای محاسبه کل پاداش آینده، یادگیری تفاوت زمانی به سادگی تلاش می‌کند تا ترکیبی از پاداش فوری و پیش‌بینی پاداش خود را در لحظه بعدی در زمان پیش‌بینی کند. سپس، در لحظه بعدی، با ارایه اطلاعات جدید، پیش‌بینی جدید با آنچه انتظار می‌رفت مقایسه می‌شود. اگر آن‌ها متفاوت باشند، الگوریتم محاسبه می‌کند که آن‌ها چقدر متفاوت هستند، و از این "تفاوت زمانی" برای تنظیم پیش‌بینی قدیمی نسبت به پیش‌بینی جدید استفاده می‌کند. با تلاش مداوم برای نزدیک کردن این اعداد به یکدیگر در هر لحظه - مطابق با انتظارات به واقعیت - کل زنجیره پیش‌بینی به تدریج دقیق‌تر می‌شود.

در همان زمان، در اواخر دهه ۸۰ و اوایل دهه ۹۰، دانشمندان مغز و اعصاب برای درک رفتار نورون‌های دوپامین تلاش می‌کردند. نورون‌های دوپامین به صورت گروهی در ناحیه میانی مغز قرار می‌گیرند اما فرافکنی را به بسیاری از نواحی مغزی می‌فرستند که به طور بالقوه برخی پیام‌های مرتبط جهانی را پخش می‌کنند. واضح بود که شلیک این نورون‌ها با پاداش ارتباط دارد اما پاسخ‌های آن‌ها نیز به ورودی‌های حسی وابسته است و با تجربه شدن بیشتر حیوانات در یک کار مشخص، تغییر می‌کند.

خوشبختانه، برخی از محققان در پیشرفت‌های اخیر علوم اعصاب و هوش مصنوعی مهارت داشتند. این دانشمندان در اواسط دهه ۱۹۹۰ متوجه شدند که پاسخ در برخی از نورون‌های دوپامین نشان‌دهنده خطاهای پیش‌بینی پاداش است - زمانی که حیوان پاداش بیشتر یا پاداش کمتری نسبت به آنچه که انتظار داشت دریافت کرد، شلیک آن‌ها نشان داده شد. بنابراین این محققان پیشنهاد کردند که مغز از یک الگوریتم یادگیری تفاوت زمانی استفاده می‌کند: خطای پیش‌بینی پاداش محاسبه می‌شود، از طریق سیگنال دوپامین به مغز پخش می‌شود، و برای هدایت یادگیری استفاده می‌شود. از آن زمان، نظریه خطای پیش‌بینی پاداش دوپامین در هزاران آزمایش تست و تایید شده‌است و به یکی از موفق‌ترین نظریه‌های کمی در علوم اعصاب تبدیل شده‌است.

یادگیری تقویتی توزیعی

شکل ۱: زمانی که آینده نامشخص است، پاداش آینده می‌تواند به عنوان یک توزیع احتمال نشان داده شود. برخی از آینده‌های ممکن خوب (سبز)و برخی دیگر بد (قرمز) هستند. یادگیری تقویتی توزیعی از طریق الگوریتم TD می‌تواند در مورد این توزیع نسبت به پاداش‌های پیش‌بینی‌شده اطلاعات کسب کند.
شکل ۱: زمانی که آینده نامشخص است، پاداش آینده می‌تواند به عنوان یک توزیع احتمال نشان داده شود. برخی از آینده‌های ممکن خوب (سبز)و برخی دیگر بد (قرمز) هستند. یادگیری تقویتی توزیعی از طریق الگوریتم TD می‌تواند در مورد این توزیع نسبت به پاداش‌های پیش‌بینی‌شده اطلاعات کسب کند.


دانشمندان علوم کامپیوتر به بهبود الگوریتم ها برای یادگیری از پاداش و جزا ادامه داده‌اند. از سال ۲۰۱۳، تمرکز بر یادگیری تقویت عمیق بوده‌است: استفاده از شبکه‌های عصبی عمیق برای یادگیری نمایش‌های قدرتمند در یادگیری تقویت. این امر الگوریتم های یادگیری تقویتی را قادر ساخته‌است تا مسایل بسیار پیچیده‌تر و مفیدتر را حل کنند.
یکی از پیشرفت‌های الگوریتمی که یادگیری تقویتی را با شبکه‌های عصبی بهتر کرده‌است یادگیری تقویتی توزیعی است. در بسیاری از موقعیت‌ها (به خصوص در دنیای واقعی)، مقدار پاداش آینده که از یک عمل خاص ناشی می‌شود یک کمیت کاملا شناخته‌شده نیست، اما در عوض شامل یک تصادفی است. یک مثال در شکل ۱ نشان‌داده شده‌است. این یک نمایش ساده از موقعیتی است که در آن یک آواتار کنترل‌شده با کامپیوتر، آموزش‌دیده برای عبور از یک مسیر مانع، بر روی یک شکاف می‌پرد. نماینده در مورد سقوط آن یا رسیدن آن به طرف دیگر مطمئن نیست. بنابراین، توزیع پاداش‌های پیش‌بینی‌شده دو برآمدگی دارد: یکی احتمال سقوط را نشان می‌دهد و دیگری احتمال رسیدن موفقیت‌آمیز به طرف دیگر را نشان می‌دهد.

در چنین شرایطی، یک الگوریتم یادگیری تفاوت زمانی استاندارد یاد می‌گیرد که پاداش آینده را که به طور متوسط دریافت خواهد شد پیش‌بینی کند - در این مورد، در بدست آوردن توزیع دو اوج بازده‌های بالقوه شکست می‌خورد. از طرف دیگر، یک الگوریتم یادگیری تقویتی توزیعی یاد می‌گیرد که طیف کامل پاداش‌های آینده را پیش‌بینی کند. شکل ۱ پیش‌بینی پاداش آموخته‌شده توسط یک عامل توزیعی را نشان می‌دهد.

طیفی از پیش‌بینی‌های بدبینانه و خوش بینانه

یکی از ساده‌ترین الگوریتم های یادگیری تقویتی توزیعی بسیار نزدیک به یادگیری تفاوت زمانی استاندارد است، و یادگیری تفاوت زمانی توزیعی نامیده می‌شود. درحالیکه استاندارد یادگیری تفاوت زمانی یک پیش‌بینی واحد را یاد می‌گیرد - متوسط پاداش مورد انتظار - یک شبکه یادگیری تفاوت زمانی توزیعی مجموعه‌ای از پیش‌بینی‌های متمایز را یاد می‌گیرد. هر یک از اینها از طریق همان روش استاندارد یادگیری تفاوت زمانی - با محاسبه یک خطای پیش‌بینی پاداش که تفاوت بین پیش‌بینی‌های متوالی را توصیف می‌کند، آموزش داده می‌شود. اما عنصر حیاتی این است که هر پیش‌بینی‌کننده یک تبدیل متفاوت را به خطاهای پیش‌بینی پاداش خود اعمال می‌کند. برخی از پیش‌بینی‌کننده‌ها خطاهای پیش‌بینی پاداش خود (RPE) را هنگامی که خطای پیش‌بینی پاداش مثبت است "تقویت" یا "اضافه‌وزن" می‌کنند (شکل ۲ a). این امر باعث می‌شود که پیش‌بینی‌کننده یک پیش‌بینی خوش بینانه تر پاداش را یاد بگیرد، که متناظر با بخش بالاتری از توزیع پاداش است. دیگر پیش‌بینی‌کننده‌ها خطاهای پیش‌بینی پاداش منفی خود را تقویت می‌کنند (شکل ۲ a)، و بنابراین پیش‌بینی‌های بدبینانه بیشتری یاد می‌گیرند. روی هم رفته، مجموعه‌ای از پیش‌بینی‌ها با مجموعه متنوعی از وزن‌های بد بینانه و خوش بینانه توزیع کامل پاداش را ترسیم می‌کنند (شکل ۲ b، ۲ c).

شکل ۲: توزیع، برآورد ارزش را برای بخش‌های مختلف توزیع پاداش یاد می‌گیرد.که بخشی از یک تخمین خاص به وسیله نوع به روز رسانی های نامتقارن اعمال‌شده به آن تخمین تعیین می‌شود. (a)یک سلول
شکل ۲: توزیع، برآورد ارزش را برای بخش‌های مختلف توزیع پاداش یاد می‌گیرد.که بخشی از یک تخمین خاص به وسیله نوع به روز رسانی های نامتقارن اعمال‌شده به آن تخمین تعیین می‌شود. (a)یک سلول "بدبینانه" به روز رسانی های منفی را تقویت کرده و به روز رسانی های مثبت را نادیده می‌گیرد، یک سلول "خوش بین" به روز رسانی های مثبت را تقویت کرده و به روز رسانی های منفی را نادیده می‌گیرد. (b)این نتیجه تنوع برآورده‌ای ارزش بدبینانه یا خوش بینانه است، که در اینجا به صورت نقاط در امتداد توزیع تجمعی پاداش‌ها نشان داده می‌شود، که توزیع کامل پاداش‌ها را به دست می‌دهد.



شکل ۳: میانه نمرات هنجار شده انسان در معیار atari - ۵۷، پژوهش اخیر در یادگیری تقویتی عمیق (سبز)و توزیعی (آبی).
شکل ۳: میانه نمرات هنجار شده انسان در معیار atari - ۵۷، پژوهش اخیر در یادگیری تقویتی عمیق (سبز)و توزیعی (آبی).


علاوه بر سادگی، مزیت دیگر یادگیری تقویتی توزیعی این است که وقتی با شبکه‌های عصبی عمیق ترکیب می‌شود بسیار قدرتمند است. در ۵ سال گذشته، پیشرفت‌های زیادی در الگوریتم‌های مبتنی بر یادگیری تقویتی عمیق عامل DQN صورت‌گرفته است، و این پیشرفت‌ها اغلب بر روی مجموعه معیار آتاری - ۵۷ از بازی Atari ۲۶۰۰ ارزیابی می‌شوند. شکل ۳ بسیاری از الگوریتم های استاندارد و توزیعی یادگیری تقویتی را که تحت شرایط یک‌سان آموزش‌دیده و ارزیابی شده‌اند، بر روی این بنچ‌مارک مقایسه می‌کند. عامل‌های یادگیری تقویتی توزیعی بصورت آبی نشان‌داده شده‌اند، و الگوی قابل‌توجه بهبود را نشان می‌دهند. سه الگوریتم (QR - DQN، IQN و FQF)از انواع الگوریتم یادگیری تفاوت زمانی توزیعی هستند که ما در مورد آن‌ها بحث کرده‌ایم.

چرا الگوریتم های یادگیری تقویتی توزیعی تا این حد موثر هستند؟

از آنجا که یادگیری تفاوت زمانی توزیعی در شبکه‌های عصبی مصنوعی بسیار قدرتمند است، یک سوال طبیعی مطرح می‌شود: آیا یادگیری تفاوت زمانی توزیعی در مغز استفاده می‌شود؟ این سوال اصلی مقاله ما بود که اخیرا در نشریه Nature منتشر شد.

در این تحقیق، ما با یک آزمایشگاه تجربی در دانشگاه هاروارد هم‌کاری کردیم تا ثبت سلول‌های دوپامین در موش‌ها را بررسی کنیم. آزمایش‌ها نشان داد در حالی که موش‌ها یک کار به خوبی آموخته‌شده را انجام دادند که در آن پاداش بزرگی غیرقابل‌پیش‌بینی دریافت کردند (که با تصویر تاس در شکل ۴ نشان‌داده شده‌است). ما ارزیابی کردیم که آیا فعالیت نورون‌های دوپامین با یادگیری تفاوت زمانی استاندارد یا یادگیری تفاوت زمانی توزیعی سازگاری بیشتری دارد.

همانطور که در بالا توضیح داده شد، یادگیری تفاوت زمانی توزیعی بر مجموعه‌ای از پیش‌بینی‌های پاداش مجزا تکیه دارد. اولین سوال ما این بود که آیا می‌توانیم چنین پیش‌بینی‌های پاداش واقعا متنوعی را در داده‌های عصبی ببینیم.

از تحقیقات قبلی می‌دانیم که سلول‌های دوپامین میزان شلیک خود را تغییر می‌دهند تا خطای پیش‌بینی را نشان دهند - یعنی، اگر حیوانی بیش از حد انتظار پاداش دریافت کند. می‌دانیم که وقتی پاداش دریافت می‌شود باید خطای پیش‌بینی صفر وجود داشته باشد که اندازه دقیق آن چیزی است که یک سلول پیش‌بینی کرده بود، و بنابراین هیچ تغییری در نرخ آتش وجود ندارد. برای هر سلول دوپامین، اندازه پاداش را تعیین کردیم که برای آن میزان شلیک پایه خود را تغییر نداد. ما این را نقطه برگشت سل می‌نامیم. ما می‌خواستیم بدانیم که آیا این نقاط معکوس بین سلول‌ها متفاوت هستند. در شکل ۴ c، ما نشان می‌دهیم که تفاوت‌های مشخصی بین سلول‌ها وجود دارد و برخی سلول‌ها مقادیر بسیار زیادی از پاداش را پیش‌بینی می‌کنند و سلول‌های دیگر پاداش بسیار کمی را پیش‌بینی می‌کنند. این تفاوت‌ها در بالا و فراتر از میزان تفاوت‌هایی بودند که ما انتظار داریم از تغییرات تصادفی ذاتی در ثبت‌ها ببینیم.

 شکل ۴: در این کار به موش‌ها پاداش آبی داده می‌شود که به صورت تصادفی تعیین می‌شود، مقدار متغیر آن از ۰.۱ تا ۲۰ میکرولیتر متغیر است (که با تاس مرتبط با مقادیر پاداش مشخص می‌شود).(a)پاسخ سلول‌های دوپامین شبیه‌سازی شده به هفت بزرگی مختلف پاداش تحت یک مدل td کلاسیک، و (b)تحت یک مدل توزیعی. هر ردیف از نقاط متناظر با یک سلول دوپامین است و هر رنگ متناظر با یک اندازه پاداش متفاوت است. منحنی‌های رنگی، درون یابی اسپلاین ها را در داده‌ها نشان می‌دهند. یک نقطه برگشت سلول (که نرخ شلیک خطای پیش‌بینی پاداش آن از صفر عبور می‌کند)مقدار پاداشی است که آن سلول خاص برای انتظار
شکل ۴: در این کار به موش‌ها پاداش آبی داده می‌شود که به صورت تصادفی تعیین می‌شود، مقدار متغیر آن از ۰.۱ تا ۲۰ میکرولیتر متغیر است (که با تاس مرتبط با مقادیر پاداش مشخص می‌شود).(a)پاسخ سلول‌های دوپامین شبیه‌سازی شده به هفت بزرگی مختلف پاداش تحت یک مدل td کلاسیک، و (b)تحت یک مدل توزیعی. هر ردیف از نقاط متناظر با یک سلول دوپامین است و هر رنگ متناظر با یک اندازه پاداش متفاوت است. منحنی‌های رنگی، درون یابی اسپلاین ها را در داده‌ها نشان می‌دهند. یک نقطه برگشت سلول (که نرخ شلیک خطای پیش‌بینی پاداش آن از صفر عبور می‌کند)مقدار پاداشی است که آن سلول خاص برای انتظار "تنظیم" می‌شود - به عنوان مثال مقدار پاداشی که یک سلول برای آن کم‌تر یا بیشتر از نرخ پایه خود شلیک نمی‌کند، زیرا انتظار آن برآورده شده‌است. (c)پاسخ سلول‌های دوپامین واقعی به هفت بزرگی مختلف پاداش با پیش‌بینی مدل توزیعی مطابقت دارد. این مجموعه‌ها سه مثال سلول با مقیاس بندی نسبی متفاوت از خطاهای پیش‌بینی پاداش مثبت و منفی را نشان می‌دهند.




در یادگیری تفاوت زمانی توزیعی، این تفاوت‌ها در پیش‌بینی پاداش ناشی از تقویت انتخابی خطاهای پیش‌بینی پاداش مثبت یا منفی است. تقویت خطاهای پیش‌بینی پاداش مثبت باعث یادگیری پیش‌بینی‌های پاداش خوش بینانه تر می‌شود؛ تقویت خطاهای پیش‌بینی پاداش منفی باعث پیش‌بینی بدبینانه می‌شود. بنابراین ما بعدا میزان اینکه سلول‌های دوپامین مختلف، تقویت‌کننده نسبی متفاوتی از انتظارات مثبت در مقابل انتظارات منفی نشان می‌دهند را اندازه‌گیری کردیم. بین سلول‌ها، تنوع قابل اعتمادی را یافتیم که با سر و صدا قابل توضیح نبود. و به طور کلی، ما متوجه شدیم که همان سلول‌هایی که خطاهای پیش‌بینی پاداش مثبت شان را تقویت کردند، نقاط معکوس بالاتری داشتند (شکل ۴ c، پانل‌های سمت راست پایین)- یعنی، آن‌ها ظاهرا برای انتظار حجم‌های پاداش بالاتر تنظیم شده‌بودند.

 شکل ۵: به عنوان یک جمعیت، سلول‌های دوپامین شکل توزیع پاداش آموخته‌شده را رمز گذاری می‌کنند: ما می‌توانیم توزیع پاداش را از میزان شلیک آن‌ها تشخیص دهیم.منطقه دارای سایه خاکستری، توزیع واقعی پاداش‌ها در این کار است. هر یک از ردلرزه های آبی، نمونه‌ای از اجرای الگوریتم رمز گشایی را نشان می‌دهند. آبی تیره به طور متوسط بیش از دویدن است.
شکل ۵: به عنوان یک جمعیت، سلول‌های دوپامین شکل توزیع پاداش آموخته‌شده را رمز گذاری می‌کنند: ما می‌توانیم توزیع پاداش را از میزان شلیک آن‌ها تشخیص دهیم.منطقه دارای سایه خاکستری، توزیع واقعی پاداش‌ها در این کار است. هر یک از ردلرزه های آبی، نمونه‌ای از اجرای الگوریتم رمز گشایی را نشان می‌دهند. آبی تیره به طور متوسط بیش از دویدن است.


در نهایت، نظریه یادگیری تفاوت زمانی توزیع‌شده پیش‌بینی می‌کند که این نقاط معکوس متنوع و تقارن‌های مختلف، در سراسر سلول‌ها، باید به طور جمعی توزیع پاداش آموخته‌شده را کدگذاری کنند. بنابراین سوال نهایی ما این بود که آیا می‌توانیم توزیع پاداش را از میزان شلیک سلول‌های دوپامین رمزگشایی کنیم. همانطور که در شکل ۵ نشان‌داده شده‌است، ما متوجه شدیم که در واقع تنها با استفاده از میزان شلیک سلول‌های دوپامین، می‌توانیم توزیع پاداش (اثر آبی)را بازسازی کنیم که تطابق بسیار نزدیکی با توزیع واقعی پاداش (ناحیه خاکستری)در کاری که موش‌ها در آن درگیر بودند داشت. این بازسازی بر تفسیر نرخ‌های شلیک سلول‌های دوپامین به عنوان خطاهای پیش‌بینی پاداش یک مدل یادگیری تفاوت زمانی توزیعی، و انجام استنتاج برای تعیین این که مدل در مورد چه توزیعی یاد گرفته‌است، تکیه داشت.

نتیجه‌گیری

به طور خلاصه، ما متوجه شدیم که نورون‌های دوپامین در مغز هر کدام به سطوح مختلفی از بدبینی یا خوش بینی تنظیم شده‌اند. اگر گروه کر بودند، همه آن‌ها یک نت نمی‌خواندند، بلکه هماهنگ بودند - هر کدام با یک آهنگ ثابت، مانند خوانندگان باس و سوپرانو. در سیستم‌های یادگیری تقویتی مصنوعی، این تنظیم متنوع یک سیگنال آموزشی غنی‌تر ایجاد می‌کند که یادگیری را در شبکه‌های عصبی سرعت می‌بخشد و ما حدس می‌زنیم که مغز ممکن است به همان دلیل از آن استفاده کند.

وجود یادگیری تقویتی توزیعی در مغز، پیامدهای جالبی هم برای هوش مصنوعی و هم علوم اعصاب دارد. اول، این کشف یادگیری تقویتی توزیعی را تایید می‌کند - به ما اطمینان می‌دهد که تحقیق هوش مصنوعی در مسیر درست قرار دارد، چون این الگوریتم در حال حاضر در هوشمندترین موجودیتی که از آن آگاه هستیم استفاده می‌شود: مغز.

دوم، سوالات جدیدی برای علم اعصاب و بینش‌های جدید برای درک سلامت روانی و انگیزه مطرح می‌کند. چه اتفاقی می‌افتد اگر مغز فرد به طور انتخابی به نورون‌های دوپامین خوش بین و بد بین گوش دهد؟ آیا این باعث تکانشگری یا افسردگی می‌شود؟ یک قدرت مغز نمایش قدرتمند آن است - این تصاویر چگونه با یادگیری توزیعی ساخته می‌شوند؟ زمانی که یک حیوان در مورد توزیع پاداش یاد می‌گیرد، چگونه این نمایش در جهت پایین‌دست مورد استفاده قرار می‌گیرد؟ تغییرپذیری خوش بینی در سلول‌های دوپامین چگونه به دیگر اشکال شناخته‌شده تنوع در مغز مربوط می‌شود؟

در نهایت، ما امیدواریم که پرسیدن و پاسخ دادن به این پرسش‌ها، پیشرفت در علوم اعصاب را تحریک کند که به نفع تحقیقات هوش مصنوعی و تکمیل دایره فضیلت است.


این متن با کمک مترجم مقاله هوش مصنوعی ترجمیار ترجمه شده و با کمترین ویرایش انسانی منتشر شده است. در مقاله اصلی ارجاعات به مقالات متعددی وجود داشته که می‌توانید آن‌ها را با استفاده از مقاله‌خوان ترجمیار به فارسی بخوانید.