دیدگاه خوش بینانه در مورد یادگیری تقویتی آفلاین

منتشر شده در: Google AI blog به تاریخ ۱۴ آوریل ۲۰۲۰
لینک مطلب اصلی: An Optimistic Perspective on Offline Reinforcement Learning

« پتانسیل یادگیری بدون خط مشی هنوز هم وسوسه‌انگیز است، بهترین راه برای رسیدن به آن هنوز هم یک راز دست‌نیافتنی است.» Sutton & Barto

اغلب الگوریتم‌های یادگیری تقویتی فرض می‌کنند که یک عامل به طور فعال با یک محیط آنلاین برای یادگیری از تجربه جمع‌آوری‌شده خود تعامل می‌کند. این الگوریتم ها برای کاربرد در مسائل پیچیده دنیای واقعی (مانند رباتیک و رانندگی مستقل) چالش برانگیز هستند، زیرا جمع‌آوری داده‌های گسترده از دنیای واقعی می‌تواند بسیار ناکارآمد باشد و منجر به رفتار ناخواسته شود، در حالی که کسانی که در شبیه‌سازی کار می‌کنند نیاز به شبیه سازهای با صحت بالا دارند که ساخت آن‌ها چالش برانگیز است. با این حال، برای بسیاری از کاربردهای دنیای واقعی  یادگیری تقویتی، در حال حاضر مقدار زیادی از داده‌های تعامل قبلا جمع‌آوری‌شده وجود دارد که می‌تواند برای عملی کردن یادگیری تقویتیبرای آن مشکلات استفاده شود و امکان تعمیم بهتر را با گنجاندن تجارب پیشین متنوع فراهم می‌کند.

داده‌های تعامل موجود را می توان به طور موثر با استفاده از یادگیری تقویتی آفلاین استفاده کرد، که تنظیمات کاملا بدون خط مشی یادگیری تقویتی است که در آن یک نماینده از یک مجموعه داده ثابت از تجربیات ثبت‌شده بدون هیچ تعامل بیشتر با محیط آموزش‌دیده است. این الگوریتم می‌تواند با استفاده از داده‌های موجود به (۱) پیش آموزش یک عامل یادگیری تقویتی کمک کند، (۲) ارزیابی تجربی الگوریتم‌های یادگیری تقویتی براساس توانایی آن‌ها در استفاده از یک مجموعه داده ثابت از تعاملات و (۳) ارایه تاثیر واقعی. با این حال، یادگیری تقویتی آفلاین به دلیل عدم تطابق توزیع بین تعاملات آنلاین و هر مجموعه داده ثابت از تعاملات ثبت‌شده چالش برانگیز تلقی می‌شود، به عنوان مثال، زمانی که عامل یاد گرفته‌شده اقدامی متفاوت از عامل جمع‌آوری داده انجام می‌دهد، ما پاداشی را که باید ارائه شود نمی‌دانیم.

در «یک دیدگاه خوش بینانه در یادگیری تقویتی آفلاین»، ما یک آماده‌سازی آزمایشی ساده برای یادگیری تقویتی آفلاین در بازی‌های آتاری ۲۶۰۰، براساس تجربیات ثبت‌شده یک عامل DQN پیشنهاد می‌کنیم. ما نشان می‌دهیم که آموزش عواملی با بازده‌های بالا که بهتر از عوامل جمع‌آوری داده عمل می‌کنند با استفاده از الگوریتم های استاندارد  یادگیری تقویتی بدون خط مشی، بدون اصلاح صریح برای هر عدم انطباق توزیع امکان پذیر است. همچنین یک الگوریتم قدرتمند یادگیری تقویتی به نام اختلاط مجموعه تصادفی (REM) ایجاد می‌کنیم که نتایج امیدوار کننده‌ای را در مورد یادگیری تقویتی آفلاین نشان می‌دهد. به طور کلی، ما یک دیدگاه خوشبینانه‌ای را ارایه می‌دهیم که الگوریتم های مقاوم یادگیری تقویتی آموزش‌دیده بر روی مجموعه داده‌های به اندازه کافی بزرگ و متنوع آفلاین می‌توانند منجر به رفتار با کیفیت بالا و تقویت الگوی داده محور یادگیری تقویتی شوند. برای تسهیل توسعه و ارزیابی روش‌های یادگیری تقویتی آفلاین، ما همچنین به طور عمومی DQN RePlay Dataset را منتشر می‌کنیم و کد خود را با منبع باز منتشر می‌کنیم. جزئیات بیشتری را می توانید در offline-rl.github.io بیابید.

مقدمه‌ای بر یادگیری تقویتی بدون خط مشی و آفلاین

عوامل آنلاین، یادگیری تقویتی بدون خط مشی، مانند DQN، بدون هیچ گونه آگاهی صریح در مورد بازی، در بازی‌های آتاری ۲۶۰۰ تنها با مشاهده صفحه بازی به عملکرد سطح انسانی دست می‌یابند. DQN کارایی یک عمل در یک وضعیت مشخص از محیط را بر حسب حداکثر پاداش‌های قابل حصول آینده (یعنی ارزش‌های Q) تخمین می‌زند. علاوه بر این، عوامل توزیعی اخیر یادگیری تقویتی، مانند QR-DQN، به جای یک مقدار مورد انتظار برای هر جفت کنش دولت، کل توزیع پاداش‌های احتمالی آینده را مدل می‌کنند. عواملی مانند DQN و QR-DQN به صورت آنلاین در نظر گرفته می‌شوند زیرا آن‌ها یک خط مشی را بهینه می‌کنند (چگونه یک عامل در یک حالت معین عمل می‌کند) و از آن خط مشی برای جمع‌آوری داده‌های بیشتر استفاده می‌کنند.

در اصل، عوامل یادگیری تقویتی بدون خط مشی می‌توانند از داده‌های جمع‌آوری‌شده توسط هر خط مشی، نه تنها این خط مشی بهینه شود. با این حال، در شرایط آفلاین، کارهای اخیر دیدگاه دلسردکننده‌ای را نشان می دهد که عوامل استاندارد بدون خط مشی متفاوت هستند یا عملکرد ضعیفی دارند. برای رفع این مشکل، کار قبلی روش‌هایی را از طریق تنظیم خط مشی آموخته‌شده برای نزدیک ماندن به مجموعه داده تعاملات آفلاین پیشنهاد می‌کند.

مجموعه داده DQN Replay برای یادگیری تقویتی آفلاین در این کار، ابتدا با ایجاد مجموعه داده DQN Replay، از یادگیری تقویتی آفلاین بازدید می کنیم.
این مجموعه داده با استفاده از عوامل DQN آموزش‌دیده بر روی ۶۰ بازی آتاری ۲۶۰۰ برای هر ۲۰۰ میلیون فریم تولید می‌شود، در حالی که با استفاده از اقدامات چسبنده (با احتمال ۲۵٪ که اقدام قبلی نماینده به جای اقدام فعلی اجرا می‌شود) مشکل را چالش برانگیزتر می‌کند. برای هر کدام از ۶۰ بازی، ما ۵ عامل DQN را با مقداردهی اولیه تصادفی مختلف آموزش می‌دهیم، و تمام چند نمونه (حالت، عمل، پاداش، حالت بعدی) را در طول آموزش در ۵ مجموعه داده بازپخش در هر بازی ذخیره می‌کنیم، که منجر به مجموع ۳۰۰ مجموعه داده می‌شود.

سپس مجموعه داده DQN Replay می‌تواند برای آموزش عوامل یادگیری تقویتی آفلاین بدون هیچ گونه تعامل با محیط در طول آموزش مورد استفاده قرار گیرد. هر مجموعه داده تکرار بازی تقریبا ۳.۵ برابر بزرگ‌تر از ImageNet است و شامل نمونه‌هایی از تمام خط مشی‌های میانی است که در طول بهینه‌سازی آنلاین DQN دیده می‌شود.

عوامل آموزش آفلاین در بازی مجموعه داده پاسخ DQN

ما انواع آفلاین DQN و QR-DQN توزیعی را بر روی DQN RePlay Dataset آموزش دادیم. اگر چه مجموعه داده‌های آفلاین حاوی داده‌های تجربه‌شده توسط عامل DQN هستند که در طول زمان با پیشرفت آموزش بهبود می‌یابند، ما عملکرد عوامل آفلاین را با بهترین عملکرد عامل DQN آنلاین به‌دست‌آمده پس از آموزش مقایسه کردیم (یعنی، یک DQN کاملا آموزش‌دیده).

برای هر بازی، ما ۵ عامل آفلاین آموزش‌دیده (یک در هر مجموعه داده) را با استفاده از بازده‌های آنلاین ارزیابی کردیم و بهترین عملکرد متوسط را گزارش کردیم. DQN آفلاین در همه بازی‌ها به جز چند بازی به طور کامل آموزش‌دیده آنلاین DQN عمل می‌کند، که در آن به امتیازات بالاتری با همان مقدار داده دست می‌یابد. از سوی دیگر، QR-DQN آفلاین بهتر از DQN برون‌خط و DQN کاملا آموزش‌دیده در بیشتر بازی‌ها عمل می‌کند. این نتایج نشان می‌دهد که می توان عوامل قوی آفلاین را با استفاده از الگوریتم های استاندارد عمیق یادگیری تقویتی بهینه کرد. علاوه بر این، اختلاف بین عملکرد QR-DQN آفلاین و DQN تفاوت در توانایی آن‌ها برای بهره‌برداری از داده‌های آفلاین را نشان می‌دهد.

معرفی دو عامل آفلاین قدرتمند یادگیری تقویتی

در یادگیری تقویتی آنلاین، یک نماینده اقداماتی را انتخاب می‌کند که فکر می‌کند به پاداش بالایی منجر خواهد شد، و سپس بازخورد اصلاحی دریافت می‌کند. از آنجا که جمع‌آوری داده‌های اضافی در یادگیری تقویتی آفلاین امکان پذیر نیست، لازم است با استفاده از یک مجموعه داده ثابت در مورد تعمیم استدلال شود. ما با نقض روش‌های یادگیری تحت نظارت که از مجموعه‌ای از مدل‌ها برای بهبود تعمیم استفاده می‌کنند، دو عامل جدید یادگیری تقویتی آفلاین را معرفی می‌کنیم:

  • پشتیبانی-DQN بسط ساده‌ای از DQN است که برآوردهای متعدد مقادیر Q را آموزش می‌دهد و از آن‌ها برای ارزیابی میانگین می‌گیرد.
  • ترکیب تصادفی اجرا شده (REM) یک تعمیم از DQN با الهام از Dropout است. درک کلیدی پشت REM این است که اگر کسی به برآوردهای چندگانه مقادیر Q دسترسی داشته باشد، آنگاه ترکیب وزنی برآوردهای مقدار Q نیز تخمینی برای مقادیر Q است. بر این اساس، در هر مرحله آموزش، REM به طور تصادفی برآوردهای متعدد مقدار Q را ترکیب می‌کند و از این ترکیب تصادفی برای آموزش قوی استفاده می‌کند.


برای استفاده موثرتر از DQN، ما عوامل آفلاین را برای پنج برابر تعداد تکرارهای آموزشی DQN آنلاین آموزش می‌دهیم و عملکرد آن‌ها را در زیر گزارش می‌کنیم. REM آفلاین بهتر از DQN آفلاین و QR-DQN آفلاین عمل می‌کند. مقایسه با C51 آنلاین کاملا آموزش‌دیده، یک عامل توزیعی قوی، نشان می‌دهد که سود REM آفلاین بیشتر از سود C51 است.

با استفاده از پروتکل‌های آموزشی استاندارد در آتاری، REM آنلاین با QR-DQN در تنظیمات استاندارد آنلاین RL برابر است. این نشان می‌دهد که ما می‌توانیم از بینش‌های به‌دست‌آمده از DQN RePlay Dataset و تنظیمات یادگیری تقویتی آفلاین برای ساخت روش‌های موثر یادگیری تقویتی آنلاین استفاده کنیم.


مقایسه نتایج: عوامل مهم در یادگیری تقویتی آفلاین

اختلاف بین این نتایج و کارهای قبلی که عدم موفقیت عوامل استاندارد یادگیری تقویتی را در تنظیمات آفلاین گزارش می‌دهد را می توان به عوامل زیر نسبت داد:

  • اندازه Dataset آفلاین. ما یک QR-DQN و REM را با کاهش داده به‌دست‌آمده از طریق زیرنمونه‌گیری تصادفی کل DQN Replay Dataset آموزش دادیم که همان توزیع داده را حفظ می‌کند. مشابه یادگیری تحت نظارت، عملکرد با افزایش اندازه داده‌ها افزایش می‌یابد. با تنها ۱۰٪ از کل مجموعه داده، REM و QR-DQN تقریبا عملکرد DQN کاملا آموزش‌دیده را بازیابی می‌کنند.
  • ترکیب مجموعه داده آفلاین. ما برای ۲۰ میلیون فریم اول در هر بازی در DQN RePlay Dataset، عوامل یادگیری تقویتی را آموزش دادیم. REM آفلاین و QR-DQN از بهترین خط مشی در این مجموعه داده با کیفیت پایین‌تر بهتر عمل می‌کنند که نشان می‌دهد عوامل استاندارد یادگیری تقویتی در تنظیمات آفلاین با مجموعه داده‌های به اندازه کافی متنوع خوب عمل می‌کنند.
ترجمه این مقاله با استفاده از ربات ترجمه آنلاین مقالات هوش مصنوعی انجام شده و بصورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه ممکن است دارای برخی اشکالات ترجمه باشد.