من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
دیدگاه خوش بینانه در مورد یادگیری تقویتی آفلاین
منتشر شده در: Google AI blog به تاریخ ۱۴ آوریل ۲۰۲۰
لینک مطلب اصلی: An Optimistic Perspective on Offline Reinforcement Learning
« پتانسیل یادگیری بدون خط مشی هنوز هم وسوسهانگیز است، بهترین راه برای رسیدن به آن هنوز هم یک راز دستنیافتنی است.» Sutton & Barto
اغلب الگوریتمهای یادگیری تقویتی فرض میکنند که یک عامل به طور فعال با یک محیط آنلاین برای یادگیری از تجربه جمعآوریشده خود تعامل میکند. این الگوریتم ها برای کاربرد در مسائل پیچیده دنیای واقعی (مانند رباتیک و رانندگی مستقل) چالش برانگیز هستند، زیرا جمعآوری دادههای گسترده از دنیای واقعی میتواند بسیار ناکارآمد باشد و منجر به رفتار ناخواسته شود، در حالی که کسانی که در شبیهسازی کار میکنند نیاز به شبیه سازهای با صحت بالا دارند که ساخت آنها چالش برانگیز است. با این حال، برای بسیاری از کاربردهای دنیای واقعی یادگیری تقویتی، در حال حاضر مقدار زیادی از دادههای تعامل قبلا جمعآوریشده وجود دارد که میتواند برای عملی کردن یادگیری تقویتیبرای آن مشکلات استفاده شود و امکان تعمیم بهتر را با گنجاندن تجارب پیشین متنوع فراهم میکند.
دادههای تعامل موجود را می توان به طور موثر با استفاده از یادگیری تقویتی آفلاین استفاده کرد، که تنظیمات کاملا بدون خط مشی یادگیری تقویتی است که در آن یک نماینده از یک مجموعه داده ثابت از تجربیات ثبتشده بدون هیچ تعامل بیشتر با محیط آموزشدیده است. این الگوریتم میتواند با استفاده از دادههای موجود به (۱) پیش آموزش یک عامل یادگیری تقویتی کمک کند، (۲) ارزیابی تجربی الگوریتمهای یادگیری تقویتی براساس توانایی آنها در استفاده از یک مجموعه داده ثابت از تعاملات و (۳) ارایه تاثیر واقعی. با این حال، یادگیری تقویتی آفلاین به دلیل عدم تطابق توزیع بین تعاملات آنلاین و هر مجموعه داده ثابت از تعاملات ثبتشده چالش برانگیز تلقی میشود، به عنوان مثال، زمانی که عامل یاد گرفتهشده اقدامی متفاوت از عامل جمعآوری داده انجام میدهد، ما پاداشی را که باید ارائه شود نمیدانیم.
در «یک دیدگاه خوش بینانه در یادگیری تقویتی آفلاین»، ما یک آمادهسازی آزمایشی ساده برای یادگیری تقویتی آفلاین در بازیهای آتاری ۲۶۰۰، براساس تجربیات ثبتشده یک عامل DQN پیشنهاد میکنیم. ما نشان میدهیم که آموزش عواملی با بازدههای بالا که بهتر از عوامل جمعآوری داده عمل میکنند با استفاده از الگوریتم های استاندارد یادگیری تقویتی بدون خط مشی، بدون اصلاح صریح برای هر عدم انطباق توزیع امکان پذیر است. همچنین یک الگوریتم قدرتمند یادگیری تقویتی به نام اختلاط مجموعه تصادفی (REM) ایجاد میکنیم که نتایج امیدوار کنندهای را در مورد یادگیری تقویتی آفلاین نشان میدهد. به طور کلی، ما یک دیدگاه خوشبینانهای را ارایه میدهیم که الگوریتم های مقاوم یادگیری تقویتی آموزشدیده بر روی مجموعه دادههای به اندازه کافی بزرگ و متنوع آفلاین میتوانند منجر به رفتار با کیفیت بالا و تقویت الگوی داده محور یادگیری تقویتی شوند. برای تسهیل توسعه و ارزیابی روشهای یادگیری تقویتی آفلاین، ما همچنین به طور عمومی DQN RePlay Dataset را منتشر میکنیم و کد خود را با منبع باز منتشر میکنیم. جزئیات بیشتری را می توانید در offline-rl.github.io بیابید.
مقدمهای بر یادگیری تقویتی بدون خط مشی و آفلاین
عوامل آنلاین، یادگیری تقویتی بدون خط مشی، مانند DQN، بدون هیچ گونه آگاهی صریح در مورد بازی، در بازیهای آتاری ۲۶۰۰ تنها با مشاهده صفحه بازی به عملکرد سطح انسانی دست مییابند. DQN کارایی یک عمل در یک وضعیت مشخص از محیط را بر حسب حداکثر پاداشهای قابل حصول آینده (یعنی ارزشهای Q) تخمین میزند. علاوه بر این، عوامل توزیعی اخیر یادگیری تقویتی، مانند QR-DQN، به جای یک مقدار مورد انتظار برای هر جفت کنش دولت، کل توزیع پاداشهای احتمالی آینده را مدل میکنند. عواملی مانند DQN و QR-DQN به صورت آنلاین در نظر گرفته میشوند زیرا آنها یک خط مشی را بهینه میکنند (چگونه یک عامل در یک حالت معین عمل میکند) و از آن خط مشی برای جمعآوری دادههای بیشتر استفاده میکنند.
در اصل، عوامل یادگیری تقویتی بدون خط مشی میتوانند از دادههای جمعآوریشده توسط هر خط مشی، نه تنها این خط مشی بهینه شود. با این حال، در شرایط آفلاین، کارهای اخیر دیدگاه دلسردکنندهای را نشان می دهد که عوامل استاندارد بدون خط مشی متفاوت هستند یا عملکرد ضعیفی دارند. برای رفع این مشکل، کار قبلی روشهایی را از طریق تنظیم خط مشی آموختهشده برای نزدیک ماندن به مجموعه داده تعاملات آفلاین پیشنهاد میکند.
مجموعه داده DQN Replay برای یادگیری تقویتی آفلاین در این کار، ابتدا با ایجاد مجموعه داده DQN Replay، از یادگیری تقویتی آفلاین بازدید می کنیم.
این مجموعه داده با استفاده از عوامل DQN آموزشدیده بر روی ۶۰ بازی آتاری ۲۶۰۰ برای هر ۲۰۰ میلیون فریم تولید میشود، در حالی که با استفاده از اقدامات چسبنده (با احتمال ۲۵٪ که اقدام قبلی نماینده به جای اقدام فعلی اجرا میشود) مشکل را چالش برانگیزتر میکند. برای هر کدام از ۶۰ بازی، ما ۵ عامل DQN را با مقداردهی اولیه تصادفی مختلف آموزش میدهیم، و تمام چند نمونه (حالت، عمل، پاداش، حالت بعدی) را در طول آموزش در ۵ مجموعه داده بازپخش در هر بازی ذخیره میکنیم، که منجر به مجموع ۳۰۰ مجموعه داده میشود.
سپس مجموعه داده DQN Replay میتواند برای آموزش عوامل یادگیری تقویتی آفلاین بدون هیچ گونه تعامل با محیط در طول آموزش مورد استفاده قرار گیرد. هر مجموعه داده تکرار بازی تقریبا ۳.۵ برابر بزرگتر از ImageNet است و شامل نمونههایی از تمام خط مشیهای میانی است که در طول بهینهسازی آنلاین DQN دیده میشود.
عوامل آموزش آفلاین در بازی مجموعه داده پاسخ DQN
ما انواع آفلاین DQN و QR-DQN توزیعی را بر روی DQN RePlay Dataset آموزش دادیم. اگر چه مجموعه دادههای آفلاین حاوی دادههای تجربهشده توسط عامل DQN هستند که در طول زمان با پیشرفت آموزش بهبود مییابند، ما عملکرد عوامل آفلاین را با بهترین عملکرد عامل DQN آنلاین بهدستآمده پس از آموزش مقایسه کردیم (یعنی، یک DQN کاملا آموزشدیده).
برای هر بازی، ما ۵ عامل آفلاین آموزشدیده (یک در هر مجموعه داده) را با استفاده از بازدههای آنلاین ارزیابی کردیم و بهترین عملکرد متوسط را گزارش کردیم. DQN آفلاین در همه بازیها به جز چند بازی به طور کامل آموزشدیده آنلاین DQN عمل میکند، که در آن به امتیازات بالاتری با همان مقدار داده دست مییابد. از سوی دیگر، QR-DQN آفلاین بهتر از DQN برونخط و DQN کاملا آموزشدیده در بیشتر بازیها عمل میکند. این نتایج نشان میدهد که می توان عوامل قوی آفلاین را با استفاده از الگوریتم های استاندارد عمیق یادگیری تقویتی بهینه کرد. علاوه بر این، اختلاف بین عملکرد QR-DQN آفلاین و DQN تفاوت در توانایی آنها برای بهرهبرداری از دادههای آفلاین را نشان میدهد.
معرفی دو عامل آفلاین قدرتمند یادگیری تقویتی
در یادگیری تقویتی آنلاین، یک نماینده اقداماتی را انتخاب میکند که فکر میکند به پاداش بالایی منجر خواهد شد، و سپس بازخورد اصلاحی دریافت میکند. از آنجا که جمعآوری دادههای اضافی در یادگیری تقویتی آفلاین امکان پذیر نیست، لازم است با استفاده از یک مجموعه داده ثابت در مورد تعمیم استدلال شود. ما با نقض روشهای یادگیری تحت نظارت که از مجموعهای از مدلها برای بهبود تعمیم استفاده میکنند، دو عامل جدید یادگیری تقویتی آفلاین را معرفی میکنیم:
- پشتیبانی-DQN بسط سادهای از DQN است که برآوردهای متعدد مقادیر Q را آموزش میدهد و از آنها برای ارزیابی میانگین میگیرد.
- ترکیب تصادفی اجرا شده (REM) یک تعمیم از DQN با الهام از Dropout است. درک کلیدی پشت REM این است که اگر کسی به برآوردهای چندگانه مقادیر Q دسترسی داشته باشد، آنگاه ترکیب وزنی برآوردهای مقدار Q نیز تخمینی برای مقادیر Q است. بر این اساس، در هر مرحله آموزش، REM به طور تصادفی برآوردهای متعدد مقدار Q را ترکیب میکند و از این ترکیب تصادفی برای آموزش قوی استفاده میکند.
برای استفاده موثرتر از DQN، ما عوامل آفلاین را برای پنج برابر تعداد تکرارهای آموزشی DQN آنلاین آموزش میدهیم و عملکرد آنها را در زیر گزارش میکنیم. REM آفلاین بهتر از DQN آفلاین و QR-DQN آفلاین عمل میکند. مقایسه با C51 آنلاین کاملا آموزشدیده، یک عامل توزیعی قوی، نشان میدهد که سود REM آفلاین بیشتر از سود C51 است.
با استفاده از پروتکلهای آموزشی استاندارد در آتاری، REM آنلاین با QR-DQN در تنظیمات استاندارد آنلاین RL برابر است. این نشان میدهد که ما میتوانیم از بینشهای بهدستآمده از DQN RePlay Dataset و تنظیمات یادگیری تقویتی آفلاین برای ساخت روشهای موثر یادگیری تقویتی آنلاین استفاده کنیم.
مقایسه نتایج: عوامل مهم در یادگیری تقویتی آفلاین
اختلاف بین این نتایج و کارهای قبلی که عدم موفقیت عوامل استاندارد یادگیری تقویتی را در تنظیمات آفلاین گزارش میدهد را می توان به عوامل زیر نسبت داد:
- اندازه Dataset آفلاین. ما یک QR-DQN و REM را با کاهش داده بهدستآمده از طریق زیرنمونهگیری تصادفی کل DQN Replay Dataset آموزش دادیم که همان توزیع داده را حفظ میکند. مشابه یادگیری تحت نظارت، عملکرد با افزایش اندازه دادهها افزایش مییابد. با تنها ۱۰٪ از کل مجموعه داده، REM و QR-DQN تقریبا عملکرد DQN کاملا آموزشدیده را بازیابی میکنند.
- ترکیب مجموعه داده آفلاین. ما برای ۲۰ میلیون فریم اول در هر بازی در DQN RePlay Dataset، عوامل یادگیری تقویتی را آموزش دادیم. REM آفلاین و QR-DQN از بهترین خط مشی در این مجموعه داده با کیفیت پایینتر بهتر عمل میکنند که نشان میدهد عوامل استاندارد یادگیری تقویتی در تنظیمات آفلاین با مجموعه دادههای به اندازه کافی متنوع خوب عمل میکنند.
ترجمه این مقاله با استفاده از ربات ترجمه آنلاین مقالات هوش مصنوعی انجام شده و بصورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه ممکن است دارای برخی اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
۷۰ درصد از موارد دیابت نوع ۲ با انتخابهای غذایی مرتبط است
مطلبی دیگر از این انتشارات
شرکت PAHO در زمینه پروژه جدید کوروناویروس با کشورهای عضو همکاری فنی میکند
مطلبی دیگر از این انتشارات
یک روش جدید میتواند از آسیبهای مغزی نوزاد تازه متولد شده پیشگیری و آن را معکوس کند