معرفی رویاپرداز: یادگیری تقویتی مقیاس پذیر با استفاده از مدل‌های جهانی

منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۱۸ مارس ۲۰۲۰
نویسنده: Danijar Hafner
لینک مقاله اصلی: Introducing Dreamer: Scalable Reinforcement Learning Using World Models

تحقیق در مورد این که چگونه عوامل مصنوعی می‌توانند اقداماتی را برای دستیابی به اهداف انتخاب کنند، عمدتا به خاطر استفاده از یادگیری تقویتی (RL) پیشرفت سریعی داشته‌است. رویکردهای بدون مدل یادگیری تقویتی، که پیش‌بینی اقدامات موفق را از طریق آزمون و خطا یاد می‌گیرند، دیپ‌مایند DQN  را قادر ساخته‌اند تا بازی‌های Atari و AlphaStar را بازی کنند تا قهرمانان جهان را در استارکرافت II شکست دهند، اما به مقادیر زیادی از تعامل محیطی نیاز دارند و سودمندی آن‌ها را برای سناریوهای دنیای واقعی محدود می‌کنند.

در مقابل، رویکردهای یادگیری تقویتی مبتنی بر مدل علاوه بر این یک مدل ساده شده از محیط را یاد می‌گیرند. این مدل جهانی به نماینده اجازه می‌دهد تا نتایج توالی‌های عمل بالقوه را پیش‌بینی کند، و به او اجازه می‌دهد تا از طریق سناریوهای فرضی برای گرفتن تصمیمات آگاهانه در موقعیت‌های جدید بازی کند، در نتیجه سعی و خطای لازم برای رسیدن به اهداف را کاهش می‌دهد. در گذشته یادگیری مدل‌های جهانی دقیق و استفاده از آن‌ها برای یادگیری رفتارهای موفق چالش برانگیز بوده‌است. در حالی که تحقیقات اخیر، مانند شبکه برنامه‌ریزی عمیق ما (پلانت-PlaNet) ، با یادگیری مدل‌های دقیق جهانی از تصاویر، این مرزها را تحت فشار قرار داده‌است، رویکردهای مبتنی بر مدل هنوز هم با مکانیسم‌های برنامه‌ریزی غیر موثر و یا از نظر محاسباتی گران، محدود کننده توانایی آن‌ها برای حل کارهای دشوار هستند.

امروزه با هم‌کاری دیپ‌مایند، دریمر، یک عامل یادگیری تقویتی را معرفی می‌کنیم که یک مدل جهانی را از تصاویر یاد می‌گیرد و از آن برای یادگیری رفتارهای دوراندیشانه استفاده می‌کند. دریمر مدل جهانی خود را برای یادگیری موثر رفتارها از طریق پس انتشار از طریق پیش‌بینی‌های مدل می‌سنجد. با یادگیری برای محاسبه حالت‌های مدل فشرده از تصاویر خام، عامل قادر است به طور موثر از هزاران توالی پیش‌بینی‌شده به صورت موازی با استفاده از تنها یک جی‌پی‌یو یاد بگیرد. دریمر به یک وضعیت جدید در عملکرد، بهره‌وری داده و زمان محاسبه بر روی یک معیار از ۲۰ وظیفه کنترل پیوسته با توجه به ورودی تصویر خام دست می‌یابد. برای تحریک پیشرفت بیشتر یادگیری تقویتی، ما کد منبع را به جامعه تحقیقاتی منتشر می‌کنیم.

دریمر چگونه کار می‌کند؟

دریمر شامل سه فرآیند است که برای روش‌های مبتنی بر مدل معمول هستند: یادگیری مدل جهانی، یادگیری رفتارها از پیش‌بینی‌های ایجاد شده توسط مدل جهانی، و اجرای رفتارهای آموخته‌شده خود در محیط برای جمع‌آوری تجربه جدید. برای یادگیری رفتارها، دریمر از یک شبکه ارزش برای در نظر گرفتن پاداش فراتر از افق برنامه‌ریزی و یک شبکه عامل برای محاسبه موثر اقدامات استفاده می‌کند. این سه فرآیند، که می‌توانند به صورت موازی اجرا شوند، تا زمانی تکرار می‌شوند که نماینده به اهداف خود دست یابد:

سه فرآیند عامل دریمر. مدل جهانی از تجربیات گذشته آموخته شده‌است. سپس عامل از روی پیش‌بینی‌های این مدل یک شبکه ارزش برای پیش‌بینی پاداش آینده و یک شبکه عامل برای انتخاب اقدامات یاد می‌گیرد. شبکه عامل برای تعامل با محیط استفاده می‌شود.
سه فرآیند عامل دریمر. مدل جهانی از تجربیات گذشته آموخته شده‌است. سپس عامل از روی پیش‌بینی‌های این مدل یک شبکه ارزش برای پیش‌بینی پاداش آینده و یک شبکه عامل برای انتخاب اقدامات یاد می‌گیرد. شبکه عامل برای تعامل با محیط استفاده می‌شود.

یادگیری مدل جهانی

دریمر مدل دنیای پلانت را که نتایج را براساس توالی مدل‌های فشرده پیش‌بینی می‌کند، به جای پیش‌بینی مستقیم از یک تصویر به تصویر بعدی، کاهش می‌دهد. به طور اتوماتیک یاد می‌گیرد که حالت‌های مدل را تولید کند که مفاهیم مفید برای پیش‌بینی نتایج آینده، مانند نوع شی، موقعیت اشیا، و تعامل اشیا با محیط اطرافشان را نشان می‌دهد. دریمر با داشتن یک دنباله از تصاویر، اعمال و پاداش‌ها از مجموعه داده تجربه گذشته، مدل جهانی را همانطور که نشان‌داده شده‌است، یاد می‌گیرد:

دریمر یک مدل جهانی را از تجربه یاد می‌گیرد. با استفاده از تصاویر (o1-o3) و اعمال (a1-a2) گذشته، توالی حالت‌های مدل فشرده (حلقه‌های سبز) را محاسبه می‌کند که از آن تصاویر (ô1–ô3) را بازسازی می‌کند و جایزه (r̂1–r̂3) را پیش‌بینی می‌کند.
دریمر یک مدل جهانی را از تجربه یاد می‌گیرد. با استفاده از تصاویر (o1-o3) و اعمال (a1-a2) گذشته، توالی حالت‌های مدل فشرده (حلقه‌های سبز) را محاسبه می‌کند که از آن تصاویر (ô1–ô3) را بازسازی می‌کند و جایزه (r̂1–r̂3) را پیش‌بینی می‌کند.


یک مزیت استفاده از مدل دنیای پلانت این است که پیش‌بینی از پیش با استفاده از حالت‌های مدل فشرده به جای تصاویر، کارآیی محاسباتی را تا حد زیادی بهبود می‌بخشد. این امر این مدل را قادر می‌سازد تا هزاران توالی را به طور موازی بر روی یک شرکت همه منظوره پیش‌بینی کند. این روش همچنین می‌تواند تعمیم را تسهیل کند و منجر به پیش‌بینی‌های ویدیویی دقیق بلند مدت شود. برای به دست آوردن بینش‌هایی در مورد نحوه کار مدل، ما می‌توانیم توالی پیش‌بینی‌شده را با رمزگشایی از حالت مدل فشرده به تصویر، همانطور که در زیر برای یک کار از مجموعه کنترل دیپ‌مایند و برای یک کار از محیط آزمایشگاه دیپ‌مایند نشان‌داده شده‌است، تجسم کنیم:

پیش‌بینی پیش رو با استفاده از حالت‌های مدل فشرده، پیش‌بینی بلند مدت در محیط‌های پیچیده را ممکن می‌سازد. در اینجا دو توالی وجود دارد که نماینده قبلا با آن‌ها مواجه نشده است. با توجه به پنج تصویر ورودی، مدل آن‌ها را بازسازی کرده و تصاویر آینده را تا مرحله ۵۰ پیش‌بینی می‌کند.
پیش‌بینی پیش رو با استفاده از حالت‌های مدل فشرده، پیش‌بینی بلند مدت در محیط‌های پیچیده را ممکن می‌سازد. در اینجا دو توالی وجود دارد که نماینده قبلا با آن‌ها مواجه نشده است. با توجه به پنج تصویر ورودی، مدل آن‌ها را بازسازی کرده و تصاویر آینده را تا مرحله ۵۰ پیش‌بینی می‌کند.

یادگیری رفتار موثر

عوامل مبتنی بر مدل که قبلا توسعه‌یافته اند معمولا اقدامات را با برنامه‌ریزی از طریق بسیاری از پیش‌بینی‌های مدل یا با استفاده از مدل جهانی به جای شبیه‌ساز برای استفاده مجدد از تکنیک‌های موجود بدون مدل انتخاب می‌کنند. هر دو طرح از نظر محاسباتی مورد نیاز هستند و به طور کامل از مدل جهانی یاد گرفته‌شده استفاده نمی‌کنند. علاوه بر این، حتی مدل‌های قدرتمند جهانی محدود به این هستند که تا چه حد می‌توانند به دقت پیش‌بینی کنند، و بسیاری از عوامل مبتنی بر مدل قبلی را کوته‌بین می‌کنند. دریمر با یادگیری یک شبکه ارزش و یک شبکه عامل از طریق انتشار معکوس از طریق پیش‌بینی‌های مدل جهانی خود بر این محدودیت‌ها غلبه می‌کند.

دریمر به طور موثر یاد می‌گیرد که شبکه بازیگر اقدامات موفق را با انتشار گرادیان‌های پاداش به عقب از طریق توالی‌های حالت پیش‌بینی‌شده پیش‌بینی کند، که برای رویکردهای بدون مدل ممکن نیست. این به دریمر می‌گوید که چگونه تغییرات کوچک در اقداماتش بر آنچه که پاداش‌ها در آینده پیش‌بینی می‌شوند، تاثیر می‌گذارد و به آن اجازه می‌دهد تا شبکه بازیگر را در جهتی که بیش‌ترین پاداش‌ها را افزایش می‌دهد، اصلاح کند. برای در نظر گرفتن پاداش‌ها فراتر از افق پیش‌بینی، شبکه ارزش مجموع پاداش‌های آینده برای هر حالت مدل را برآورد می‌کند. سپس پاداش‌ها و مقادیر به منظور اصلاح شبکه عامل برای انتخاب اقدامات بهبود یافته به صورت معکوس منتشر می‌شوند:

دریمر رفتارهای دوراندیشانه را از توالی‌های پیش‌بینی‌شده حالات مدل یاد می‌گیرد. ابتدا ارزش بلند مدت (v̂2–v̂3) هر ایالت را یاد می‌گیرد و سپس اعمال (â1–â2) را پیش‌بینی می‌کند که با انتشار آن‌ها از طریق زنجیره حالت به شبکه عامل منجر به پاداش و ارزش‌های بالا می‌شود.
دریمر رفتارهای دوراندیشانه را از توالی‌های پیش‌بینی‌شده حالات مدل یاد می‌گیرد. ابتدا ارزش بلند مدت (v̂2–v̂3) هر ایالت را یاد می‌گیرد و سپس اعمال (â1–â2) را پیش‌بینی می‌کند که با انتشار آن‌ها از طریق زنجیره حالت به شبکه عامل منجر به پاداش و ارزش‌های بالا می‌شود.


دریمر از چندین لحاظ با پلانت متفاوت است. برای یک موقعیت مشخص در محیط، پلانت به دنبال بهترین اقدام در میان بسیاری از پیش‌بینی‌ها برای توالی‌هایی از اقدامات مختلف است. در مقابل، مراحل دریمر این جستجوی هزینه‌بر را با برنامه‌ریزی و عمل مجزا می‌کند. زمانی که شبکه عامل آن بر روی توالی‌های پیش‌بینی‌شده آموزش داده شد، آن اقدامات برای تعامل با محیط را بدون جستجوی اضافی محاسبه می‌کند. علاوه بر این، دریمر با استفاده از یک تابع ارزش، پاداش‌ها را فراتر از افق برنامه‌ریزی در نظر می‌گیرد و انتشار معکوس را برای برنامه‌ریزی کارآمد کاهش می‌دهد.

کارایی در وظایف کنترلی

ما دریمر را بر روی یک معیار استاندارد از ۲۰ کار متنوع با اقدامات مداوم و ورودی‌های تصویر ارزیابی کردیم. این وظایف شامل تعادل و گرفتن اشیا و همچنین حرکت روبات‌های شبیه‌سازی شده مختلف هستند. وظایف به گونه‌ای طراحی شده‌اند که چالش‌های گوناگونی را برای عامل یادگیری تقویتی ایجاد کنند، از جمله پیش‌بینی برخورد دشوار، پاداش پراکنده، دینامیک آشفته، اشیا کوچک اما مرتبط، درجات بالای آزادی، و دیدگاه‌های سه‌بعدی:

دریمر یاد می‌گیرد که ۲۰ وظیفه کنترل مداوم چالش برانگیز را با ورودی‌های تصویر حل کند، که ۵ مورد از آن‌ها در اینجا نمایش داده می‌شوند. تجسم‌ها همان تصاویر ۶۴ در ۶۴ را نشان می‌دهند که نماینده از محیط دریافت می‌کند.
دریمر یاد می‌گیرد که ۲۰ وظیفه کنترل مداوم چالش برانگیز را با ورودی‌های تصویر حل کند، که ۵ مورد از آن‌ها در اینجا نمایش داده می‌شوند. تجسم‌ها همان تصاویر ۶۴ در ۶۴ را نشان می‌دهند که نماینده از محیط دریافت می‌کند.


ما عملکرد دریمر را با بهترین عامل مبتنی بر مدل قبلی، عامل محبوب بدون مدل A3C، و همچنین بهترین عامل بدون مدل فعلی در این بنچ‌مارک D4PG، که ترکیبی از چندین پیشرفت یادگیری تقویتی بدون مدل است، مقایسه می‌کنیم. عوامل مبتنی بر مدل در کم‌تر از ۵ میلیون فریم، مطابق با ۲۸ ساعت در داخل شبیه‌سازی به طور موثر یاد می‌گیرند. عوامل بدون مدل آهسته‌تر یاد می‌گیرند و به ۱۰۰ میلیون فریم نیاز دارند، که متناظر با ۲۳ روز در داخل شبیه‌سازی است.

در معیار ۲۰ کار، دریمر از بهترین عامل بدون مدل (D4PG) با میانگین امتیاز ۸۲۳ در مقایسه با ۷۸۶ پیشی می‌گیرد، در حالی که از تعاملات محیطی کم‌تر ۲۰ بار یاد می‌گیرد. علاوه بر این، از عملکرد نهایی بهترین نماینده مبتنی بر مدل قبلی (پلانت) تقریبا در تمام وظایف تجاوز می‌کند. زمان محاسبه ۱۶ ساعت برای آموزش دریمر کم‌تر از ۲۴ ساعت مورد نیاز برای روش‌های دیگر است. عملکرد نهایی این چهار عامل در زیر نشان‌داده شده‌است:

دریمر بهترین روش‌های قبلی بدون مدل (D4PG) و مبتنی بر مدل (پلاسنل نت) را در معیار ۲۰ کار از نظر عملکرد نهایی، کارایی داده‌ها، و زمان محاسبه بهتر عمل می‌کند.
دریمر بهترین روش‌های قبلی بدون مدل (D4PG) و مبتنی بر مدل (پلاسنل نت) را در معیار ۲۰ کار از نظر عملکرد نهایی، کارایی داده‌ها، و زمان محاسبه بهتر عمل می‌کند.

علاوه بر آزمایش‌ها اصلی مان بر روی وظایف کنترل پیوسته، ما تعمیم دریمر را با اعمال آن بر کاره‌ای با اعمال گسسته نشان می‌دهیم. برای این کار، ما بازی‌های Atari و سطوح آزمایشگاه دیپ‌مایند را انتخاب می‌کنیم که به رفتار واکنشی و بلند بینانه، آگاهی فضایی، و درک صحنه‌های بصری متنوع‌تر نیاز دارند. رفتارهای حاصل در زیر نمایش داده می‌شوند و نشان می‌دهند که دریمر همچنین به طور موثر یاد می‌گیرد که این وظایف چالش برانگیز را حل کند:

دریمر رفتارهای موفق را در بازی‌های Atari و سطوح آزمایشگاه دیپ‌مایند یاد می‌گیرد، که فعالیت‌های مجزا و صحنه‌های بصری متنوع‌تر، از جمله محیط‌های سه‌بعدی با اشیا چندگانه را نشان می‌دهد.
دریمر رفتارهای موفق را در بازی‌های Atari و سطوح آزمایشگاه دیپ‌مایند یاد می‌گیرد، که فعالیت‌های مجزا و صحنه‌های بصری متنوع‌تر، از جمله محیط‌های سه‌بعدی با اشیا چندگانه را نشان می‌دهد.

نتیجه‌گیری

کار ما نشان می‌دهد که رفتارهای یادگیری از توالی پیش‌بینی‌شده توسط مدل‌های جهانی به تنهایی می‌تواند چالش وظایف کنترل بصری را از ورودی تصویر حل کند و عملکرد رویکردهای بدون مدل قبلی را تحت‌تاثیر قرار دهد. علاوه بر این، دریمر نشان می‌دهد که رفتارهای یادگیری با گرادیان‌های ارزش پس انتشار از طریق توالی پیش‌بینی‌شده حالات مدل فشرده موفق و قوی است، و مجموعه متنوعی از وظایف کنترل پیوسته و گسسته را حل می‌کند. ما معتقدیم که دریمر یک پایه و اساس قوی برای پیشبرد بیشتر محدودیت‌های یادگیری تقویتی، از جمله یادگیری نمایش بهتر، اکتشاف هدایت‌شده با برآورده‌ای عدم قطعیت، انتزاع زمانی، و یادگیری چند وظیفه‌ای ارایه می‌دهد.


این مقاله به صورت خودکار با استفاده از موتور ترجمه مقالات هوش مصنوعی ترجمه شده و با حداقل بررسی انسانی منتشر شده است