من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
معرفی رویاپرداز: یادگیری تقویتی مقیاس پذیر با استفاده از مدلهای جهانی
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۱۸ مارس ۲۰۲۰
نویسنده: Danijar Hafner
لینک مقاله اصلی: Introducing Dreamer: Scalable Reinforcement Learning Using World Models
تحقیق در مورد این که چگونه عوامل مصنوعی میتوانند اقداماتی را برای دستیابی به اهداف انتخاب کنند، عمدتا به خاطر استفاده از یادگیری تقویتی (RL) پیشرفت سریعی داشتهاست. رویکردهای بدون مدل یادگیری تقویتی، که پیشبینی اقدامات موفق را از طریق آزمون و خطا یاد میگیرند، دیپمایند DQN را قادر ساختهاند تا بازیهای Atari و AlphaStar را بازی کنند تا قهرمانان جهان را در استارکرافت II شکست دهند، اما به مقادیر زیادی از تعامل محیطی نیاز دارند و سودمندی آنها را برای سناریوهای دنیای واقعی محدود میکنند.
در مقابل، رویکردهای یادگیری تقویتی مبتنی بر مدل علاوه بر این یک مدل ساده شده از محیط را یاد میگیرند. این مدل جهانی به نماینده اجازه میدهد تا نتایج توالیهای عمل بالقوه را پیشبینی کند، و به او اجازه میدهد تا از طریق سناریوهای فرضی برای گرفتن تصمیمات آگاهانه در موقعیتهای جدید بازی کند، در نتیجه سعی و خطای لازم برای رسیدن به اهداف را کاهش میدهد. در گذشته یادگیری مدلهای جهانی دقیق و استفاده از آنها برای یادگیری رفتارهای موفق چالش برانگیز بودهاست. در حالی که تحقیقات اخیر، مانند شبکه برنامهریزی عمیق ما (پلانت-PlaNet) ، با یادگیری مدلهای دقیق جهانی از تصاویر، این مرزها را تحت فشار قرار دادهاست، رویکردهای مبتنی بر مدل هنوز هم با مکانیسمهای برنامهریزی غیر موثر و یا از نظر محاسباتی گران، محدود کننده توانایی آنها برای حل کارهای دشوار هستند.
امروزه با همکاری دیپمایند، دریمر، یک عامل یادگیری تقویتی را معرفی میکنیم که یک مدل جهانی را از تصاویر یاد میگیرد و از آن برای یادگیری رفتارهای دوراندیشانه استفاده میکند. دریمر مدل جهانی خود را برای یادگیری موثر رفتارها از طریق پس انتشار از طریق پیشبینیهای مدل میسنجد. با یادگیری برای محاسبه حالتهای مدل فشرده از تصاویر خام، عامل قادر است به طور موثر از هزاران توالی پیشبینیشده به صورت موازی با استفاده از تنها یک جیپییو یاد بگیرد. دریمر به یک وضعیت جدید در عملکرد، بهرهوری داده و زمان محاسبه بر روی یک معیار از ۲۰ وظیفه کنترل پیوسته با توجه به ورودی تصویر خام دست مییابد. برای تحریک پیشرفت بیشتر یادگیری تقویتی، ما کد منبع را به جامعه تحقیقاتی منتشر میکنیم.
دریمر چگونه کار میکند؟
دریمر شامل سه فرآیند است که برای روشهای مبتنی بر مدل معمول هستند: یادگیری مدل جهانی، یادگیری رفتارها از پیشبینیهای ایجاد شده توسط مدل جهانی، و اجرای رفتارهای آموختهشده خود در محیط برای جمعآوری تجربه جدید. برای یادگیری رفتارها، دریمر از یک شبکه ارزش برای در نظر گرفتن پاداش فراتر از افق برنامهریزی و یک شبکه عامل برای محاسبه موثر اقدامات استفاده میکند. این سه فرآیند، که میتوانند به صورت موازی اجرا شوند، تا زمانی تکرار میشوند که نماینده به اهداف خود دست یابد:
یادگیری مدل جهانی
دریمر مدل دنیای پلانت را که نتایج را براساس توالی مدلهای فشرده پیشبینی میکند، به جای پیشبینی مستقیم از یک تصویر به تصویر بعدی، کاهش میدهد. به طور اتوماتیک یاد میگیرد که حالتهای مدل را تولید کند که مفاهیم مفید برای پیشبینی نتایج آینده، مانند نوع شی، موقعیت اشیا، و تعامل اشیا با محیط اطرافشان را نشان میدهد. دریمر با داشتن یک دنباله از تصاویر، اعمال و پاداشها از مجموعه داده تجربه گذشته، مدل جهانی را همانطور که نشانداده شدهاست، یاد میگیرد:
یک مزیت استفاده از مدل دنیای پلانت این است که پیشبینی از پیش با استفاده از حالتهای مدل فشرده به جای تصاویر، کارآیی محاسباتی را تا حد زیادی بهبود میبخشد. این امر این مدل را قادر میسازد تا هزاران توالی را به طور موازی بر روی یک شرکت همه منظوره پیشبینی کند. این روش همچنین میتواند تعمیم را تسهیل کند و منجر به پیشبینیهای ویدیویی دقیق بلند مدت شود. برای به دست آوردن بینشهایی در مورد نحوه کار مدل، ما میتوانیم توالی پیشبینیشده را با رمزگشایی از حالت مدل فشرده به تصویر، همانطور که در زیر برای یک کار از مجموعه کنترل دیپمایند و برای یک کار از محیط آزمایشگاه دیپمایند نشانداده شدهاست، تجسم کنیم:
یادگیری رفتار موثر
عوامل مبتنی بر مدل که قبلا توسعهیافته اند معمولا اقدامات را با برنامهریزی از طریق بسیاری از پیشبینیهای مدل یا با استفاده از مدل جهانی به جای شبیهساز برای استفاده مجدد از تکنیکهای موجود بدون مدل انتخاب میکنند. هر دو طرح از نظر محاسباتی مورد نیاز هستند و به طور کامل از مدل جهانی یاد گرفتهشده استفاده نمیکنند. علاوه بر این، حتی مدلهای قدرتمند جهانی محدود به این هستند که تا چه حد میتوانند به دقت پیشبینی کنند، و بسیاری از عوامل مبتنی بر مدل قبلی را کوتهبین میکنند. دریمر با یادگیری یک شبکه ارزش و یک شبکه عامل از طریق انتشار معکوس از طریق پیشبینیهای مدل جهانی خود بر این محدودیتها غلبه میکند.
دریمر به طور موثر یاد میگیرد که شبکه بازیگر اقدامات موفق را با انتشار گرادیانهای پاداش به عقب از طریق توالیهای حالت پیشبینیشده پیشبینی کند، که برای رویکردهای بدون مدل ممکن نیست. این به دریمر میگوید که چگونه تغییرات کوچک در اقداماتش بر آنچه که پاداشها در آینده پیشبینی میشوند، تاثیر میگذارد و به آن اجازه میدهد تا شبکه بازیگر را در جهتی که بیشترین پاداشها را افزایش میدهد، اصلاح کند. برای در نظر گرفتن پاداشها فراتر از افق پیشبینی، شبکه ارزش مجموع پاداشهای آینده برای هر حالت مدل را برآورد میکند. سپس پاداشها و مقادیر به منظور اصلاح شبکه عامل برای انتخاب اقدامات بهبود یافته به صورت معکوس منتشر میشوند:
دریمر از چندین لحاظ با پلانت متفاوت است. برای یک موقعیت مشخص در محیط، پلانت به دنبال بهترین اقدام در میان بسیاری از پیشبینیها برای توالیهایی از اقدامات مختلف است. در مقابل، مراحل دریمر این جستجوی هزینهبر را با برنامهریزی و عمل مجزا میکند. زمانی که شبکه عامل آن بر روی توالیهای پیشبینیشده آموزش داده شد، آن اقدامات برای تعامل با محیط را بدون جستجوی اضافی محاسبه میکند. علاوه بر این، دریمر با استفاده از یک تابع ارزش، پاداشها را فراتر از افق برنامهریزی در نظر میگیرد و انتشار معکوس را برای برنامهریزی کارآمد کاهش میدهد.
کارایی در وظایف کنترلی
ما دریمر را بر روی یک معیار استاندارد از ۲۰ کار متنوع با اقدامات مداوم و ورودیهای تصویر ارزیابی کردیم. این وظایف شامل تعادل و گرفتن اشیا و همچنین حرکت روباتهای شبیهسازی شده مختلف هستند. وظایف به گونهای طراحی شدهاند که چالشهای گوناگونی را برای عامل یادگیری تقویتی ایجاد کنند، از جمله پیشبینی برخورد دشوار، پاداش پراکنده، دینامیک آشفته، اشیا کوچک اما مرتبط، درجات بالای آزادی، و دیدگاههای سهبعدی:
ما عملکرد دریمر را با بهترین عامل مبتنی بر مدل قبلی، عامل محبوب بدون مدل A3C، و همچنین بهترین عامل بدون مدل فعلی در این بنچمارک D4PG، که ترکیبی از چندین پیشرفت یادگیری تقویتی بدون مدل است، مقایسه میکنیم. عوامل مبتنی بر مدل در کمتر از ۵ میلیون فریم، مطابق با ۲۸ ساعت در داخل شبیهسازی به طور موثر یاد میگیرند. عوامل بدون مدل آهستهتر یاد میگیرند و به ۱۰۰ میلیون فریم نیاز دارند، که متناظر با ۲۳ روز در داخل شبیهسازی است.
در معیار ۲۰ کار، دریمر از بهترین عامل بدون مدل (D4PG) با میانگین امتیاز ۸۲۳ در مقایسه با ۷۸۶ پیشی میگیرد، در حالی که از تعاملات محیطی کمتر ۲۰ بار یاد میگیرد. علاوه بر این، از عملکرد نهایی بهترین نماینده مبتنی بر مدل قبلی (پلانت) تقریبا در تمام وظایف تجاوز میکند. زمان محاسبه ۱۶ ساعت برای آموزش دریمر کمتر از ۲۴ ساعت مورد نیاز برای روشهای دیگر است. عملکرد نهایی این چهار عامل در زیر نشانداده شدهاست:
علاوه بر آزمایشها اصلی مان بر روی وظایف کنترل پیوسته، ما تعمیم دریمر را با اعمال آن بر کارهای با اعمال گسسته نشان میدهیم. برای این کار، ما بازیهای Atari و سطوح آزمایشگاه دیپمایند را انتخاب میکنیم که به رفتار واکنشی و بلند بینانه، آگاهی فضایی، و درک صحنههای بصری متنوعتر نیاز دارند. رفتارهای حاصل در زیر نمایش داده میشوند و نشان میدهند که دریمر همچنین به طور موثر یاد میگیرد که این وظایف چالش برانگیز را حل کند:
نتیجهگیری
کار ما نشان میدهد که رفتارهای یادگیری از توالی پیشبینیشده توسط مدلهای جهانی به تنهایی میتواند چالش وظایف کنترل بصری را از ورودی تصویر حل کند و عملکرد رویکردهای بدون مدل قبلی را تحتتاثیر قرار دهد. علاوه بر این، دریمر نشان میدهد که رفتارهای یادگیری با گرادیانهای ارزش پس انتشار از طریق توالی پیشبینیشده حالات مدل فشرده موفق و قوی است، و مجموعه متنوعی از وظایف کنترل پیوسته و گسسته را حل میکند. ما معتقدیم که دریمر یک پایه و اساس قوی برای پیشبرد بیشتر محدودیتهای یادگیری تقویتی، از جمله یادگیری نمایش بهتر، اکتشاف هدایتشده با برآوردهای عدم قطعیت، انتزاع زمانی، و یادگیری چند وظیفهای ارایه میدهد.
این مقاله به صورت خودکار با استفاده از موتور ترجمه مقالات هوش مصنوعی ترجمه شده و با حداقل بررسی انسانی منتشر شده است
مطلبی دیگر از این انتشارات
واتساپ به شما اجازه میدهد که پس از شروع تماسهای گروهی به آنها ملحق شوید
مطلبی دیگر از این انتشارات
الگوریتم :Naive Bayes راهنمای کامل علاقمندان به علوم داده
مطلبی دیگر از این انتشارات
کاهش ناگهانی ۱۰۰ میلیارد دلاری ارزش بیت کوین، قیمت همه ارزهای رمزنگاریشده اصلی - به جز یکی - را پایین آورد!