من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
چالش چندعاملی جنگستارگان برای یادگیری تقویتی
چکیده: در چند سال گذشته یادگیری تقویتی چندعامله عمیق (RL) به یک حوزه تحقیقاتی بسیار فعال تبدیل شدهاست. یک کلاس چالش برانگیز از مشکلات در این حوزه تا حدی قابلمشاهده است، یادگیری مشارکتی، چندعاملی، که در آن تیمهای عامل باید یاد بگیرند تا رفتار خود را هماهنگ کنند در حالی که تنها با مشاهدات خصوصی خود منطبق میشوند. این یک حوزه تحقیقاتی جذاب است زیرا چنین مشکلاتی به تعداد زیادی از سیستمهای دنیای واقعی مرتبط هستند و همچنین بیشتر از مسایل مجموع عمومی، قابلیت ارزیابی دارند.
محیطهای استانداردسازی شده مانند ALE و MuJoCo به یادگیری تقویتی تک عاملی اجازه دادهاند تا فراتر از حوزههای اسباببازی مانند دنیای شبکه برود. با این حال، هیچ معیار قابل قیاسی برای همکاری چند عامل RL وجود ندارد. در نتیجه، اغلب مقالات در این زمینه از مشکلات اسباببازی یک طرفه استفاده میکنند، که اندازهگیری پیشرفت واقعی را دشوار میسازد. در این مقاله، ما چالش چندعاملی استارکرافت (SMAC) را به عنوان یک مساله معیار برای پر کردن این شکاف پیشنهاد میکنیم. SMAC مبتنی بر بازی استراتژی زمان واقعی معروف استارکرافت II است و بر چالشهای مدیریت خرد تمرکز دارد که در آن هر واحد توسط یک عامل مستقل کنترل میشود که باید براساس مشاهدات محلی عمل کند. ما مجموعهای متنوع از نقشههای چالش و پیشنهادها را برای بهترین اقدامات در الگوبرداری و ارزیابی ارایه میدهیم. ما همچنین یک چارچوب عمیق یادگیری چند عاملی RL شامل الگوریتمهای پیشرفته را معرفی میکنیم. ما معتقدیم که SMAC میتواند یک محیط معیار استاندارد را برای سالهای آتی فراهم کند.
ویدیوهای بهترین عوامل ما برای سناریوهای مختلف SMAC در https://youtu.be/VZ۷zmQobZ0 قابل مشاهده هستند
مقدمه
یادگیری تقویتی عمیق (RL) یک رویکرد مقیاس پذیر را برای حل مسایل تصمیمگیری ترتیبی اختیاری وعده میدهد و تنها خواستار این است که یک کاربر باید یک تابع پاداش مشخص کند که بیانگر رفتار مطلوب باشد. با این حال، بسیاری از مشکلات دنیای واقعی که ممکن است توسط آر آل حل شوند ذاتا چند عاملی هستند. به عنوان مثال، هماهنگی ماشینهای خود گردان، هواپیماهای بدون سرنشین و دیگر سیستمهای چند رباتی در حال تبدیل شدن مسایل بسیار مهم هستند. مسیریابی ترافیک شبکه، حسگرهای توزیعشده، توزیع انرژی و دیگر مسایل لجستیک نیز ذاتا چند عاملی هستند. به این ترتیب، ضروری است که راهحلهای چند عاملی RL (MARL) ایجاد شود که بتواند محدودیتهای عدم تمرکز را کنترل کند و با فضای اقدام مشترک رو به رشد نمایی بسیاری از عوامل مقابله کند.
مشکلات یادگیری چند عاملی تا حدی قابلمشاهده هستند. مشکلات همکاری از مشکلات در ارزیابی ذاتی با بازیهای مجموع عمومی اجتناب میکنند (به عنوان مثال، کدام مخالفان در مقابل ارزیابی میشوند). همچنین مسایل همکاری به خوبی به طبقه بزرگی از مسایل بحرانی نگاشت میشوند که در آن یک کاربر که یک سیستم توزیعشده را مدیریت میکند میتواند هدف کلی را مشخص کند، به عنوان مثال، به حداقل رساندن ترافیک یا سایر ناکارآمدیها. بسیاری از مسایل دنیای واقعی به ورودیهای سنسورهای پر نویز یا محدود بستگی دارد، بنابراین مشاهدهپذیری جزیی نیز باید به طور موثر مورد بررسی قرار گیرد. این اغلب شامل محدودیتهایی در ارتباط است که منجر به نیاز به اجرای غیر متمرکز سیاستهای آموزشی میشود. با این حال، معمولا دسترسی به اطلاعات اضافی در طول آموزش وجود دارد، که ممکن است در شرایط کنترلشده یا در شبیهسازی انجام شود.
تعداد رو به رشد کارهای اخیر (فورستر و سایرین، ۲۰۱۸ a؛ رشید و سایرین، ۲۰۱۸؛ سوناهاگ و سایرین، ۲۰۱۷؛ لاو و سایرین، ۲۰۱۷) شروع به حل مشکلات این فضا کردهاند. با این حال، فقدان واضحی از معیارهای استاندارد شده برای تحقیق و ارزیابی وجود دارد. در عوض، محققان اغلب یک محیط خاموش را پیشنهاد میکنند که میتواند بسیار ساده باشد یا با الگوریتم های پیشنهادی تنظیم شود. در RL تک عاملی، محیطهای استاندارد مانند محیط یادگیری آرکید، یا کنترل پیوسته موجوکو، پیشرفت زیادی را به وجود آوردهاند. (Bellemare et al., 2013; Plappert et al., 2018) در این مقاله، هدف ما دنبال کردن این مدل موفق با ارایه معیارهای استاندارد چالش برانگیز برای MARL عمیق و تسهیل روش تجربی دقیقتر در سراسر میدان است.
برخی از این آزمایشها برای رژیمهای چند عامله دیگر، مانند پوکر، پونگ، فوتبال کیپوی یا محیطهای ساده گریدورلدمانند پدید آمدهاند. (Heinrich & Silver, 2016; Tampuu et al., 2015; Stone et al., 2005; Lowe et al., 2017; Leibo et al., 2017; Yang et al., 2018; Zheng et al., 2017)
با این وجود، ما یک شکاف مشخص در بسترهای آزمون چالش برانگیز و استاندارد شده برای مجموعه مهم دامنههای توصیفشده در بالا را شناسایی میکنیم. برای پر کردن این شکاف، چالش چندعاملی استارکرافت (SMAC) را معرفی میکنیم. SMAC براساس یک بازی استراتژی زمان واقعی معروف ساخته شدهاست و از محیط SC2LE استفاده میکند. (Vinyals et al., 2017) به جای مقابله با بازی کامل استارکرافت با کنترل متمرکز، ما بر چالشهای مدیریت خرد غیرمتمرکز تمرکز میکنیم (شکل ۱). در این چالشها، هر یک از واحدهای ما توسط یک عامل یادگیری مستقل کنترل میشود که باید تنها براساس مشاهدات محلی عمل کند، در حالی که واحدهای مخالف توسط یک عامل هوشمند کد از پیشکدنویسیشده در StarCraft II کنترل میشوند. ما مجموعهای متنوع از سناریوها را ارایه میدهیم که الگوریتم ها را به چالش میکشند تا ورودیهای با ابعاد بالا و مشاهده پذیری نسبی را کنترل کنند و حتی زمانی که محدود به اجرای کاملا غیر متمرکز هستند، رفتار هماهنگ را یاد بگیرند.
بازیهای کامل استارکرافت: بروودوار و استارکرافت II در حال حاضر به دلیل چالشهای جالبی که در این بازیها وجود دارد، به عنوان محیطهای آرال مورد استفاده قرار میگیرند. (Synnaeve et al., 2016; Vinyals et al., 2017) دیپمایند ستاره آلفا (DeepMind, 2019) اخیرا با استفاده از یک کنترلکننده متمرکز، سطح چشمگیری از بازی را در یک مسابقه استارکرافت ۲ نشان دادهاست. در مقابل، SMAC به عنوان محیطی برای آموزش عوامل برای استفاده در بازی کامل استارکرافت ۲ در نظر گرفته نشده است. در عوض، با معرفی تمرکز زدایی دقیق و مشاهده پذیری جزیی محلی، ما از موتور بازی استارکرافت II برای ایجاد یک مجموعه جدید از مشکلات چند عامله تعاونی غنی استفاده میکنیم که چالشهای منحصر به فردی را به همراه میآورند، مانند غیر ایستا بودن یادگیری، تخصیص اعتبار چند عامله (فورستر و همکاران، ۲۰۱۸ a)، و دشواری نمایش ارزش اقدامات مشترک. (Foerster et al., 2017; Rashid et al., 2018)
برای تسهیل بیشتر تحقیق در این زمینه، ما همچنین PyMARL را به عنوان یک چارچوب منبع باز یادگیری که میتواند به عنوان یک نقطه شروع برای دیگر محققان عمل کند و شامل اجرای چندین الگوریتم کلیدی MARL است معرفی میکنیم. PyMARL ماژولار، توسعهپذیر، ساختهشده بر روی پایتورچ، و به عنوان الگویی برای مقابله با برخی از چالشهای منحصر به فرد MARL عمیق در عمل میتواند مورد استفاده قرار گیرد. ما نتایج را بر روی مجموعه کامل محیطهای SMAC خود با استفاده از QMIX و چندین الگوریتم پایه قرار میدهیم و جامعه را به چالش میکشیم تا در محیطهای دشواری پیشرفت کند که در آنها عملکرد خوب تا کنون دور از دسترس باقی ماندهاست. (Rashid et al., 2018) ما همچنین مجموعهای از دستورالعملها را برای بهترین اقدامات در ارزیابی با استفاده از معیار خود، از جمله گزارش معیارهای عملکرد استاندارد، کارایی نمونه، و الزامات محاسباتی ارایه میدهیم.
امیدواریم که SMAC به عنوان یک معیار استاندارد ارزشمند عمل کند، که پیشرفت سیستماتیک و قوی در MARL عمیق را برای سالهای آتی ممکن سازد.
این متن ترجمهای خودکار از چکیده و مقدمه مقاله The StarCraft Multi-Agent Challenge ارایهشده در هجدهمین کنفرانس International Conference on Autonomous Agents and MultiAgent Systems میباشد.
برای مطالعه کامل این مقاله به همراه ترجمه به این لینک مراجعه فرمایید.
مطلبی دیگر از این انتشارات
چگونه هوش مصنوعی میتواند به رفع نقصهای هوش تجاری کمک کند
مطلبی دیگر از این انتشارات
چرا ۹۰ درصد تمام مدلهای یادگیری ماشین هرگز به مرحله تولید نمیرسند
مطلبی دیگر از این انتشارات
استیلکیس خط کلاسیک مبلمان اداری فرانک لوید رایت را با برچسب قیمت چشمگیر احیا میکند