چالش چندعاملی جنگ‌ستارگان برای یادگیری تقویتی

صحنه‌ای از نبرد جنگ ستارگان  در چارچوب SMAC
صحنه‌ای از نبرد جنگ ستارگان در چارچوب SMAC


چکیده: در چند سال گذشته یادگیری تقویتی چندعامله عمیق (‏RL)‏ به یک حوزه تحقیقاتی بسیار فعال تبدیل شده‌است. یک کلاس چالش برانگیز از مشکلات در این حوزه تا حدی قابل‌مشاهده است، یادگیری مشارکتی، چندعاملی، که در آن تیم‌های عامل باید یاد بگیرند تا رفتار خود را هماهنگ کنند در حالی که تنها با مشاهدات خصوصی خود منطبق می‌شوند. این یک حوزه تحقیقاتی جذاب است زیرا چنین مشکلاتی به تعداد زیادی از سیستم‌های دنیای واقعی مرتبط هستند و همچنین بیشتر از مسایل مجموع عمومی، قابلیت ارزیابی دارند. ​

محیط‌های استانداردسازی شده مانند ALE و MuJoCo به یادگیری تقویتی تک عاملی اجازه داده‌اند تا فراتر از حوزه‌های اسباب‌بازی مانند دنیای شبکه‌ برود. با این حال، هیچ معیار قابل قیاسی برای هم‌کاری چند عامل RL وجود ندارد. در نتیجه، اغلب مقالات در این زمینه از مشکلات اسباب‌بازی یک طرفه استفاده می‌کنند، که اندازه‌گیری پیشرفت واقعی را دشوار می‌سازد. در این مقاله، ما چالش چندعاملی استارکرافت (‏SMAC)‏ را به عنوان یک مساله معیار برای پر کردن این شکاف پیشنهاد می‌کنیم. SMAC مبتنی بر بازی استراتژی زمان واقعی معروف استارکرافت II است و بر چالش‌های مدیریت خرد تمرکز دارد که در آن هر واحد توسط یک عامل مستقل کنترل می‌شود که باید براساس مشاهدات محلی عمل کند. ما مجموعه‌ای متنوع از نقشه‌های چالش و پیشنهادها را برای بهترین اقدامات در الگوبرداری و ارزیابی ارایه می‌دهیم. ما همچنین یک چارچوب عمیق یادگیری چند عاملی RL شامل الگوریتم‌های پیشرفته را معرفی می‌کنیم. ما معتقدیم که SMAC می‌تواند یک محیط معیار استاندارد را برای سال‌های آتی فراهم کند. ​

ویدیوهای بهترین عوامل ما برای سناریوهای مختلف SMAC در https://youtu.be/VZ۷zmQobZ0 قابل مشاهده هستند

مقدمه

​​​​​​​​یادگیری تقویتی عمیق (‏RL) ‏یک رویکرد مقیاس پذیر را برای حل مسایل تصمیم‌گیری ترتیبی اختیاری وعده می‌دهد و تنها خواستار این است که یک کاربر باید یک تابع پاداش مشخص کند که بیانگر رفتار مطلوب باشد. با این حال، بسیاری از مشکلات دنیای واقعی که ممکن است توسط آر آل حل شوند ذاتا چند عاملی هستند. به عنوان مثال، هماهنگی ماشین‌های خود گردان، هواپیماهای بدون سرنشین و دیگر سیستم‌های چند رباتی در حال تبدیل شدن مسایل بسیار مهم هستند. مسیریابی ترافیک شبکه، حسگرهای توزیع‌شده، توزیع انرژی و دیگر مسایل لجستیک نیز ذاتا چند عاملی هستند. به این ترتیب، ضروری است که راه‌حل‌های چند عاملی RL (‏MARL)‏ ایجاد شود که بتواند محدودیت‌های عدم تمرکز را کنترل کند و با فضای اقدام مشترک رو به رشد نمایی بسیاری از عوامل مقابله کند. ​

مشکلات یادگیری چند عاملی تا حدی قابل‌مشاهده هستند. مشکلات هم‌کاری از مشکلات در ارزیابی ذاتی با بازی‌های مجموع عمومی اجتناب می‌کنند (‏به عنوان مثال، کدام مخالفان در مقابل ارزیابی می‌شوند)‏. همچنین مسایل هم‌کاری به خوبی به طبقه بزرگی از مسایل بحرانی نگاشت می‌شوند که در آن یک کاربر که یک سیستم توزیع‌شده را مدیریت می‌کند می‌تواند هدف کلی را مشخص کند، به عنوان مثال، به حداقل رساندن ترافیک یا سایر ناکارآمدی‌ها. بسیاری از مسایل دنیای واقعی به ورودی‌های سنسورهای پر نویز یا محدود بستگی دارد، بنابراین مشاهده‌پذیری جزیی نیز باید به طور موثر مورد بررسی قرار گیرد. این اغلب شامل محدودیت‌هایی در ارتباط است که منجر به نیاز به اجرای غیر متمرکز سیاست‌های آموزشی می‌شود. با این حال، معمولا دسترسی به اطلاعات اضافی در طول آموزش وجود دارد، که ممکن است در شرایط کنترل‌شده یا در شبیه‌سازی انجام شود. ​

تعداد رو به رشد کارهای اخیر (‏فورستر و سایرین، ۲۰۱۸ a؛ رشید و سایرین، ۲۰۱۸؛ سوناهاگ و سایرین، ۲۰۱۷؛ لاو و سایرین، ۲۰۱۷) شروع به حل مشکلات این فضا کرده‌اند. با این حال، فقدان واضحی از معیارهای استاندارد شده برای تحقیق و ارزیابی وجود دارد. در عوض، محققان اغلب یک محیط خاموش را پیشنهاد می‌کنند که می‌تواند بسیار ساده باشد یا با الگوریتم های پیشنهادی تنظیم شود. در RL تک عاملی، محیط‌های استاندارد مانند محیط یادگیری آرکید، یا کنترل پیوسته موجوکو، پیشرفت زیادی را به وجود آورده‌اند. (Bellemare et al., 2013; Plappert et al., 2018) در این مقاله، هدف ما دنبال کردن این مدل موفق با ارایه معیارهای استاندارد چالش برانگیز برای MARL عمیق و تسهیل روش تجربی دقیق‌تر در سراسر میدان است. ​

برخی از این آزمایش‌ها برای رژیم‌های چند عامله دیگر، مانند پوکر، پونگ، فوتبال کیپ‌وی یا محیط‌های ساده گریدورلدمانند پدید آمده‌اند. (Heinrich & Silver, 2016; Tampuu et al., 2015; Stone et al., 2005; Lowe et al., 2017; Leibo et al., 2017; Yang et al., 2018; Zheng et al., 2017)

با این وجود، ما یک شکاف مشخص در بسترهای آزمون چالش برانگیز و استاندارد شده برای مجموعه مهم دامنه‌های توصیف‌شده در بالا را شناسایی می‌کنیم.​​​​​​​​ برای پر کردن این شکاف، چالش چندعاملی استارکرافت (‏SMAC) ‏را معرفی می‌کنیم. SMAC براساس یک بازی استراتژی زمان واقعی معروف ساخته شده‌است و از محیط SC2LE استفاده می‌کند. (Vinyals et al., 2017) به جای مقابله با بازی کامل استارکرافت با کنترل متمرکز، ما بر چالش‌های مدیریت خرد غیرمتمرکز تمرکز می‌کنیم (‏شکل ۱)‏. در این چالش‌ها، هر یک از واحدهای ما توسط یک عامل یادگیری مستقل کنترل می‌شود که باید تنها براساس مشاهدات محلی عمل کند، در حالی که واحدهای مخالف توسط یک عامل هوشمند کد از پیش‌کدنویسی‌شده در StarCraft II کنترل می‌شوند. ما مجموعه‌ای متنوع از سناریوها را ارایه می‌دهیم که الگوریتم ها را به چالش می‌کشند تا ورودی‌های با ابعاد بالا و مشاهده پذیری نسبی را کنترل کنند و حتی زمانی که محدود به اجرای کاملا غیر متمرکز هستند، رفتار هماهنگ را یاد بگیرند. ​

بازی‌های کامل استارکرافت: بروودوار و استارکرافت II در حال حاضر به دلیل چالش‌های جالبی که در این بازی‌ها وجود دارد، به عنوان محیط‌های آرال مورد استفاده قرار می‌گیرند. (Synnaeve et al., 2016; Vinyals et al., 2017) دیپ‌مایند ستاره آلفا (DeepMind, 2019) اخیرا با استفاده از یک کنترل‌کننده متمرکز، سطح چشمگیری از بازی را در یک مسابقه استارکرافت ۲ نشان داده‌است. در مقابل، SMAC به عنوان محیطی برای آموزش عوامل برای استفاده در بازی کامل استارکرافت ۲ در نظر گرفته نشده است. در عوض، با معرفی تمرکز زدایی دقیق و مشاهده پذیری جزیی محلی، ما از موتور بازی استارکرافت II برای ایجاد یک مجموعه جدید از مشکلات چند عامله تعاونی غنی استفاده می‌کنیم که چالش‌های منحصر به فردی را به همراه می‌آورند، مانند غیر ایستا بودن یادگیری، تخصیص اعتبار چند عامله (‏فورستر و همکاران، ۲۰۱۸ a)‏، و دشواری نمایش ارزش اقدامات مشترک. (Foerster et al., 2017; Rashid et al., 2018)

برای تسهیل بیشتر تحقیق در این زمینه، ما همچنین PyMARL را به عنوان یک چارچوب منبع باز یادگیری که می‌تواند به عنوان یک نقطه شروع برای دیگر محققان عمل کند و شامل اجرای چندین الگوریتم کلیدی MARL است معرفی می‌کنیم. PyMARL ماژولار، توسعه‌پذیر، ساخته‌شده بر روی پای‌تورچ، و به عنوان الگویی برای مقابله با برخی از چالش‌های منحصر به فرد MARL عمیق در عمل می‌تواند مورد استفاده قرار گیرد. ما نتایج را بر روی مجموعه کامل محیط‌های SMAC خود با استفاده از QMIX و چندین الگوریتم پایه قرار می‌دهیم و جامعه را به چالش می‌کشیم تا در محیط‌های دشواری پیشرفت کند که در آن‌ها عملکرد خوب تا کنون دور از دسترس باقی مانده‌است. (Rashid et al., 2018) ما همچنین مجموعه‌ای از دستورالعمل‌ها را برای بهترین اقدامات در ارزیابی با استفاده از معیار خود، از جمله گزارش معیارهای عملکرد استاندارد، کارایی نمونه، و الزامات محاسباتی ارایه می‌دهیم. ​

امیدواریم که SMAC به عنوان یک معیار استاندارد ارزشمند عمل کند، که پیشرفت سیستماتیک و قوی در MARL عمیق را برای سال‌های آتی ممکن سازد. ​

این متن ترجمه‌ای خودکار از چکیده و مقدمه مقاله The StarCraft Multi-Agent Challenge ‌ارایه‌شده در هجدهمین کنفرانس International Conference on Autonomous Agents and MultiAgent Systems می‌باشد.
برای مطالعه کامل این مقاله به همراه ترجمه‌ به این لینک مراجعه فرمایید.​