هوش مصنوعی آلفااستار در بازی StarCarft II

اولایل سال جاری، دیپ مایند (DeepMind) گوگل با عنوان هوش‌مصنوعی آلفااستار (AlfaStar AI) دو نفر از بازیکنان ماهر و زبردست بازی محبوب و آنلاین استارکرافت (StarCraft)، با نامهای ت.ال.او و مانا را شکست داد. دو روز پیش نیز دیپ‌مایند طی بیانیهای اعلام کرد که آلفااستار به بالاترین رنک ممکن در رقابتهای این بازی با نام سطح ارباب بزرگ (Grandmaster level) دست پیدا کرده است. این دستیابی، آلفااستار را به اولین هوش مصنوعی که توانست بدون هیچ‌گونه محدودیتی به بالاترین رنک ممکن در لیگ بازی دستیابد، تبدیل می‌کند.

آلفااستار از تکنیک یادگیری چندعاملی (multi-agent) بهره می‌برد و رتبهای بالاتر از 99.8% بازیکنان انسانی در بازی دارد. او توانست به سطح ارباب بزرگ درسه حالت بازی (protoss, terran, zerg) که بالاترین سطح در بازی است دست یابد. محققان دیپ‌مایند جزئیات این هوش مصنوعی را با عنوان زیر منتشر کردند.

Grandmaster level in StarCraft using multi-agent reinforcement learning

https://twitter.com/DeepMindAI/status/1189617587916689408/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1189617587916689408&ref_url=https%3A%2F%2Fhub.packtpub.com%2Fdeepmind-ais-alphastar-achieves-grandmaster-level-in-starcraft-ii-with-99-8-efficiency%2F

چگونه آلفااستار در بازی استارکرافت ۲ به چنین سطحی دست پیدا کرده‌ است؟

محققان دیپ‌مایند توانستند به وسیلهی درک کردن تواناییها و محدودیتهای open-end، یک عامل قدرتمند و منعطف بسازند. این به محققان کمک کرد تا آلفااستار را طوری بسازند که توانایی مقابله با دامنه‌های پیچیدهی دنیای واقعی را داشته باشد.

بازی هایی مانند استارکرافت یک زمین تمرین عالی برای پیشبرد این رویکردها هستند ، زیرا بازیکنان باید از اطلاعات محدودی استفاده کنند تا تصمیماتی پویا و دشوار بگیرند که دارای پیامدهای مختلف در چندین سطح و بازه زمانی است.

بازی استارکرافت به بازیکنانی نیاز دارد که تصمیمات به صرفه و سطح بالایی را که با کنترل فردی صدها واحدی که در اختیار دارد به تعادل برساند، انسانها در هنگام بازی کردن با محدودیتهای جسمی روبرو هستند که زمان عکسالعمل و میزان عملکرد آنهارا محدود میکند، بر این اساس آلفااستار نیز با محدودیتهایی تحمیلی مانند تآخیر شبکه و زمان محاسبات دچار کندی شد. به منظور محدود کردن اعمال آلفااستار، آمار اوج محاسبات آن را در بازهی زمانی یک دقیقه نسبت به آمار انسانی بطور قابل ملاحظهای پایین‌تر در نظر گرفتند و برای هم‌ترازی هرچه بیشتر با حرکات انسانی، دید محدودی نسبت به نقشه به آن داده شد.

آلفااستار تنها قادراست به ثبت تعداد محدودی از کلیکهای موس بوده و تنها می‌تواند 22 عمل غیر تکراری برای بازی در هر پنج ثانیه انجام دهد.

آلفااستار ترکیبی از تکنیکهای عمومی همانند معماری شبکه عصبی، یادگیری تقویتی، تقلیدی و یادگیری چندعاملی استفاده می‌کند. این بازیها از یک مجموعه داده عمومی در دسترس از تکرارهای ناشناس انسانی نمونه‌برداری شده است، که بعدها برای پیشبینی عملکرد هر بازیکن آموزش داده شدند. همچنین این پیشبینی‌ها برای تهیهی مجموعهای از استراتژی‌های گوناگون به منظور بازتاب حالتهای مختلف بازی انسانی استفاده شدند.

داریو، یکی از بازیکنان ماهر استارکرافت ۲، دربارهی آلفااستار چنین نظر دارد: "به نظر من نحوهی بازی آن بسیار چشمگیر و خیرهکننده است. این سیستم در ارزیابی موقعیت استراتژیک خود بسیار ماهر است و دقیقا مواقعی که باید با دشمن درگیر بشود یا نه را می‌داند و با اینکه کنترلی بسیار دقیق و عالی بر بازی خود دارد رقیب هیچگونه احساس بازی با یک ابرانسان را ندارد، یعنی از در سطحی نیست که یک انسان نتواند به آن دست پیدا کند؛ لذا بطور کلی منصفانه بنظر میرسد."

آلفااستار در هر مرحله از حرکت خود 1026عمل در دسترس دارد، بنابراین مجبور است قبل از فهمیدن اینکه بازی را می‌برد یا، نه هزاران عمل انجام دهد. یکی از راهکارهای مهم پردازش آلفااستار، یادگیری استراتژِی و عملکرد انسانی است، این امر برای اطمینان از مآموریت تحقیق درمورد استراتژیهای انجام شده در طول بازی، ضروری است. پژوهشگران می‌گویند:" برای انجام این عمل ما از یادگیری تقلیدی –همراه با ترکیب معماری‌های شبکههای عصبی پیشرفته و تکنیکهای مدل سازی زبان- استفاده کردیم تا یک سیاست اولیه که بازی را از 84% بازیکنان فعال بهتر انجام دهد ایجاد کنیم."

همچنین آلفااستار از یک متغیر پنهانی برای رمزنگاری توزیع حرکات آزاد استفاده میکند. این عمل به آلفااستار برای حفظ کردن استراتژیهای سطح بالایش کمک می‌کند و آن‌را قادر میسازد تا استراتژیهای زیادی را در یک شبکهی عصبی ارائه دهد. محققان آفااستار نهایی(AlfaStar Final) را با استفاده از پیشرفت در فرایند تمرینی یادگیری تقلیدی و تقویتی آموزش دادند. هوش مصنوعی که بدون هیچگونه تعییر و اصلاحاتی توانست در بازی استارکرافت ۲ به سطح ارباب بزرگ دست یابد.

آلفااستار از یک دوربین برای رابط کاربری، که در آن برای بدست آوری دقیق اطلاعاتی که انسانها می‌توانند دریافت کنند استفاده میکند. تمام روابط و محدودیتهایی که آلفااستار با آن روبرو است، توسط یک بازیکن حرفهای مورد تآیید قرار گرفته. سرانجام، نتایج بدست آمده نشان داد که می‌توان از تکنیکهای یادگیری با هدف کلی بعنوان مقیاسی برای سیستمهای هوش مصنوعی برای کار در محیطهای پیچیده و پویا که شامل چندین بازیگر هستند، استفاده کرد.

https://twitter.com/verge/status/1189602894221328389

شاهکاری به نام آلفااستار باعث شده است که بسیاری از مردم دربارهی آیندهی هوش مصنوعی هیجان زده شوند.

دیپ‌مایند[1] (DeepMind) یک شرکت بریتانیایی هوش مصنوعی است که در سپتامبر سال ۲۰۱۰ تحت عنوان فناوری‌های ذهن عمیق تأسیس شد. سپس هنگامی که در سال ۲۰۱۴ توسط شرکت گوگل خریداری شد نامش به گوگل دیپ‌مایند تغییر یافت. این شرکت یک شبکه عصبی مصنوعی به وجود آورده‌است که توانایی یادگیری بازی ویدئویی را به همان شکل که انسان آن را می‌آموزد را داراست.