هوش مصنوعی آلفااستار در بازی StarCarft II


اولایل سال جاری، دیپ­ مایند (DeepMind) گوگل با عنوان هوش‌مصنوعی آلفااستار (AlfaStar AI) دو نفر از بازیکنان ماهر و زبردست بازی محبوب و آنلاین استارکرافت (StarCraft)، با نام­های ت.ال.او و مانا را شکست داد. دو روز پیش نیز دیپ‌مایند طی بیانیه­ای اعلام کرد که آلفااستار به بالاترین رنک ممکن در رقابت­های این بازی با نام سطح ارباب بزرگ (Grandmaster level) دست پیدا کرده است. این دست­یابی، آلفااستار را به اولین هوش مصنوعی که توانست بدون هیچ‌گونه محدودیتی به بالاترین رنک ممکن در لیگ بازی دست­یابد، تبدیل می‌کند.

آلفااستار از تکنیک یادگیری چندعاملی (multi-agent) بهره می‌برد و رتبه­ای بالاتر از 99.8% بازیکنان انسانی در بازی دارد. او توانست به سطح ارباب بزرگ درسه حالت بازی (protoss, terran, zerg) که بالاترین سطح در بازی است دست یابد. محققان دیپ‌مایند جزئیات این هوش مصنوعی را با عنوان زیر منتشر کردند.

Grandmaster level in StarCraft using multi-agent reinforcement learning

https://twitter.com/DeepMindAI/status/1189617587916689408/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1189617587916689408&ref_url=https%3A%2F%2Fhub.packtpub.com%2Fdeepmind-ais-alphastar-achieves-grandmaster-level-in-starcraft-ii-with-99-8-efficiency%2F



چگونه آلفااستار در بازی استارکرافت ۲ به چنین سطحی دست پیدا کرده‌ است؟

محققان دیپ‌مایند توانستند به وسیله­ی درک کردن توانایی­ها و محدودیت­های open-end، یک عامل قدرتمند و منعطف بسازند. این به محققان کمک کرد تا آلفااستار را طوری بسازند که توانایی مقابله با دامنه‌های پیچیده­ی دنیای واقعی را داشته باشد.

بازی هایی مانند استارکرافت یک زمین تمرین عالی برای پیشبرد این رویکردها هستند ، زیرا بازیکنان باید از اطلاعات محدودی استفاده کنند تا تصمیماتی پویا و دشوار بگیرند که دارای پیامدهای مختلف در چندین سطح و بازه زمانی است.

بازی استارکرافت به بازیکنانی نیاز دارد که تصمیمات به صرفه و سطح بالایی را که با کنترل فردی صد­ها واحدی که در اختیار دارد به تعادل برساند، انسان­ها در هنگام بازی کردن با محدودیت­های جسمی روبرو هستند که زمان عکس­العمل و میزان عملکرد آنهارا محدود میکند، بر این اساس آلفااستار نیز با محدودیت­هایی تحمیلی مانند تآخیر شبکه و زمان محاسبات دچار کندی شد. به منظور محدود کردن اعمال آلفااستار، آمار اوج محاسبات آن را در بازه­ی زمانی یک دقیقه نسبت به آمار انسانی بطور قابل ملاحظه­ای پایین‌تر در نظر گرفتند و برای هم‌ترازی هرچه بیشتر با حرکات انسانی، دید محدودی نسبت به نقشه به آن داده شد.

آلفااستار تنها قادراست به ثبت تعداد محدودی از کلیک­های موس بوده و تنها می‌تواند 22 عمل غیر تکراری برای بازی در هر پنج ثانیه انجام دهد.

آلفااستار ترکیبی از تکنیک­های عمومی همانند معماری شبکه عصبی، یادگیری تقویتی، تقلیدی و یادگیری چندعاملی استفاده می‌کند. این بازی­ها از یک مجموعه داده عمومی در دسترس از تکرار­های ناشناس انسانی نمونه‌برداری شده است، که بعدها برای پیش­بینی عملکرد هر بازیکن آموزش داده شدند. همچنین این پیش­بینی‌ها برای تهیه­ی مجموعه­ای از استراتژی‌های گوناگون به منظور بازتاب حالت­های مختلف بازی انسانی استفاده شدند.

داریو، یکی از بازیکنان ماهر استارکرافت ۲، درباره­ی آلفااستار چنین نظر دارد: "به نظر من نحوه­ی بازی آن بسیار چشمگیر و خیره­کننده است. این سیستم در ارزیابی موقعیت استراتژیک خود بسیار ماهر است و دقیقا مواقعی که باید با دشمن درگیر بشود یا نه را می‌داند و با اینکه کنترلی بسیار دقیق و عالی بر بازی خود دارد رقیب هیچگونه احساس بازی با یک ابرانسان را ندارد، یعنی از در سطحی نیست که یک انسان نتواند به آن دست پیدا کند؛ لذا بطور کلی منصفانه بنظر میرسد."

آلفااستار در هر مرحله از حرکت خود 1026عمل در دسترس دارد، بنابراین مجبور است قبل از فهمیدن اینکه بازی را می‌برد یا، نه هزاران عمل انجام دهد. یکی از راهکار­های مهم پردازش آلفااستار، یادگیری استراتژِی و عملکرد انسانی است، این امر برای اطمینان از مآموریت تحقیق درمورد استراتژی­های انجام شده در طول بازی، ضروری است. پژوهشگران می‌گویند:" برای انجام این عمل ما از یادگیری تقلیدی –همراه با ترکیب معماری‌های شبکه­های عصبی پیشرفته و تکنیک­های مدل سازی زبان- استفاده کردیم تا یک سیاست اولیه که بازی را از 84% بازیکنان فعال بهتر انجام دهد ایجاد کنیم."

همچنین آلفااستار از یک متغیر پنهانی برای رمزنگاری توزیع حرکات آزاد استفاده می­کند. این عمل به آلفااستار برای حفظ کردن استراتژی­های سطح بالایش کمک می‌کند و آن‌را قادر می­سازد تا استراتژی­های زیادی را در یک شبکه­ی عصبی ارائه دهد. محققان آفااستار نهایی(AlfaStar Final) را با استفاده از پیشرفت در فرایند تمرینی یادگیری تقلیدی و تقویتی آموزش دادند. هوش مصنوعی که بدون هیچگونه تعییر و اصلاحاتی توانست در بازی استارکرافت ۲ به سطح ارباب بزرگ دست یابد.

آلفااستار از یک دوربین برای رابط کاربری، که در آن برای بدست آوری دقیق اطلاعاتی که انسان­ها می‌توانند دریافت کنند استفاده می­کند. تمام روابط و محدودیت­هایی که آلفااستار با آن روبرو است، توسط یک بازیکن حرفه­ای مورد تآیید قرار گرفته. سرانجام، نتایج بدست آمده نشان داد که می‌توان از تکنیک­های یادگیری با هدف کلی بعنوان مقیاسی برای سیستم­های هوش مصنوعی برای کار در محیط­های پیچیده و پویا که شامل چندین بازیگر هستند، استفاده کرد.

https://twitter.com/verge/status/1189602894221328389

شاهکاری به نام آلفااستار باعث شده است که بسیاری از مردم درباره­ی آینده­ی هوش مصنوعی هیجان زده شوند.

دیپ‌مایند[1] (DeepMind) یک شرکت بریتانیایی هوش مصنوعی است که در سپتامبر سال ۲۰۱۰ تحت عنوان فناوری‌های ذهن عمیق تأسیس شد. سپس هنگامی که در سال ۲۰۱۴ توسط شرکت گوگل خریداری شد نامش به گوگل دیپ‌مایند تغییر یافت. این شرکت یک شبکه عصبی مصنوعی به وجود آورده‌است که توانایی یادگیری بازی ویدئویی را به همان شکل که انسان آن را می‌آموزد را داراست.