Computer Engineer, philosophy and psychoanalysis lover, Gamer
هوش مصنوعی آلفااستار در بازی StarCarft II
اولایل سال جاری، دیپ مایند (DeepMind) گوگل با عنوان هوشمصنوعی آلفااستار (AlfaStar AI) دو نفر از بازیکنان ماهر و زبردست بازی محبوب و آنلاین استارکرافت (StarCraft)، با نامهای ت.ال.او و مانا را شکست داد. دو روز پیش نیز دیپمایند طی بیانیهای اعلام کرد که آلفااستار به بالاترین رنک ممکن در رقابتهای این بازی با نام سطح ارباب بزرگ (Grandmaster level) دست پیدا کرده است. این دستیابی، آلفااستار را به اولین هوش مصنوعی که توانست بدون هیچگونه محدودیتی به بالاترین رنک ممکن در لیگ بازی دستیابد، تبدیل میکند.
آلفااستار از تکنیک یادگیری چندعاملی (multi-agent) بهره میبرد و رتبهای بالاتر از 99.8% بازیکنان انسانی در بازی دارد. او توانست به سطح ارباب بزرگ درسه حالت بازی (protoss, terran, zerg) که بالاترین سطح در بازی است دست یابد. محققان دیپمایند جزئیات این هوش مصنوعی را با عنوان زیر منتشر کردند.
Grandmaster level in StarCraft using multi-agent reinforcement learning
چگونه آلفااستار در بازی استارکرافت ۲ به چنین سطحی دست پیدا کرده است؟
محققان دیپمایند توانستند به وسیلهی درک کردن تواناییها و محدودیتهای open-end، یک عامل قدرتمند و منعطف بسازند. این به محققان کمک کرد تا آلفااستار را طوری بسازند که توانایی مقابله با دامنههای پیچیدهی دنیای واقعی را داشته باشد.
بازی هایی مانند استارکرافت یک زمین تمرین عالی برای پیشبرد این رویکردها هستند ، زیرا بازیکنان باید از اطلاعات محدودی استفاده کنند تا تصمیماتی پویا و دشوار بگیرند که دارای پیامدهای مختلف در چندین سطح و بازه زمانی است.
بازی استارکرافت به بازیکنانی نیاز دارد که تصمیمات به صرفه و سطح بالایی را که با کنترل فردی صدها واحدی که در اختیار دارد به تعادل برساند، انسانها در هنگام بازی کردن با محدودیتهای جسمی روبرو هستند که زمان عکسالعمل و میزان عملکرد آنهارا محدود میکند، بر این اساس آلفااستار نیز با محدودیتهایی تحمیلی مانند تآخیر شبکه و زمان محاسبات دچار کندی شد. به منظور محدود کردن اعمال آلفااستار، آمار اوج محاسبات آن را در بازهی زمانی یک دقیقه نسبت به آمار انسانی بطور قابل ملاحظهای پایینتر در نظر گرفتند و برای همترازی هرچه بیشتر با حرکات انسانی، دید محدودی نسبت به نقشه به آن داده شد.
آلفااستار تنها قادراست به ثبت تعداد محدودی از کلیکهای موس بوده و تنها میتواند 22 عمل غیر تکراری برای بازی در هر پنج ثانیه انجام دهد.
آلفااستار ترکیبی از تکنیکهای عمومی همانند معماری شبکه عصبی، یادگیری تقویتی، تقلیدی و یادگیری چندعاملی استفاده میکند. این بازیها از یک مجموعه داده عمومی در دسترس از تکرارهای ناشناس انسانی نمونهبرداری شده است، که بعدها برای پیشبینی عملکرد هر بازیکن آموزش داده شدند. همچنین این پیشبینیها برای تهیهی مجموعهای از استراتژیهای گوناگون به منظور بازتاب حالتهای مختلف بازی انسانی استفاده شدند.
داریو، یکی از بازیکنان ماهر استارکرافت ۲، دربارهی آلفااستار چنین نظر دارد: "به نظر من نحوهی بازی آن بسیار چشمگیر و خیرهکننده است. این سیستم در ارزیابی موقعیت استراتژیک خود بسیار ماهر است و دقیقا مواقعی که باید با دشمن درگیر بشود یا نه را میداند و با اینکه کنترلی بسیار دقیق و عالی بر بازی خود دارد رقیب هیچگونه احساس بازی با یک ابرانسان را ندارد، یعنی از در سطحی نیست که یک انسان نتواند به آن دست پیدا کند؛ لذا بطور کلی منصفانه بنظر میرسد."
آلفااستار در هر مرحله از حرکت خود 1026عمل در دسترس دارد، بنابراین مجبور است قبل از فهمیدن اینکه بازی را میبرد یا، نه هزاران عمل انجام دهد. یکی از راهکارهای مهم پردازش آلفااستار، یادگیری استراتژِی و عملکرد انسانی است، این امر برای اطمینان از مآموریت تحقیق درمورد استراتژیهای انجام شده در طول بازی، ضروری است. پژوهشگران میگویند:" برای انجام این عمل ما از یادگیری تقلیدی –همراه با ترکیب معماریهای شبکههای عصبی پیشرفته و تکنیکهای مدل سازی زبان- استفاده کردیم تا یک سیاست اولیه که بازی را از 84% بازیکنان فعال بهتر انجام دهد ایجاد کنیم."
همچنین آلفااستار از یک متغیر پنهانی برای رمزنگاری توزیع حرکات آزاد استفاده میکند. این عمل به آلفااستار برای حفظ کردن استراتژیهای سطح بالایش کمک میکند و آنرا قادر میسازد تا استراتژیهای زیادی را در یک شبکهی عصبی ارائه دهد. محققان آفااستار نهایی(AlfaStar Final) را با استفاده از پیشرفت در فرایند تمرینی یادگیری تقلیدی و تقویتی آموزش دادند. هوش مصنوعی که بدون هیچگونه تعییر و اصلاحاتی توانست در بازی استارکرافت ۲ به سطح ارباب بزرگ دست یابد.
آلفااستار از یک دوربین برای رابط کاربری، که در آن برای بدست آوری دقیق اطلاعاتی که انسانها میتوانند دریافت کنند استفاده میکند. تمام روابط و محدودیتهایی که آلفااستار با آن روبرو است، توسط یک بازیکن حرفهای مورد تآیید قرار گرفته. سرانجام، نتایج بدست آمده نشان داد که میتوان از تکنیکهای یادگیری با هدف کلی بعنوان مقیاسی برای سیستمهای هوش مصنوعی برای کار در محیطهای پیچیده و پویا که شامل چندین بازیگر هستند، استفاده کرد.
شاهکاری به نام آلفااستار باعث شده است که بسیاری از مردم دربارهی آیندهی هوش مصنوعی هیجان زده شوند.
دیپمایند[1] (DeepMind) یک شرکت بریتانیایی هوش مصنوعی است که در سپتامبر سال ۲۰۱۰ تحت عنوان فناوریهای ذهن عمیق تأسیس شد. سپس هنگامی که در سال ۲۰۱۴ توسط شرکت گوگل خریداری شد نامش به گوگل دیپمایند تغییر یافت. این شرکت یک شبکه عصبی مصنوعی به وجود آوردهاست که توانایی یادگیری بازی ویدئویی را به همان شکل که انسان آن را میآموزد را داراست.
مطلبی دیگر از این انتشارات
هوشمندسازی تبریز، از حرف تا عمل
مطلبی دیگر از این انتشارات
فاصلهگذاری اجتماعی تا 2022 طول خواهد کشید؟
مطلبی دیگر از این انتشارات
تکنولوژی زبان های سخت افزاری