چالش هانابی: یک مرز جدید برای تحقیقات هوش مصنوعی

بازی هانابی
بازی هانابی


چکیده: از همان روزهای اولیه محاسبات، بازی‌ها ابزارهای آزمایشی مهمی برای مطالعه چگونگی عملکرد ماشین‌ها در تصمیم‌گیری‌های پیچیده بوده‌اند. در سال‌های اخیر، یادگیری ماشین پیشرفت‌های چشمگیری با عامل‌های مصنوعی که به عملکرد فوق انسانی در حوزه‌های چالش مانند گو، آتاری و برخی انواع پوکر دست یافته‌اند، داشته‌است. این حوزه‌های بازی همانند دیگر حوزه‌های بازی شطرنج، چکرز و تخته‌نرد، تحقیقات خود را با ارایه چالش‌های پیچیده و در عین حال به خوبی تعریف‌شده برای متخصصان هوش مصنوعی آغاز کرده‌اند. ما این سنت را با پیشنهاد بازی هانابی به عنوان یک حوزه چالش جدید با مشکلات جدید ادامه می‌دهیم که از ترکیب گیم‌پلی کاملا مشارکتی با دو تا پنج بازیکن و اطلاعات ناقص ناشی می‌شود. به طور خاص، ما استدلال می‌کنیم که هانابی استدلال در مورد باورها و مقاصد عوامل دیگر را به پیش‌زمینه ارتقا می‌دهد. ما معتقدیم که توسعه تکنیک‌های جدید برای چنین نظریه‌ استدلال ذهنی نه تنها برای موفقیت در هانابی، بلکه در تلاش‌های گسترده‌تر مشترک، به ویژه آن‌هایی که دارای شرکای انسانی هستند، حیاتی خواهد بود. برای تسهیل تحقیقات آینده، ما محیط آموزشی منبع‌باز هانابی را معرفی می‌کنیم، و یک چارچوب تجربی برای جامعه تحقیقاتی پیشنهاد می‌کنیم تا پیشرفت‌های الگوریتمی را ارزیابی کنیم، و عملکرد تکنیک‌های حال حاضر را ارزیابی کنیم. ​

مقدمه​​​​​​​​

در سراسر جوامع بشری، افراد در طیف وسیعی از فعالیت‌ها با افراد گوناگون دیگر مشارکت می‌کنند. این تعاملات چند عامله برای هر چیزی از کارهای روزمره دنیوی، مانند رفت و آمد به محل کار، تا عملکرد سازمان‌هایی که زندگی مدرن را پشتیبانی می‌کنند، مانند دولت‌ها و بازارهای اقتصادی، ضروری هستند. با چنین تعاملات چند عامله پیچیده‌ای که نقش محوری در زندگی انسان ایفا می‌کند، مطلوب است که عوامل هوشمند مصنوعی نیز قادر به هم‌کاری موثر با عوامل دیگر به ویژه انسان‌ها باشند. ​

محیط‌های چند عاملی چالش‌های منحصر به فردی را نسبت به آن‌هایی که تنها یک عامل دارند، ارایه می‌دهند. به طور خاص، رفتار ایده‌آل برای یک نماینده معمولا به نحوه عملکرد نمایندگان دیگر بستگی دارد. بنابراین، برای اینکه یک نماینده بتواند کاربرد خود را در چنین شرایطی به حداکثر برساند، باید در نظر بگیرد که نمایندگان دیگر چگونه رفتار خواهند کرد، و به طور مناسب واکنش نشان دهند. عوامل دیگر اغلب پیچیده‌ترین بخش محیط هستند: سیاست‌های آن‌ها معمولا تصادفی، پویا یا وابسته به اطلاعات خصوصی است که توسط همه مشاهده نمی‌شود. علاوه بر این، عوامل به طور کلی نیاز به تعامل دارند در حالی که تنها زمان محدودی برای مشاهده دیگران دارند. ​

در حالی که این مسایل استنتاج رفتار دیگران را یک چالش رعب‌آور برای متخصصان هوش مصنوعی می‌سازد، انسان‌ها به طور معمول چنین استنتاج‌هایی را در تعاملات اجتماعی خود با استفاده از نظریه ذهن انجام می‌دهند‏: استدلال در مورد دیگران به عنوان عوامل با حالات ذهنی خودشان مانند چشم‌اندازها، باورها و نیت‌ها برای توضیح و پیش‌بینی رفتار آن‌ها. درعین‌حال، می‌توان نظریه ذهن را به عنوان توانایی انسان برای تصور دنیا از دیدگاه فرد دیگر در نظر گرفت. به عنوان مثال، یک کاربرد ساده در دنیای واقعی از نظریه ذهن می‌تواند مشاهده شود زمانی که یک عابر پیاده از یک خیابان شلوغ عبور می‌کند. هنگامی که مقداری ترافیک متوقف شد، راننده‌ای که به خودروهای متوقف‌شده نزدیک می‌شود ممکن است نتواند مستقیما عابر پیاده را مشاهده کند. با این حال، آن‌ها می‌توانند دلیل توقف سایر رانندگان را توضیح دهند و استنباط کنند که یک عابر عبور می‌کند. ​

در این کار، ما بازی کارتی محبوب هانابی را بررسی می‌کنیم، و برای آن به عنوان یک مرز تحقیقاتی جدید استدلال می‌کنیم که در هسته آن، نوع چالش‌های چند عاملی را نشان می‌دهد که در آن انسان‌ها از نظریه ذهن استفاده می‌کنند. هانابی در سال ۲۰۱۳ جایزه معتبر اسپایل دس جاحرس (Spiel des Jahres) را برنده شد و از سوی یک جامعه فعال، از جمله تعدادی از سایت‌هایی که اجازه بازی آنلاین را می‌دهند، مورد حمایت قرار گرفت‏. هانابی یک بازی مشارکتی اطلاعات ناقص برای دو تا پنج بازیکن است که به بهترین شکل به عنوان یک نوع از تیم بازی کارت solitaire توصیف می‌شود. اطلاعات ناقص بازی از این ناشی می‌شود که هر بازیکن نمی‌تواند کارت‌های خودش را ببیند (‏یعنی آن‌هایی که نگه می‌دارند و می‌توانند روی آن‌ها کار کنند)‏، که هر کدام رنگ و رتبه دارند. برای موفقیت، بازیکنان باید هماهنگ شوند تا به طور موثر اطلاعات را به هم‌تیمی‌هایشان نشان دهند، با این حال بازیکنان تنها می‌توانند ارتباط برقرار کنند، هر چند که اشاره به تمام کارت‌های یک بازیکن از یک رتبه یا رنگ انتخاب‌شده دارد. به صورت ویژه، انجام یک اقدام راهنما منابع محدود نشانه اطلاعاتی را مصرف می‌کند، که حل و فصل کامل عدم قطعیت هر بازیکن در مورد کارت‌هایی که تنها براساس این اطلاعات پایه نگه می‌دارند را غیر ممکن می‌سازد. برای افراد فعال در هوش مصنوعی، این ساختار ارتباطی محدود همچنین مانع از استفاده از کانال‌های ارتباطی "گفتگوهای ارزان" می‌شود که در تحقیقات چند عاملی قبلی مورد بررسی قرار گرفته‌اند. بازی موفق شامل انتقال اطلاعات اضافی به طور ضمنی از طریق انتخاب خود اعمال است که توسط تمام بازیکنان قابل‌مشاهده است. ​

هانابی متفاوت از بازی‌های دو نفره خصمانه مجموع صفر است که در آن کامپیوترها به مهارت فوق انسانی رسیده‌اند، به عنوان مثال شطرنج‏، چکرز‏، گو‏، تخته‌نرد و پوکر دو نفره‏. در آن بازی‌ها، عوامل معمولا یک سیاست تعادل (‏یا به طور معادل یک استراتژی) ‏را محاسبه می‌کنند به طوری که هیچ یک از بازیکنان نمی‌توانند با انحراف از تعادل، سودمندی خود را بهبود بخشند. در حالی که بازی‌های دو نفره مجموع - صفر می‌توانند تعادل چندگانه داشته باشند، تعادل‌های مختلف قابل تعویض هستند هر بازیکن می‌تواند بخشی از پروفایل های تعادل مختلف خود را بدون تاثیر بر کاربرد آن‌ها بازی کند. در نتیجه، نماینده‌ها می‌توانند با یافتن هر گونه سیاست تعادلی به یک تضمین عملکرد بدترین حالت معنی‌دار در این حوزه‌ها دست یابند. با این حال، از آنجا که هانابی نه دونفره است و نه مجموع صفر، ارزش سیاست یک نماینده به شدت به سیاست‌های مورد استفاده هم‌تیمی‌های آن بستگی دارد. حتی اگر تمام بازیکنان طبق همان تعادل عمل کنند، تعادل بهینه محلی چندگانه وجود دارد که نسبتا پایین‌تر است. برای الگوریتم‌هایی که به طور تکراری عوامل مستقل را آموزش می‌دهند، مانند الگوریتم‌هایی که معمولا در متون یادگیری تقویتی چندعامله به کار می‌روند، فرار از این تعادل‌های فرعی می‌تواند بسیار دشوار باشد و حتی یادگیری یک سیاست خوب برای همه بازیکنان چالش برانگیز است. ​

وجود اطلاعات ناقص در الگوریتم های هوش مصنوعی بعد چالش برانگیز دیگری از پیچیدگی را ایجاد می‌کند. همانطور که در حوزه‌هایی مانند پوکر مشاهده شده‌است، اطلاعات ناقص چگونگی رفتار یک عامل را در چندین حالت مشاهده‌شده نشان می‌دهد. در هانابی، ما این را زمانی مشاهده می‌کنیم که سیاست را به عنوان پروتکل ارتباطی بین بازیکنان در نظر می‌گیریم، که در آن کارایی هر پروتکل داده‌شده به کل طرح بستگی دارد به جای این که بازیکنان چگونه در یک موقعیت خاص مشاهده‌شده ارتباط برقرار کنند. به این معنی که نحوه واکنش سایر بازیکنان به یک سیگنال انتخابی بستگی به این دارد که چه موقعیت‌های دیگری از همان سیگنال استفاده می‌کنند. با توجه به این درهم‌تنیدگی، نوع تکنیک‌های اکتشاف تک عمل رایج در یادگیری تقویتی (‏به عنوان مثال، حریصانه، تنظیم آنتروپی)‏می‌تواند به طور نادرست سودمندی چنین مراحل اکتشافی را ارزیابی کند زیرا آن‌ها تاثیر کلی آن‌ها را نادیده می‌گیرند. ​

به نظر می‌رسد که انسان‌ها به طور متفاوت از بیشتر روش‌های یادگیری تقویتی چندعاملی به هانابی نزدیک می‌شوند. حتی مبتدیان بدون هیچ تجربه‌ای شروع به نشان دادن کارت‌های بازی خواهند کرد و استدلال می‌کنند که دیدگاه هم‌تیمی‌هایشان مانع از این می‌شود که خودشان این را بدانند. علاوه بر این، مبتدیان با اطمینان کارت‌هایی را بازی می‌کنند که تنها تا حدی قابل بازی شناخته شده‌اند، و تشخیص می‌دهند که هدف در شناسایی جزیی برای نشان دادن قابلیت بازی کامل آن کافی است. همه اینها در بازی اول اتفاق می‌افتد و پیشنهاد می‌کند که بازیکنان دیدگاه‌ها، باورها و اهداف بازیکنان دیگر را در نظر می‌گیرند (‏و انتظار دارند که بازیکنان دیگر نیز همین کار را در مورد آن‌ها انجام دهند)‏. با اینکه تعیین کمیت دشوار است، اما به نظر می‌رسد که تئوری ذهن یک ویژگی اصلی در چگونگی یادگیری بازی است. ما می‌توانیم شواهد بیشتری از نظریه ذهن را در توصیف انجمن‌های پیشرفته که مورد استفاده بازیکنان با تجربه است، مشاهده کنیم. این توصیفات اغلب شامل منطق پشت هر "توافق" به صراحت شامل استدلال در مورد باورها و مقاصد سایر بازیکنان است. ​

بازیکن C باید فرض کند که D می‌خواهد کارت زردش را بازی کند. C باید کاری انجام دهد، و از خودش می‌پرسد: «چرا B این سرنخ را داده‌است؟» تنها دلیل این است که C واقعا می‌تواند آن کارت را قابل بازی کند. این قراردادها سپس استدلال بیشتر در مورد باورها و مقاصد بازیگران دیگر را ممکن می‌سازند. برای مثال، این عبارت که "C باید فرض کند که D می‌خواهد کارت زرد خود را بازی کند"، خودش نتیجه استدلال است که شناسایی جزیی یک کارت قابل بازی برای شناسایی آن به عنوان قابل بازی کافی است. ​

ما از بازی انسانی می‌توانیم ببینیم که خود هدف چندوجهی است. یک چالش یادگیری یک سیاست برای کل تیم است که منفعت بالایی دارد. بیشتر تحقیقات قبلی هوش مصنوعی در مورد هانابی بر روی این چالش متمرکز شده‌است، که ما آن را محیط خود بازی می‌نامیم. بازیکنان انسانی اغلب برای رسیدن به این هدف تلاش می‌کنند، پیش هماهنگ‌سازی رفتار خود را چه به طور صریح و چه به طور ضمنی از طریق بسیاری از بازی‌های تجربه با بازیکنان مشابه انجام می‌دهند. با این حال، همانطور که یکی از این راهنما‌ها می‌گوید، «هانابی بسیار پیچیده است، بنابراین نوشتن یک راهنما در مورد چگونگی حل هر موقعیت فردی، غیر ممکن است». حتی اگر چنین راهنمایی وجود داشته باشد، برای بازیکنان انسانی هانابی حفظ سیاست‌های ظریف یا انتظار از دیگران برای انجام چنین کاری غیر ممکن است. ​


این متن ترجمه‌ای خودکار از چکیده و مقدمه مقاله The Hanabi challenge: A new frontier for AI research چاپ‌شده در شماره ۲۸۰ مجله Artificial Intelligence می باشد.
برای مطالعه کامل این مقاله به همراه ترجمه‌ به این لینک مراجعه فرمایید.​