من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
چالش هانابی: یک مرز جدید برای تحقیقات هوش مصنوعی
چکیده: از همان روزهای اولیه محاسبات، بازیها ابزارهای آزمایشی مهمی برای مطالعه چگونگی عملکرد ماشینها در تصمیمگیریهای پیچیده بودهاند. در سالهای اخیر، یادگیری ماشین پیشرفتهای چشمگیری با عاملهای مصنوعی که به عملکرد فوق انسانی در حوزههای چالش مانند گو، آتاری و برخی انواع پوکر دست یافتهاند، داشتهاست. این حوزههای بازی همانند دیگر حوزههای بازی شطرنج، چکرز و تختهنرد، تحقیقات خود را با ارایه چالشهای پیچیده و در عین حال به خوبی تعریفشده برای متخصصان هوش مصنوعی آغاز کردهاند. ما این سنت را با پیشنهاد بازی هانابی به عنوان یک حوزه چالش جدید با مشکلات جدید ادامه میدهیم که از ترکیب گیمپلی کاملا مشارکتی با دو تا پنج بازیکن و اطلاعات ناقص ناشی میشود. به طور خاص، ما استدلال میکنیم که هانابی استدلال در مورد باورها و مقاصد عوامل دیگر را به پیشزمینه ارتقا میدهد. ما معتقدیم که توسعه تکنیکهای جدید برای چنین نظریه استدلال ذهنی نه تنها برای موفقیت در هانابی، بلکه در تلاشهای گستردهتر مشترک، به ویژه آنهایی که دارای شرکای انسانی هستند، حیاتی خواهد بود. برای تسهیل تحقیقات آینده، ما محیط آموزشی منبعباز هانابی را معرفی میکنیم، و یک چارچوب تجربی برای جامعه تحقیقاتی پیشنهاد میکنیم تا پیشرفتهای الگوریتمی را ارزیابی کنیم، و عملکرد تکنیکهای حال حاضر را ارزیابی کنیم.
مقدمه
در سراسر جوامع بشری، افراد در طیف وسیعی از فعالیتها با افراد گوناگون دیگر مشارکت میکنند. این تعاملات چند عامله برای هر چیزی از کارهای روزمره دنیوی، مانند رفت و آمد به محل کار، تا عملکرد سازمانهایی که زندگی مدرن را پشتیبانی میکنند، مانند دولتها و بازارهای اقتصادی، ضروری هستند. با چنین تعاملات چند عامله پیچیدهای که نقش محوری در زندگی انسان ایفا میکند، مطلوب است که عوامل هوشمند مصنوعی نیز قادر به همکاری موثر با عوامل دیگر به ویژه انسانها باشند.
محیطهای چند عاملی چالشهای منحصر به فردی را نسبت به آنهایی که تنها یک عامل دارند، ارایه میدهند. به طور خاص، رفتار ایدهآل برای یک نماینده معمولا به نحوه عملکرد نمایندگان دیگر بستگی دارد. بنابراین، برای اینکه یک نماینده بتواند کاربرد خود را در چنین شرایطی به حداکثر برساند، باید در نظر بگیرد که نمایندگان دیگر چگونه رفتار خواهند کرد، و به طور مناسب واکنش نشان دهند. عوامل دیگر اغلب پیچیدهترین بخش محیط هستند: سیاستهای آنها معمولا تصادفی، پویا یا وابسته به اطلاعات خصوصی است که توسط همه مشاهده نمیشود. علاوه بر این، عوامل به طور کلی نیاز به تعامل دارند در حالی که تنها زمان محدودی برای مشاهده دیگران دارند.
در حالی که این مسایل استنتاج رفتار دیگران را یک چالش رعبآور برای متخصصان هوش مصنوعی میسازد، انسانها به طور معمول چنین استنتاجهایی را در تعاملات اجتماعی خود با استفاده از نظریه ذهن انجام میدهند: استدلال در مورد دیگران به عنوان عوامل با حالات ذهنی خودشان مانند چشماندازها، باورها و نیتها برای توضیح و پیشبینی رفتار آنها. درعینحال، میتوان نظریه ذهن را به عنوان توانایی انسان برای تصور دنیا از دیدگاه فرد دیگر در نظر گرفت. به عنوان مثال، یک کاربرد ساده در دنیای واقعی از نظریه ذهن میتواند مشاهده شود زمانی که یک عابر پیاده از یک خیابان شلوغ عبور میکند. هنگامی که مقداری ترافیک متوقف شد، رانندهای که به خودروهای متوقفشده نزدیک میشود ممکن است نتواند مستقیما عابر پیاده را مشاهده کند. با این حال، آنها میتوانند دلیل توقف سایر رانندگان را توضیح دهند و استنباط کنند که یک عابر عبور میکند.
در این کار، ما بازی کارتی محبوب هانابی را بررسی میکنیم، و برای آن به عنوان یک مرز تحقیقاتی جدید استدلال میکنیم که در هسته آن، نوع چالشهای چند عاملی را نشان میدهد که در آن انسانها از نظریه ذهن استفاده میکنند. هانابی در سال ۲۰۱۳ جایزه معتبر اسپایل دس جاحرس (Spiel des Jahres) را برنده شد و از سوی یک جامعه فعال، از جمله تعدادی از سایتهایی که اجازه بازی آنلاین را میدهند، مورد حمایت قرار گرفت. هانابی یک بازی مشارکتی اطلاعات ناقص برای دو تا پنج بازیکن است که به بهترین شکل به عنوان یک نوع از تیم بازی کارت solitaire توصیف میشود. اطلاعات ناقص بازی از این ناشی میشود که هر بازیکن نمیتواند کارتهای خودش را ببیند (یعنی آنهایی که نگه میدارند و میتوانند روی آنها کار کنند)، که هر کدام رنگ و رتبه دارند. برای موفقیت، بازیکنان باید هماهنگ شوند تا به طور موثر اطلاعات را به همتیمیهایشان نشان دهند، با این حال بازیکنان تنها میتوانند ارتباط برقرار کنند، هر چند که اشاره به تمام کارتهای یک بازیکن از یک رتبه یا رنگ انتخابشده دارد. به صورت ویژه، انجام یک اقدام راهنما منابع محدود نشانه اطلاعاتی را مصرف میکند، که حل و فصل کامل عدم قطعیت هر بازیکن در مورد کارتهایی که تنها براساس این اطلاعات پایه نگه میدارند را غیر ممکن میسازد. برای افراد فعال در هوش مصنوعی، این ساختار ارتباطی محدود همچنین مانع از استفاده از کانالهای ارتباطی "گفتگوهای ارزان" میشود که در تحقیقات چند عاملی قبلی مورد بررسی قرار گرفتهاند. بازی موفق شامل انتقال اطلاعات اضافی به طور ضمنی از طریق انتخاب خود اعمال است که توسط تمام بازیکنان قابلمشاهده است.
هانابی متفاوت از بازیهای دو نفره خصمانه مجموع صفر است که در آن کامپیوترها به مهارت فوق انسانی رسیدهاند، به عنوان مثال شطرنج، چکرز، گو، تختهنرد و پوکر دو نفره. در آن بازیها، عوامل معمولا یک سیاست تعادل (یا به طور معادل یک استراتژی) را محاسبه میکنند به طوری که هیچ یک از بازیکنان نمیتوانند با انحراف از تعادل، سودمندی خود را بهبود بخشند. در حالی که بازیهای دو نفره مجموع - صفر میتوانند تعادل چندگانه داشته باشند، تعادلهای مختلف قابل تعویض هستند هر بازیکن میتواند بخشی از پروفایل های تعادل مختلف خود را بدون تاثیر بر کاربرد آنها بازی کند. در نتیجه، نمایندهها میتوانند با یافتن هر گونه سیاست تعادلی به یک تضمین عملکرد بدترین حالت معنیدار در این حوزهها دست یابند. با این حال، از آنجا که هانابی نه دونفره است و نه مجموع صفر، ارزش سیاست یک نماینده به شدت به سیاستهای مورد استفاده همتیمیهای آن بستگی دارد. حتی اگر تمام بازیکنان طبق همان تعادل عمل کنند، تعادل بهینه محلی چندگانه وجود دارد که نسبتا پایینتر است. برای الگوریتمهایی که به طور تکراری عوامل مستقل را آموزش میدهند، مانند الگوریتمهایی که معمولا در متون یادگیری تقویتی چندعامله به کار میروند، فرار از این تعادلهای فرعی میتواند بسیار دشوار باشد و حتی یادگیری یک سیاست خوب برای همه بازیکنان چالش برانگیز است.
وجود اطلاعات ناقص در الگوریتم های هوش مصنوعی بعد چالش برانگیز دیگری از پیچیدگی را ایجاد میکند. همانطور که در حوزههایی مانند پوکر مشاهده شدهاست، اطلاعات ناقص چگونگی رفتار یک عامل را در چندین حالت مشاهدهشده نشان میدهد. در هانابی، ما این را زمانی مشاهده میکنیم که سیاست را به عنوان پروتکل ارتباطی بین بازیکنان در نظر میگیریم، که در آن کارایی هر پروتکل دادهشده به کل طرح بستگی دارد به جای این که بازیکنان چگونه در یک موقعیت خاص مشاهدهشده ارتباط برقرار کنند. به این معنی که نحوه واکنش سایر بازیکنان به یک سیگنال انتخابی بستگی به این دارد که چه موقعیتهای دیگری از همان سیگنال استفاده میکنند. با توجه به این درهمتنیدگی، نوع تکنیکهای اکتشاف تک عمل رایج در یادگیری تقویتی (به عنوان مثال، حریصانه، تنظیم آنتروپی)میتواند به طور نادرست سودمندی چنین مراحل اکتشافی را ارزیابی کند زیرا آنها تاثیر کلی آنها را نادیده میگیرند.
به نظر میرسد که انسانها به طور متفاوت از بیشتر روشهای یادگیری تقویتی چندعاملی به هانابی نزدیک میشوند. حتی مبتدیان بدون هیچ تجربهای شروع به نشان دادن کارتهای بازی خواهند کرد و استدلال میکنند که دیدگاه همتیمیهایشان مانع از این میشود که خودشان این را بدانند. علاوه بر این، مبتدیان با اطمینان کارتهایی را بازی میکنند که تنها تا حدی قابل بازی شناخته شدهاند، و تشخیص میدهند که هدف در شناسایی جزیی برای نشان دادن قابلیت بازی کامل آن کافی است. همه اینها در بازی اول اتفاق میافتد و پیشنهاد میکند که بازیکنان دیدگاهها، باورها و اهداف بازیکنان دیگر را در نظر میگیرند (و انتظار دارند که بازیکنان دیگر نیز همین کار را در مورد آنها انجام دهند). با اینکه تعیین کمیت دشوار است، اما به نظر میرسد که تئوری ذهن یک ویژگی اصلی در چگونگی یادگیری بازی است. ما میتوانیم شواهد بیشتری از نظریه ذهن را در توصیف انجمنهای پیشرفته که مورد استفاده بازیکنان با تجربه است، مشاهده کنیم. این توصیفات اغلب شامل منطق پشت هر "توافق" به صراحت شامل استدلال در مورد باورها و مقاصد سایر بازیکنان است.
بازیکن C باید فرض کند که D میخواهد کارت زردش را بازی کند. C باید کاری انجام دهد، و از خودش میپرسد: «چرا B این سرنخ را دادهاست؟» تنها دلیل این است که C واقعا میتواند آن کارت را قابل بازی کند. این قراردادها سپس استدلال بیشتر در مورد باورها و مقاصد بازیگران دیگر را ممکن میسازند. برای مثال، این عبارت که "C باید فرض کند که D میخواهد کارت زرد خود را بازی کند"، خودش نتیجه استدلال است که شناسایی جزیی یک کارت قابل بازی برای شناسایی آن به عنوان قابل بازی کافی است.
ما از بازی انسانی میتوانیم ببینیم که خود هدف چندوجهی است. یک چالش یادگیری یک سیاست برای کل تیم است که منفعت بالایی دارد. بیشتر تحقیقات قبلی هوش مصنوعی در مورد هانابی بر روی این چالش متمرکز شدهاست، که ما آن را محیط خود بازی مینامیم. بازیکنان انسانی اغلب برای رسیدن به این هدف تلاش میکنند، پیش هماهنگسازی رفتار خود را چه به طور صریح و چه به طور ضمنی از طریق بسیاری از بازیهای تجربه با بازیکنان مشابه انجام میدهند. با این حال، همانطور که یکی از این راهنماها میگوید، «هانابی بسیار پیچیده است، بنابراین نوشتن یک راهنما در مورد چگونگی حل هر موقعیت فردی، غیر ممکن است». حتی اگر چنین راهنمایی وجود داشته باشد، برای بازیکنان انسانی هانابی حفظ سیاستهای ظریف یا انتظار از دیگران برای انجام چنین کاری غیر ممکن است.
این متن ترجمهای خودکار از چکیده و مقدمه مقاله The Hanabi challenge: A new frontier for AI research چاپشده در شماره ۲۸۰ مجله Artificial Intelligence می باشد.
برای مطالعه کامل این مقاله به همراه ترجمه به این لینک مراجعه فرمایید.
مطلبی دیگر از این انتشارات
۳ سوال مصاحبه رفتاری با نمونه پاسخ آنها
مطلبی دیگر از این انتشارات
شرکت Square در حال ساخت کیف پول سختافزاری برای بیتکوین است
مطلبی دیگر از این انتشارات
آیا هوش مصنوعی میتواند احساسات داشته باشد؟