بازی هانابی: یک بازی جدید فکری

تعریف

هانابی یک بازی برای دو تا پنج بازیکن است که در بهترین توصیف به عنوان یک نوع سالیتیر (solitaire) مشارکتی توصیف می‌شود. هر بازیکن در هر دست چهار کارت (‏یا پنج کارت، هنگام بازی با دو یا سه بازیکن) ‏دارد. هر کارت رتبه (‏۱ تا ۵)‏ و رنگ (‏قرمز، سبز، آبی، زرد و سفید)‏ را به تصویر می‌کشد. کل بازی از ۵۰ کارت است که از هر رنگ ۱۰ کارت شامل سه عدد با امتیاز یک، دو عدد با امتیاز‌های ۲، ۳ و ۴ ثانیه و در نهایت یک کارت با امتیاز ۵ تشکیل شده‌است. هدف از بازی این است که با کارت‌ها بازی کنید تا پنج دسته مرتب پشت سرهم تشکیل شود، یک دسته برای هر رنگ، با یک کارت رتبه ۱ شروع و با یک کارت رتبه ۵ پایان یابد. چیزی که باعث می‌شود هانابی خاص شود این است که بر خلاف اغلب بازی‌های کارتی، بازیکنان تنها می‌توانند دستان همبازی‌های خود را ببینند و نه دستان خود را.

بازیکنان به نوبت یکی از این سه کار را انجام می‌دهند: دادن یک اشاره، بازی کردن یک کارت از دست خود، یا دور انداختن یک کارت. ما به بازیکنی که نویت او است بازیکن فعال می‌گوییم.

اشاره‌ها: بازیکن فعال می‌تواند به هر بازیکن دیگری اشاره کند. یک اشاره شامل انتخاب یک رتبه یا رنگ، و نشان دادن تمام کارت‌هایی است که با رتبه یا رنگ داده‌شده مطابقت دارند. تنها می توان به رتبه‌ها و رنگ‌هایی اشاره کرد که در دست بازیکن وجود دارند. بازیکن فعال می‌تواند به بازیکن ۲ بگوید، «کارت‌های اول و سوم شما قرمز هستند» یا «کارت چهارم شما یک ۳ است» برای جالب کردن بازی، اشارات محدودی وجود دارد. این بازی با گروهی آغاز می‌شود که هشت نشانه اطلاعاتی دارد که یکی از آن‌ها هر بار که یک اشاره داده می‌شود مصرف می‌شود. اگر هیچ نشانه اطلاعاتی وجود نداشته باشد، نمی‌توان به او اشاره کرد و بازیکن باید به جای آن بازی کند یا دور بیاندازد.

دور انداختن: هر گاه کم‌تر از هشت نشانه اطلاعاتی باقی بماند، بازیکن فعال می‌تواند یک کارت را از دست خود خارج کند (دور بیندازد). کارت دور انداخته شده به صورت رو به بالا (‏همراه با هر کارت بازی ناموفق) ‏قرار داده می‌شود که برای همه بازیکنان قابل‌مشاهده باشد. دورانداختن دو اثر دارد: بازیکن یک کارت جدید را از روی عرشه می‌کشد و یک نشانه اطلاعاتی پیدا بدست می‌آید.

بازی: در نهایت، بازیکن فعال می‌تواند یک کارت از دست آن‌ها بگیرد و سعی کند آن را بازی کند. بازی کردن یک کارت موفقیت‌آمیز است اگر کارت بعدی در دنباله رنگ آن باشد. برای مثال، در شکل ۱ عملکرد بازیکن ۲ در صورتی موفق خواهد بود که با زرد ۳ یا آبی ۱ خود بازی کند که در حالت اخیر باعث شروع پشته آبی را می‌شود. اگر بازی موفقیت‌آمیز باشد، کارت در بالای پشته مربوطه قرار می‌گیرد. زمانی که یک پشته کامل می‌شود (‏کارت ۵ بازی می‌شود)‏، بازیکنان همچنین یک نشانه اطلاعاتی جدید دریافت می‌کنند (‏اگر کم‌تر از هشت‌تا داشته باشند)‏. بازیکن می‌تواند یک کارت بازی کند حتی اگر آن‌ها چیزی در مورد آن ندانند. اما اگر بازی ناموفق باشد، کارت دور انداخته می‌شود (‏بدون دادن یک نشانه اطلاعاتی) ‏و گروه یک دوره بازی را از دست می‌دهد و احتمالا بازی را به پایان می‌رساند. در هر دو حالت، یک کارت جدید از روی عرشه کشیده می‌شود.

خاتمه بازی: بازی به یکی از این سه روش به پایان می‌رسد: یا به این دلیل که گروه با موفقیت برای تکمیل هر پنج دسته کارت بازی کرده‌است، وقتی سه نفر کشته شده‌اند، یا بعد از اینکه یک بازیکن آخرین کارت را از روی عرشه می‌کشد و هر بازیکن یک دور نهایی را می‌گیرد. اگر بازی قبل از مرگ سه نفر تمام شود، گروه یک امتیاز برای هر کارت در هر دسته، و حداکثر ۲۵ امتیاز می‌گیرد؛ در غیر این صورت امتیاز ۰ خواهد بود.

استراتژی پایه

توکن‌های اطلاعاتی بسیار اندکی برای ارایه اطلاعات کامل (‏یعنی رتبه و رنگ) ‏برای هر یک از ۲۵ کارت وجود دارد که تنها از طریق اطلاعات پایه که با اشاره آشکار می‌شوند، قابل پخش هستند. در حالی که کمیت اطلاعات ارایه‌شده توسط یک اشاره می‌تواند با آشکار کردن اطلاعات در مورد کارت‌های چندگانه در یک زمان بهبود یابد، ارزش اطلاعات در هانابی بسیار وابسته به موضوع است. برای به حداکثر رساندن امتیاز تیم در پایان بازی، باید نکاتی براساس بیش از مقدار اطلاعات منتقل‌شده انتخاب شوند. برای مثال در شکل ۱ اگر به بازیکن ۳ گفته شود که چهار کارت آبی در دست دارد، اطلاعات بیشتری نسبت به اینکه به بازیکن ۲ گفته شود یک کارت آبی رتبه ۱ دارد، منتقل شده اما کارت‌های رتبه پایین‌تر در ابتدا اهمیت بیشتری دارند، چون می‌توانند فورا بازی شوند. بنابراین یک بازی معمولی با اشاره به بازیکنانی آغاز می‌شود که کارت ۱ دارند، پس از آن بازیکنان آن کارت‌ها را بازی می‌کنند. این موضوع همزمان قفل توانایی بازی با همان رنگ و امتیاز ۲ را باز می‌کنند و ۱‌های باقیمانده از آن رنگ را برای بازیابی اطلاعات نشانه مفید می‌سازند، زیرا بازیکنان می‌توانند کارت‌های اضافی را دور بیاندازند.

بازیکنان به دو روش تشویق می‌شوند تا از بازی‌های ناموفق اجتناب کنند: اول، از دست دادن هر سه عمر در بازی که بلافاصله با صفر امتیاز پایان یابد. دوم، خود کارت دور انداخته می‌شود. به طور کلی، کنار گذاشتن تمام کارت‌های یک رتبه و رنگ مشخص نتیجه بدی دارد چون حداکثر امتیاز قابل‌دستیابی را کاهش می‌دهد. برای مثال، در شکل ۱ از آنجایی که هیچ کارت سبز با رتبه بالاتر قابل پخش نخواهد بود، هر دو کارت سبز ۲ حذف می‌شوند و چهار امتیاز از دست می‌رود. در نتیجه اشاره به بازیکنانی که در معرض خطر دور انداختن تنها کارت باقیمانده از یک رتبه و رنگ مشخص هستند، اغلب اولویت‌ می‌گیرد. این به ویژه برای کارت‌های رتبه ۵ معمول است چون تنها یکی در هر رنگ وجود دارد و آن‌ها اغلب باید برای مدت طولانی قبل از این که کارت بتواند با موفقیت بازی شود نگه‌داشته شوند.

ارتباط ضمنی

در حالی که ارتباط صریح در هانابی محدود به اعمال اشاره است، هر عملی که در هانابی انجام می‌شود توسط تمام بازیکنان مشاهده می‌شود و می‌تواند به طور ضمنی اطلاعات را منتقل کند. این اطلاعات ضمنی از طریق تاثیری که یک عمل بر محیط دارد منتقل نمی‌شود (‏یعنی، چه اتفاقی می‌افتد)‏ بلکه از طریق این واقعیت است که یک بازیکن تصمیم می‌گیرد این عمل را انجام دهد (‏یعنی، چرا آن اتفاق افتاد)‏. این امر مستلزم آن است که بازیکنان بتوانند اقداماتی را که یک بازیکن دیگر ممکن است در تعدادی از موقعیت‌های مختلف انجام داده باشد، ضرورتا استدلال بر روی نیت نماینده، توجیه کنند. بازیکنان انسانی اغلب از چنین استدلالی برای انتقال اطلاعات بیشتر از طریق اعمال خود استفاده می‌کنند. موقعیت در شکل ۱ را در نظر بگیرید و فرض کنید بازیکن فعال (‏بازیکن ۰) ‏هیچ چیز در مورد کارت‌های خود نمی‌داند، و بنابراین آن‌ها انتخاب می‌کنند که به بازیکن دیگری اشاره کنند. یک گزینه این است که به بازیکن ۱ در مورد ۱های در دست خود بگویید. با این حال، این اطلاعات به ویژه عملی نیستند چون زرد ۱ در حال حاضر قابل بازی نیست. در عوض، آن‌ها می‌توانند به بازیکن ۱ در مورد کارت قرمز، که ۱ است، بگویند. اگر چه بازیکن ۱ صراحتا نمی‌داند که کارت ۱ است، و بنابراین قابل بازی است، آن‌ها می‌توانند استنتاج کنند که قابل بازی است چون دلیل کمی برای گفتن در غیر این صورت وجود دارد، به خصوص وقتی بازیکن ۲ یک آبی با امتیاز ۱ دارد که اشاره کردن به آن مفید خواهد بود. همچنین ممکن است نتیجه بگیرند که چون بازیکن ۰ ترجیح می‌دهد به جای رتبه به رنگ اشاره کند، یکی از کارت‌های دیگر آن‌ها قابل بازی نیست.

یک تاکتیک حتی موثرتر، اما پیچیده‌تر که معمولا توسط انسان‌ها به کار می‌رود حرکت به اصطلاح «ظرافت» است. برای انجام ظرافت در این وضعیت، بازیکن ۰ به بازیکن ۲ می‌گوید که دارای ۲ است. با همان استدلال عملگرایانه بالا، بازیکن ۲ به اشتباه می‌تواند استنباط کند که قرمز ۲ آن‌ها سفید قابل بازی است (‏چون هر دو سبز ۲ قبلا کنار گذاشته شده بودند)‏. بازیکن ۱ قرمز ۲ بازیکن ۲ را می‌بیند و متوجه می‌شود که بازیکن ۲ این استنباط نادرست را انجام می‌دهد و به اشتباه کارت را بازی می‌کند، و بازیکن ۱ را به این سوال هدایت می‌کند که چرا بازیکن ۰ این اشاره به ظاهر نامعقول را انتخاب کرده‌است. حتی بدون قراردادهای ثابت، بازیکنان می‌توانند در مورد این اشاره با فرض اینکه دیگران قصد دارند اطلاعات مفید را منتقل کنند، استدلال کنند. در نتیجه، تنها توضیح منطقی برای انتخاب این است که خود بازیکن ۱ باید قرمز ۱ را نگه دارد (‏در یک موقعیت قابل‌پیش‌بینی، مانند آخرین کارت کشیده‌شده)‏ و انتظار می‌رود بازی را نجات دهد. با استفاده از این تاکتیک، بازیکن ۰ می‌تواند اطلاعات کافی برای دریافت دو کارت بازی شده تنها با استفاده از یک نشانه اطلاعاتی واحد را آشکار کند. حرکت‌های بسیار دیگری نیز وجود دارند که بر این نوع استدلال در مورد قصد برای انتقال اطلاعات مفید تکیه دارند (‏به عنوان مثال، لاف زدن، ظرافت معکوس)‏‏. ما از ظرافت برای اشاره گسترده به این سبک حرکت استفاده خواهیم کرد.

این متن ترجمه‌ای نیمه‌خودکار (همراه با پس‌ویرایش انسانی) از بخش تعریف بازی مقاله The Hanabi challenge: A new frontier for AI research چاپ‌شده در شماره ۲۸۰ مجله Artificial Intelligence می باشد.
برای مطالعه کامل این مقاله به همراه ترجمه‌ به این لینک مراجعه فرمایید.