رابطه رقابت و هوشمندانه عمل کردن، موضوع آزمایش جدید openAI در زمینه هوش مصنوعی

به نظر شما چه چیزی باعث به وجود آمدن و هوشمند شدن موجودات روی زمین شده است؟ قطعا یکی از عواملی که باعث هوشمندتر شدن گونه های مختلف موجودات روی زمین شده است، رقابت و شرایط حاکم بر روی کره زمین می باشد. این رقابت و شرایط باعث شده تا موجودات با بدست آوردن تجربه های بیشتر هربار در مواجهه با مسائل مختلف هوشمندانه تر عمل کنند. همین موضوع باعث شده تا محققان در openAI به سراغ آزمایشی جدید بروند و ببینند آیا ایجاد یک فضای رقابت باعث هوشمندانه تر عمل کردن هوش مصنوعی می شود یا خیر.

در این آزمایش محققان openAI به نتایج هیجان انگیزی رسیدند. آن ها با استفاده از بازی قایم باشک شرایطی رقابتی برای بازیکن های هوش مصنوعی ایجاد کردند. در طی بازی هوش مصنوعی برای رسیدن به برد، برخی اوقات از تاکتیک هایی استفاده می کرد که باعث شگفت زدگی محققان در طول آزماش شد. حتی گاهی هوش مصنوعی از تاکتیک هایی استفاده می کرد که از قوانین فیزیک پیروی می کردند. در ادامه به مطالعه مقاله و بررسی نتایج openAI از این آزمایش می پردازیم.

قایم باشک، فضای رقابتی و هوش مصنوعی

در این بازی محققان مشاهده کردند که چگونه هر گروه با کشف طرز استفاده از ابزاری جدید در بازی  هوشمندانه تر عمل کرد. در بازی، بازیکن های هوش مصنوعی از 6 نوع استراتژی و ضداستراتژی برای مقابله با فشارهایی که هر گروه به دیگری اعمال می کرد، استفاده می کردند که برخی از آن ها یه گونه ای بود که محققان نمی دانستند محیط طراحی شده توسط آن ها دارای چنین قابلیت هایی می باشد.

پیچیدگی هوشمندانه ای که در تصمیمات اتخاذ شده این بازیکنان هوش مصنوعی وجود دارد، نشان می دهد که چگونه سازگاری چند عامل با یکدیگر ضمن وجود شرایط رقابتی منجر به ایجاد رفتاری هوشمندانه و پیچیده در محیطی بسیار ساده می شود.

در محیط بازی طراحی شده بازیکنان هوش مصنوعی در دو گروه مجزا به بازی قایم باشک پرداختند. این دو گروه شامل دنبال کننده ها و پنهان شونده ها بودند. پنهان شونده ها (رنگ آبی) که وظیفه آن ها این است که از دید دنبال کننده ها (رنگ قرمز) پنهان شوند و وظیفه دنبال کننده ها هم آن است که همواره پنهان شونده ها را در دید خود داشته باشند. در محیط بازی، اشیاء دیگری به طور تصادفی نیز وجود داشت که هر دو گروه می توانستند از آن ها استفاده کنند و آن ها را در جای خود قفل کنند و یا اینکه آن ها را با خود به هر طرفی می خواهند ببرند. علاوه بر اشیاء، در محیط بازی دیوار و اتاق هایی تعبیه شده بود تا هوش مصنوعی یاد بگیرد که از میان آن ها حرکت کنند.

قبل از اینکه بازی شروع شود، در یک فاز ایجاد آمادگی که در آن دنبال کننده ها بی حرکت هستند، به پنهان شونده ها این فرصت داده می شد که فرار کنند و یا موقعیت خود را تغییر دهند. در وهله اول بازی هیچ انگیزه مشخصی برای تعامل هوش مصنوعی با اشیاء موجود در محیط وجود نداشت. تنها اطلاعاتی که به آن ها داده شده بود آن بود که باید قایم باشک بازی کنند. البته این بازیکن ها از قبل نحوه فرار کردن و دنبال کردن را آموخته بودند.

در این بازی، بازیکن های هوش مصنوعی به صورت گروهی امتیاز می گیرند. به این صورت که اگر تمام اعضای گروه پنهان شونده ها از دید دنبال کننده ها مخفی بمانند 1+ امتیاز دریافت می کنند و اگر هر کدام از آن ها توسط دنبال کننده ها دیده شوند 1- امتیاز می گیرند و همین امر برای گروه دنبال کننده ها هم صادق است. البته نکته دیگر بازی آن است که بازیکن های هوش مصنوعی در صورتی که بیش از حد از زمین بازی دور شوند جریمه خواهند شد. در طول دوره آمادگی امتیاز همه ی بازیکن ها صفر است.

در طول بازی هر بازیکن در برابر بازیکن دیگر چیزهای جدیدی یاد می گیرد و در طی بازی شش استراتژی جدید ظهور پیدا می کند. هر استراتژی نوظهور، فشاری جدید بر روی بازیکن های هوش مصنوعی در گروه مقابل می شود تا مطابق با شرایط جدید وفق پیدا کنند. نکته مهم این است که در این بازی هیچ مشوقی برای ایجاد تعامل و یا اکتشاف اشیاء توسط بازیکن های هوش مصنوعی وجود ندارد. تمام این استراتژی های نوظهوری که در ادامه به آن ها می پردازیم حاصل آموزش بازیکن های هوش مصنوعی از طریق رقابت بین چند عامل در بازی و دینامیک ساده بازی قایم باشک می باشد.

ظهور استراتژی های جدید در یک محیط بسیار ساده توسط هوش مصنوعی

اول از همه ما استراتژی های نوظهوری که بازیکن های هوش مصنوعی در محیط ساده و بسته آموختند را به شما نشان می دهیم. در این محیط دو دنبال کننده، دو پنهان شونده و 2 جعبه و یک رمپ و یک فضای اتاق مانند که یک یا دو در با موقعیت اتفاقی دارد، وجود داشت.

  1. بازیکن ها به صورت تصادفی حرکت می کنند.
  2. دنبال کننده ها یاد می گیرند که به پنهان شونده ها را دنبال کنند.
  3. پنهان شونده ها یاد می گیرند که می توانند جعبه ها را حرکت دهند و با استفاده از آن ها ده ها را مسدود کنند.
  4. دنبال کننده ها یاد می گیرند که می توانند با استفاده از رمپ ها از روی اشیاء بپرند.
  5. پنهان شونده ها یاد می گیرند که با پنهان کردن رمپ در اتاق از استفاده دنبال کننده ها از آن ها جلوگیری کنند.
  6. علاوه بر این ها پنهان شونده ها یاد میگیرند تا با برنامه ریزی کدام یک در را مسدود کند و کدام یک رمپ را پنهان کند. حتی زمانی که جعبه ها از در بسیار دور است آن ها به گونه ای برنامه ریزی می کنند که در زمان درست هر دو در را مسدود کنند.

ظهور استراتژی های جدید در محیطی آزاد توسط هوش مصنوعی

در این مرحله ما به شما نشان می دهیم که چه استراتژی های نوظهوری در محیطی آزاد شکل گرفت. در این محیط به صورت تصادفی 1 تا 3 پنهان شونده، 1 تا 3 دنبال کننده، تعداد 3 تا 9 بلوک، 2 رمپ و تعداد تصادفی اتاق و در قرار داشت. در این محیط، بازیکنان هوش مصنوعی به دو استراتژی نوظهور دیگر در مقایسه با محیط ساده قبلی رسیدند.

  1. بازیکن ها به صورت تصادفی حرکت می کنند.
  2. دنبال کننده ها یاد می گیرند که به پنهان شونده ها را دنبال کنند.
  3. پنهان شونده ها یاد میگیرند که یک مخفیگاه برای پنهان شدن بسازند.
  4. دنبال کننده ها یاد می گیرند که می توانند با استفاده از رمپ ها از روی اشیاء بپرند.
  5. پنهان شونده ها یاد میگیرند تا با قفل کردن رمپ ها جلوی گروه مقابل را بگیرند.
  6. دنبال کننده ها یاد می گیرند تا با نزدیک کردن جعبه ها به رمپ ها بر روی آن ها پریده و با تکان دادن جعبه ها تا نزدیکی پناهگاه به داخل آن ها بپرند.
  7. پنهان شونده ها یاد م یگیرند که با قفل کردن تمام رمپ ها و جعبه ها جلوی استراتژی های قبلی دنبال کننده ها را بگیرند.

آموزش قایم باشک به بازیکنان هوش مصنوعی

openAI در این بازی از زیرساخت ها و الگوریتم هایی برای آموزش هوش مصنوعی استفاده کرد که قبلا برای آموزش هوش مصنوعی در OpenAI Five و Dactyl استفاده کرده بود. البته در محیط این بازی هر بازیکن هوش مصنوعی با استفاده از تجربیات و حافظه خود، به صورت مستقل عمل می کند.

نتیجه گیری پایانی

پر واضح است که که استراتژی و مهارت های مربوط به زیست انسان در محیط واقعی بسیار پیچیده تر از آن چه در محیط این بازی قایم باشک با هوش مصنوعی و الگوریتم های آن گذشت، می باشد. با این حال نتایج این آزمایش به محققان هوش مصنوعی امید می دهد که در محیطی متنوع و آزاد، پویایی چند عامل می تواند منجر به رفتاری پیچیده و شبه انسانی شود.


اگر به خواندن مطالب بیشتر در زمینه هوش مصنوعی علاقه مندید، به وبسایت عامراندیش مراجعه کنید.