"بازی اجماع" محققان MIT یک رویکرد نظری بازی برای رمزگشایی مدل زبان است. الگوریتم رتبهبندی تعادل، پرس و جوی مولد و افتراقی را هماهنگ میکند تا دقت پیشبینی را در کارهای مختلف افزایش دهد، از مدلهای بزرگتر بهتر عمل کند و پتانسیل نظریه بازی را در بهبود سازگاری و صداقت مدل زبان نشان دهد.
تصور کنید که شما و یکی از دوستانتان در حال انجام یک بازی هستید که هدف شما این است که فقط با استفاده از جملات رمزآلود، پیام های مخفی را به یکدیگر منتقل کنید. کار دوست شما حدس زدن پیام مخفی پشت جملات شماست. گاهی اوقات، شما مستقیماً سرنخ میدهید، و گاهی اوقات، دوستتان باید با پرسیدن سؤالات بله یا خیر در مورد سرنخهایی که دادهاید، پیام را حدس بزند. چالش این است که هر دوی شما می خواهید مطمئن شوید که یکدیگر را به درستی درک می کنید و در مورد پیام مخفی توافق دارید.
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) یک "بازی" مشابه برای کمک به بهبود نحوه درک و تولید متن توسط هوش مصنوعی ایجاد کرده اند. این بازی به عنوان «بازی اجماع» شناخته میشود و شامل دو بخش از یک سیستم هوش مصنوعی میشود - یک بخش سعی میکند جملاتی را تولید کند (مانند ارائه سرنخها)، و بخش دیگر سعی میکند آن جملات را درک و ارزیابی کند (مانند حدس زدن پیام مخفی).
محققان دریافتند که با در نظر گرفتن این تعامل به عنوان یک بازی، که در آن هر دو بخش هوش مصنوعی تحت قوانین خاصی با هم کار می کنند تا در مورد پیام صحیح به توافق برسند، می توانند به طور قابل توجهی توانایی هوش مصنوعی را برای دادن پاسخ های صحیح و منسجم به سوالات بهبود بخشند. آنها این رویکرد جدید شبیه به بازی را بر روی وظایف مختلفی مانند درک مطلب، حل مسائل ریاضی و ادامه مکالمات آزمایش کردند و دریافتند که به هوش مصنوعی کمک می کند تا در کل عملکرد بهتری داشته باشد.
به طور سنتی، مدلهای زبانی بزرگ به یکی از دو روش پاسخ میدهند: ایجاد پاسخها به طور مستقیم از مدل (پرسوجوی تولیدی) یا استفاده از مدل برای امتیاز دادن به مجموعهای از پاسخهای از پیش تعریفشده (پرسجویی متمایز)، که میتواند منجر به نتایج متفاوت و گاهی اوقات ناسازگار شود. با رویکرد مولد «رئیس جمهور آمریکا کیست؟ ممکن است پاسخی سرراست مانند "جو بایدن" بدهد. با این حال، یک پرسش تبعیض آمیز می تواند به نادرستی این واقعیت را در هنگام ارزیابی پاسخ مشابه، مانند "باراک اوباما" مورد مناقشه قرار دهد.
بنابراین، چگونه میتوانیم رویههای امتیازدهی ناسازگار را برای دستیابی به پیشبینیهای منسجم و کارآمد با هم تطبیق دهیم؟
روش جدیدی را برای کمک به مدلهای زبان برای درک و تولید متن، مانند یک بازی، تصور کنید. ما یک روش تئوری بازی بدون آموزش ایجاد کردهایم که کل فرآیند را به عنوان یک بازی پیچیده از سرنخها و سیگنالها در نظر میگیرد، جایی که یک مولد تلاش میکند تا به جای مهرههای شطرنج، پیام درست را با استفاده از زبان طبیعی به افراد ممیز بفرستید، آنها از کلمات و جملات استفاده میکنند." راه ما برای هدایت این بازی یافتن «تعادل تقریبی» است که منجر به الگوریتم رمزگشایی جدیدی به نام «رتبهبندی تعادل» میشود. این یک نمایش بسیار هیجانانگیز است که نشان میدهد چگونه وارد کردن استراتژیهای نظری بازی به ترکیب میتواند با برخی چالشهای بزرگ در ساخت مدلهای زبانی قابل اعتمادتر و سازگارتر مقابله کند."
وقتی الگوریتم تیم در بسیاری از وظایف، مانند درک مطلب، استدلال عامیانه، حل مسئله ریاضی و گفتگو مورد آزمایش قرار گرفت، به طور مداوم میزان عملکرد این مدلها را بهبود بخشید. استفاده از الگوریتم ER با مدل LLaMA-7B حتی از نتایج مدل های بسیار بزرگتر نیز بهتر بود. جیکوب میگوید: «با توجه به اینکه آنها در حال حاضر رقابتی هستند، مردم مدتی است که روی آن کار میکنند، اما سطح پیشرفتهایی که ما شاهد عملکرد بهتر مدلهایی با اندازه ۱۰ برابری بودیم، شگفتانگیز بود.
بازی روشن است
«دیپلماسی»، یک بازی استراتژیک رومیزی که در اروپای قبل از جنگ جهانی اول اتفاق میافتد، جایی که بازیکنان بدون استفاده از تاس در مورد اتحادها مذاکره میکنند، به دوستانشان خیانت میکنند و سرزمینها را تسخیر میکنند - صرفاً با تکیه بر مهارت، استراتژی و دستکاری بینفردی - اخیراً یک بار دیگر ظاهر شد. . در نوامبر 2022، دانشمندان کامپیوتر، از جمله جیکوب، "سیسرو" را توسعه دادند، یک عامل هوش مصنوعی که به تواناییهای سطح انسانی در بازی هفت نفره ترکیبی دست مییابد، که نیازمند همان مهارتهای ذکر شده، اما با زبان طبیعی است. ریاضیات پشت این تا حدی الهام بخش بازی اجماع بود.
در حالی که تاریخچه عوامل هوش مصنوعی به مدت طولانی قبل از ورود نرم افزار OpenAI به چت در نوامبر 2022 است، به خوبی مستند شده است که آنها هنوز هم می توانند به عنوان دوست خوب و در عین حال آسیب شناس شما بازی کنند.
سیستم بازی اجماع به عنوان یک توافق به تعادل می رسد و دقت و وفاداری به بینش های اصلی مدل را تضمین می کند. برای دستیابی به این هدف، این روش به طور مکرر تعاملات بین مؤلفههای مولد و افتراقی را تنظیم میکند تا زمانی که آنها به اجماع بر سر پاسخی برسند که به طور دقیق واقعیت را منعکس کند و با باورهای اولیه آنها همسو شود. این رویکرد به طور موثر شکاف بین دو روش پرس و جو را پر می کند.
در عمل، اجرای رویکرد بازی اجماع برای پرس و جوی مدل زبان، به ویژه برای وظایف پاسخگویی به پرسش، شامل چالش های محاسباتی قابل توجهی است. به عنوان مثال، هنگام استفاده از مجموعه دادههایی مانند MMLU، که دارای هزاران سؤال و پاسخهای چند گزینهای هستند، مدل باید مکانیزم را برای هر پرس و جو اعمال کند. سپس باید بین مؤلفههای مولد و افتراقی برای هر سؤال و پاسخهای احتمالی آن به اجماع برسد.
این سیستم با یک حق قبولی در مدرسه مشکل داشت: مشکلات کلمه ریاضی. نمیتواند پاسخهای اشتباهی ایجاد کند، که این یک مؤلفه حیاتی برای درک فرآیند رسیدن به پاسخ درست است.
«چند سال گذشته شاهد پیشرفت بسیار چشمگیری در تصمیمگیری استراتژیک و تولید زبان از سیستمهای هوش مصنوعی بودهایم، اما ما تازه شروع کردهایم که چگونه این دو را کنار هم قرار دهیم. ژاکوب میگوید: رتبهبندی تعادل اولین قدم در این مسیر است، اما من فکر میکنم که ما میتوانیم کارهای زیادی انجام دهیم تا این را به مشکلات پیچیدهتر تبدیل کنیم.
یک راه کار آینده شامل تقویت مدل پایه با ادغام خروجی های روش فعلی است. این امر به ویژه امیدوارکننده است زیرا می تواند پاسخ های واقعی تر و منسجم تری را در مورد وظایف مختلف، از جمله واقعیت و تولید بدون پایان ارائه دهد. پتانسیل چنین روشی برای بهبود قابل توجه عملکرد مدل پایه بالا است، که می تواند خروجی های قابل اعتمادتر و واقعی تری از ChatGPT و مدل های زبانی مشابهی را که مردم روزانه استفاده می کنند، به دست آورد.
احمد بیرامی، دانشمند تحقیقاتی گوگل، میگوید: «اگرچه مدلهای زبان مدرن، مانند ChatGPT و Gemini، منجر به حل وظایف مختلف از طریق واسطهای چت شدهاند، فرآیند رمزگشایی آماری که پاسخی از این مدلها ایجاد میکند، برای دههها بدون تغییر باقی مانده است». درگیر کار نیست "پیشنهاد محققان MIT یک چارچوب نظری بازی ابتکاری برای رمزگشایی از مدل های زبانی از طریق حل تعادل یک بازی اجماع است. دستاوردهای عملکرد قابل توجه گزارش شده در مقاله تحقیقاتی امیدوارکننده است و دری را به روی یک تغییر پارادایم بالقوه در زبان باز می کند. رمزگشایی مدلی که ممکن است به هجوم برنامه های جدید دامن بزند."
جیکوب این مقاله را با یکیانگ شن، محقق آزمایشگاه واتسون MIT-IBM و استادیاران گروه مهندسی برق و علوم کامپیوتر MIT، گابریله فارینا و جاکوب آندریاس، که همچنین یکی از اعضای CSAIL است، نوشت. آنها کار خود را در کنفرانس بینالمللی نمایشهای یادگیری (ICLR) در اوایل ماه جاری ارائه کردند، جایی که به عنوان "مقاله برجسته" برجسته شد. این تحقیق همچنین "جایزه بهترین مقاله" را در کارگاه NeurIPS R0-FoMo در دسامبر 2023 دریافت کرد.
🔹این مقاله به صورت ماشینی، توسط Aiticle ترجمه شده و ممکنه ایراداتی داشته باشه، فیدبکهای شما به ما در جهت بهبود سیستممون خیلی کمک میکنه :) لطفا نظراتتون رو باهامون به اشتراک بگذارین.