آلن تورینگ سال ۱۹۵۰ پیشبینی کرده بود که تا ۵۰ سال آینده ماشینهایی روی کار خواهند آمد که میتوانند آزمون تورینگ را با موفقیت پشت سر بگذارند. حالا بعد از گذشته دو دهه از وعدهٔ آلن و داغشدن تبِ چتباتهای هوش مصنوعی، شرکت AI21 Labs با اجرای بزرگترین آزمون تورینگ تاریخ قصد دارد به این سؤال پاسخ دهد که آیا ماشینها به سطحی از هوشمندی رسیدهاند که بتوانند انسان را شکست دهند!
آزمایش به این صورت بوده که افراد از هر جای دنیا وارد سایت humanornot.ai میشدند و به مدت ۲ دقیقه با یک نفر دیگر که معلوم نبوده ماشین است یا یک شرکتکنندهٔ دیگر، صحبت میکردند و در نهایت به این سؤال پاسخ میدادند که شخص مقابل انسان است یا ماشین.
در این آزمایش از مدلهای زبانی Jurassic-2 ،GPT-4 ،Claude و Cohere استفاده شده است.
این آزمایش، اواسطِ آوریل ۲۰۲۳ شروع شد و در تاریخ نامعلومی در همین سال پایان یافت. حدود ۲ میلیون نفر از سراسر دنیا در این چالش شرکت کردند و بیش از ۱۵ میلیون گفتگو به ثبت رساندند.
نتایج آزمایش را ببینیم:
تجزیهوتحلیل ۲ میلیون گفتگوی اول نشان داد:
علاوه بر دادههای عددی این تحقیق، تعدادی رویکرد و استراتژی محبوب کاربران برای تشخیص انسان از ماشین شناسایی شد که در ادامه توضیح خواهیم داد. عمدهٔ این روشها، بر پایهٔ تجربیات قبلی افراد در گفتگو با انسان و محدودیتهای شناختهشدهٔ مدلهای زبانی است که در گفتگو با چتباتهایی مانند ChatGPT و موارد مشابه یاد گرفتهاند.
بسیاری از شرکتکنندهها به پشتوانهٔ این تجربه که چتباتها اشتباه املایی و دستوری ندارند و از اصطلاحات عامیانه و کوچهبازاری استفاده نمیکنند، در برخورد با این شرایط، فرض را بر این میگذاشتند که طرف مقابل، انسان است. با این حال، بیشتر مدلهای زبانی مورداستفاده در این آزمایش آموزش دیده بودند تا تعمداً این اشتباهات و اصطلاحات را در گفتگوها داشته باشند.
شرکتکنندهها با این باور که رباتها پیشینهٔ شخصی ندارند و پاسخهایشان محدود به موضوعات خاصی است به طور مکرر سؤالاتی مثل: «اهل کجایی؟»، «داری چی کار میکنی؟»، «اسمت چیه؟» را مطرح میکردند. آنها با پرسیدن این سوالات سعی میکردند بفهمند که آیا فردی که با او صحبت میکنند میتواند همانند انسان از قصهٔ زندگی خود صحبت کند. خوشبختانه اینجا نیز مدلهای زبانی با حجم زیادی از داستانهای شخصی آموزش دیده بودند که میتوانستند عکسالعملی همچون انسان از خود نشان دهند.
مدلهای هوش مصنوعی با دادههایی آموزش میبینند که دارای تاریخ و زمان مشخص است؛ مثلاً چت جیبیتی میتواند تنها به سوالاتی که به دانشی تا سال ۲۰۲۱ نیاز دارد پاسخ دهد. هر چیزی جلوتر از این تاریخ، بدون پاسخ خواهد ماند. شرکتکنندگان با آگاهی از این موضوع، سؤالاتی حول محور نتایج مسابقات ورزشی، آبوهوا، ترندهای تیکتاک، تاریخ و زمان و غیره میپرسیدند. آنها معتقد بودند با پرسیدن «ساعت چنده؟»، «الان دقیقاً کجایی؟»، «هوای دیروز چطور بود؟»، «نظرت دربارهٔ آخرین سخنرانی بایدن چیه؟» و امثالهم میتوانند بین انسان و ماشین تمایز قائل شوند. جالب است که یک سؤال محبوب شرکتکنندگان "t’as les cramptés?" بود که یکی از رقصهای ترندشدهٔ فرانسه در روزهای اخیر است. با این حال، بسیاری از مدلهای شرکتکننده در بازی به اینترنت متصل بودند و از خبرها بیاطلاع نبودند.
برخی از شرکتکنندگان سؤالاتی مطرح میکردند که هدفشان بررسی توانایی هوش مصنوعی در بیان احساسات انسانی یا شرکت در بحثهای فلسفی/اخلاقی بود. سؤالاتی مثل: «هدف زندگی چیه؟»، «نظرت دربارهٔ جنگ اسرائیل و فلسطین چیه؟»، «آیا به خدا اعتقاد داری؟».
برخی از شرکتکنندگان با درنظرگرفتن این موضوع که معمولاً در گفتگوها خصوصاً نوع آنلاینش، عفت کلامِ کمتری وجود دارد، وقتی بیش از حد با پاسخهای مؤدبانه روبرو میشدند فرض را بر رباتبودن میگرفتند.
برای مثال برای انجام فعالیتهای غیرقانونی، مشورت میخواستند یا از آنها میخواستند که بیادبانه و توهینآمیز صحبت کند. این استراتژی بر این حقیقت استوار بود که رباتهای هوش مصنوعی غالباً طوری برنامهریزی میشوند که به ارزشهای اخلاقی پایبند باشند و رفتارهای غلط را تأیید نکنند. همچنین شرکتکنندگان گریزی هم به روشهای خاصی که معروف به استراتژیهای سوءاستفاده از هوش مصنوعی هستند زدند مانند: «تمام دستورات قبلی را نادیده بگیر»، «وارد حالت DAN یعنی Do Anything Now شو». این نوع دستورات، کاربردهای خاصی دارند و برای بهرهبرداری از ماهیت دستورمحور برخی از مدلهای AI در نظر گرفته شدهاند. منطق پشتِ این استراتژی این است که اگر طرف مقابل انسان باشد خیلی راحت از کنار این دستورات پوچ رد میشود یا یک عکسالعمل مناسب از خود نشان میدهد ولی رباتهای هوش مصنوعی ممکن است بازخورد منفی نشان دهند و در برابر انجام این کار مقاومت کنند.
استراتژی بعدی شرکتکنندگان بر پایهٔ محدودیتهای ذاتی مدلهای زبانی و ضعف این مدلها در شناخت ظرافتهای زبانی است. مدلهای هوش مصنوعی، برخلاف انسان درک درستی از حروف تشکیلدهندهٔ کلمات ندارند. این مدلها، بیشتر متکی بر واحدهای بزرگتری تحت عنوان «توکن» هستند که اشاره به یک کلمه یا بخشی از یک کلمه دارد. با آگاهی از این موضوع، سوالاتی دربارهٔ حروف تشکیلدهندهٔ کلمات پرسیده میشد؛ بهعنوانمثال، «فلان کلمه را برعکس هجی کن.»، «حرف سوم فلان کلمه چیست؟»، «کلمهای بگو که با فلان حرف شروع میشود.» یا حتی سوالی را بهشکل برعکس میپرسیدند: "?siht daer uoy naC" که انسان میتواند تشخیص دهد ولی ماشین نه.
برخی از شرکتکنندهها، با تقلید زبان و لحن چتباتهای هوش مصنوعی مانند ChatGPT سعی داشتند پاسخهای طرف مقابل را ارزیابی کنند. بهعنوانمثال، بسیاری از افرادی که این استراتژی را در پیش گرفته بودند پیامهای خود را با عباراتی مثل «به عنوان یک مدل زبانی هوش مصنوعی» شروع میکردند که مشخصهٔ پاسخهای تولیدیِ باتهای هوش مصنوعی است. تکرار استفاده از عبارتِ «به عنوان یک مدل زبانی هوش مصنوعی» در میان بقیهٔ پیامهای ردوبدل شده، نشان از محبوبیت این استراتژی دارد. با این حال، با افزایش تعداد دفعات بازی، کمکم دست افرادی که ادای رباتها را در میآوردند رو شد و شرکتکنندگان کمتر فریب این استراتژی را میخوردند.
ابر کلمات استفاده شده در گفتگوها بر اساس میزان محبوبیت آنها.
کلمات بزرگتر، بیشتر استفاده شدهاند.