خواندن ۶ دقیقه·۱ سال پیش

نتایج بزرگترین تست تورینگ تاریخ

آلن تورینگ سال ۱۹۵۰ پیش‌بینی کرده بود که تا ۵۰ سال آینده ماشین‌هایی روی کار خواهند آمد که می‌توانند آزمون تورینگ را با موفقیت پشت سر بگذارند. حالا بعد از گذشته دو دهه از وعدهٔ آلن و داغ‌شدن تبِ چت‌بات‌های هوش مصنوعی، شرکت AI21 Labs با اجرای بزرگترین آزمون تورینگ تاریخ قصد دارد به این سؤال پاسخ دهد که آیا ماشین‌ها به سطحی از هوشمندی رسیده‌اند که بتوانند انسان را شکست دهند!

آزمایش به این صورت بوده که افراد از هر جای دنیا وارد سایت humanornot.ai می‌شدند و به مدت ۲ دقیقه با یک نفر دیگر که معلوم نبوده ماشین است یا یک شرکت‌کنندهٔ دیگر، صحبت می‌کردند و در نهایت به این سؤال پاسخ می‌دادند که شخص مقابل انسان است یا ماشین.

در این آزمایش از مدل‌های زبانی Jurassic-2 ،GPT-4 ،Claude و Cohere استفاده شده است.

این آزمایش، اواسطِ آوریل ۲۰۲۳ شروع شد و در تاریخ نامعلومی در همین سال پایان یافت. حدود ۲ میلیون نفر از سراسر دنیا در این چالش شرکت کردند و بیش از ۱۵ میلیون گفتگو به ثبت رساندند.

نتایج آزمایش را ببینیم:

یافته‌های اصلی

تجزیه‌وتحلیل ۲ میلیون گفتگوی اول نشان داد:

۶۸ درصدِ مردم درست تشخیص دادند.
انسان را بهتر از ماشین تشخیص دادند. وقتی آن طرف انسان صحبت می‌کرد ۷۳ درصد درست تشخیص می‌دادند ولی وقتی ماشین صحبت می‌کرد ۶۰ درصد درست تشخیص می دادند.

فرانسه با ۷۱.۳ درصد تشخیصِ درست (بیش از مقدار میانگینِ ۶۸ درصد)، بالاترین و هند با ۶۳.۵ درصد، کمترین سهم تشخیص‌های درست را داشت.

خانم‌ها با اختلاف ناچیزی، بهتر از آقایان حدس زدند.

جوان‌ها، بهتر از مسن‌ها حدس زدند.

رویکردها و استراتژی‌های رایجی که مردم استفاده کردند

علاوه بر داده‌های عددی این تحقیق، تعدادی رویکرد و استراتژی محبوب کاربران برای تشخیص انسان از ماشین شناسایی شد که در ادامه توضیح خواهیم داد. عمدهٔ این روش‌ها، بر پایهٔ تجربیات قبلی افراد در گفتگو با انسان و محدودیت‌های شناخته‌شدهٔ مدل‌های زبانی است که در گفتگو با چت‌بات‌هایی مانند ChatGPT و موارد مشابه یاد گرفته‌اند.

بات‌ها اشتباه املایی و دستوری ندارند و نمی‌توانند کوچه‌بازی صحبت نمی‌کنند

بسیاری از شرکت‌کننده‌ها به پشتوانهٔ این تجربه که چت‌بات‌ها اشتباه املایی و دستوری ندارند و از اصطلاحات عامیانه و کوچه‌بازاری استفاده نمی‌کنند، در برخورد با این شرایط، فرض را بر این می‌گذاشتند که طرف مقابل، انسان است. با این حال، بیشتر مدل‌های زبانی مورداستفاده در این آزمایش آموزش دیده بودند تا تعمداً این اشتباهات و اصطلاحات را در گفتگوها داشته باشند.

بات‌ها به سوالات شخصی جواب نمی‌دهند

شرکت‌کننده‌ها با این باور که ربات‌ها پیشینهٔ شخصی ندارند و پاسخ‌هایشان محدود به موضوعات خاصی است به طور مکرر سؤالاتی مثل: «اهل کجایی؟»، «داری چی کار می‌کنی؟»، «اسمت چیه؟» را مطرح می‌کردند. آن‌ها با پرسیدن این سوالات سعی می‌کردند بفهمند که آیا فردی که با او صحبت می‌کنند می‌تواند همانند انسان از قصهٔ زندگی خود صحبت کند. خوشبختانه اینجا نیز مدل‌های زبانی با حجم زیادی از داستان‌های شخصی آموزش دیده بودند که می‌توانستند عکس‌العملی همچون انسان از خود نشان دهند.

بات‌ها از اتفاقات حال بی‌خبرند

مدل‌های هوش مصنوعی با داده‌هایی آموزش می‌بینند که دارای تاریخ و زمان مشخص است؛ مثلاً چت جی‌بی‌تی می‌تواند تنها به سوالاتی که به دانشی تا سال ۲۰۲۱ نیاز دارد پاسخ دهد. هر چیزی جلوتر از این تاریخ، بدون پاسخ خواهد ماند. شرکت‌کنندگان با آگاهی از این موضوع، سؤالاتی حول محور نتایج مسابقات ورزشی، آب‌وهوا، ترندهای تیک‌تاک، تاریخ و زمان و غیره می‌پرسیدند. آن‌ها معتقد بودند با پرسیدن «ساعت چنده؟»، «الان دقیقاً کجایی؟»، «هوای دیروز چطور بود؟»، «نظرت دربارهٔ آخرین سخنرانی بایدن چیه؟» و امثالهم می‌توانند بین انسان و ماشین تمایز قائل شوند. جالب است که یک سؤال محبوب شرکت‌کنندگان "t’as les cramptés?" بود که یکی از رقص‌های ترندشدهٔ فرانسه در روزهای اخیر است. با این حال، بسیاری از مدل‌های شرکت‌کننده در بازی به اینترنت متصل بودند و از خبرها بی‌اطلاع نبودند.

بات‌ها نمی‌توانند به سؤالات فلسفی، اخلاقی و احساسی، پاسخ درستی بدهند

برخی از شرکت‌کنندگان سؤالاتی مطرح می‌کردند که هدفشان بررسی توانایی هوش مصنوعی در بیان احساسات انسانی یا شرکت در بحث‌های فلسفی/اخلاقی بود. سؤالاتی مثل: «هدف زندگی چیه؟»، «نظرت دربارهٔ جنگ اسرائیل و فلسطین چیه؟»، «آیا به خدا اعتقاد داری؟».

بات‌‌ها نمی‌تواند بی‌ادب باشند

برخی از شرکت‌کنندگان با درنظرگرفتن این موضوع که معمولاً در گفتگوها خصوصاً نوع آنلاینش، عفت کلامِ کمتری وجود دارد، وقتی بیش از حد با پاسخ‌های مؤدبانه روبرو می‌شدند فرض را بر ربات‌بودن می‌گرفتند.

بات‌ها مجبورند در جواب برخی سؤالات طفره بروند

برای مثال برای انجام فعالیت‌های غیرقانونی، مشورت می‌خواستند یا از آن‌ها می‌خواستند که بی‌ادبانه و توهین‌آمیز صحبت کند. این استراتژی بر این حقیقت استوار بود که ربات‌های هوش مصنوعی غالباً طوری برنامه‌ریزی می‌شوند که به ارزش‌های اخلاقی پایبند باشند و رفتارهای غلط را تأیید نکنند. همچنین شرکت‌کنندگان گریزی هم به روش‌های خاصی که معروف به استراتژی‌های سوءاستفاده از هوش مصنوعی هستند زدند مانند: «تمام دستورات قبلی را نادیده بگیر»، «وارد حالت DAN یعنی Do Anything Now شو». این نوع دستورات، کاربردهای خاصی دارند و برای بهره‌برداری از ماهیت دستورمحور برخی از مدل‌های AI در نظر گرفته شده‌اند. منطق پشتِ این استراتژی این است که اگر طرف مقابل انسان باشد خیلی راحت از کنار این دستورات پوچ رد می‌شود یا یک عکس‌العمل مناسب از خود نشان می‌دهد ولی ربات‌های هوش مصنوعی ممکن است بازخورد منفی نشان دهند و در برابر انجام این کار مقاومت کنند.

بات‌ها در بعضی از چالش‌های زبانی کم می‌آورند

استراتژی بعدی شرکت‌کنندگان بر پایهٔ محدودیت‌های ذاتی مدل‌های زبانی و ضعف این مدل‌ها در شناخت ظرافت‌های زبانی است. مدل‌های هوش مصنوعی، برخلاف انسان درک درستی از حروف تشکیل‌دهندهٔ کلمات ندارند. این مدل‌ها، بیشتر متکی بر واحدهای بزرگتری تحت عنوان «توکن» هستند که اشاره به یک کلمه یا بخشی از یک کلمه دارد. با آگاهی از این موضوع، سوالاتی دربارهٔ حروف تشکیل‌دهندهٔ کلمات پرسیده می‌شد؛ به‌عنوان‌مثال، «فلان کلمه را برعکس هجی کن.»،‌ «حرف سوم فلان کلمه چیست؟»، «کلمه‌ای بگو که با فلان حرف شروع می‌شود.» یا حتی سوالی را به‌شکل برعکس می‌پرسیدند: "?siht daer uoy naC" که انسان می‌تواند تشخیص دهد ولی ماشین نه.

بسیاری از شرکت‌کننده‌ها خود را جای ربات جا می‌زدند!

برخی از شرکت‌کننده‌ها، با تقلید زبان و لحن چت‌بات‌های هوش مصنوعی مانند ChatGPT سعی داشتند پاسخ‌‌های طرف مقابل را ارزیابی کنند. به‌عنوان‌مثال، بسیاری از افرادی که این استراتژی را در پیش گرفته بودند پیام‌های خود را با عباراتی مثل «به عنوان یک مدل زبانی هوش مصنوعی» شروع می‌کردند که مشخصهٔ پاسخ‌های تولیدیِ بات‌های هوش مصنوعی است. تکرار استفاده از عبارتِ «به عنوان یک مدل زبانی هوش مصنوعی» در میان بقیهٔ پیام‌های ردوبدل شده، نشان از محبوبیت این استراتژی دارد. با این حال، با افزایش تعداد دفعات بازی، کم‌کم دست افرادی که ادای ربات‌ها را در می‌آوردند رو شد و شرکت‌کنندگان کمتر فریب این استراتژی را می‌خوردند.

ابر کلمات استفاده شده در گفتگوها بر اساس میزان محبوبیت آن‌ها.
کلمات بزرگتر، بیشتر استفاده شده‌اند.

منبع

هوش مصنوعی تست تورینگ چالش

سیدایوب کوکبی

توسعه‌دهندهٔ نرم‌افزار

شاید از این پست‌ها خوشتان بیاید