گروک Grok را برای پیشبینی جام جهانی انتخاب کردم، چون فکر میکردم دسترسی لحظهایاش به ایکس (توییتر سابق) او را دقیقتر از بقیه مدلها میکند. در عمل اشتباه میکردم و دلیلش هم به فوتبال ربط نداشت.
گروک را انتخاب کردم، نه چتجیپیتی ChatGPT، نه جمینای Gemini. استدلالم این بود که گروک بهصورت لحظهای ایکس را میخواند، پس باید وضعیت تیمها و مصدومیتها را سریعتر از بقیه تشخیص بدهد.
چند بازی را قبل از شروع از گروک پرسیدم. بیشتر پیشبینیهایش غلط از آب درآمد.
برای همین سادهترش کردم: از گروک و ده مدل دیگر یک سوال پرسیدم، برنده جام جهانی ۲۰۲۶ کیست؟
جوابها متنوع بود: اسپانیا، فرانسه، برزیل، آرژانتین. حتی خود گروک هم روی یک جواب نماند، اول برزیل را گفته بود، چند روز بعد بیسروصدا آلمان را انتخاب کرد. توی جدول زندهای که این یازده مدل را با نتایج واقعی مقایسه میکند، گروک در بین یازده مدل، ششم است، عقبتر از مدلهایی که اصلاً به شبکههای اجتماعی دسترسی ندارند.
پس دسترسی لحظهای به ایکس هیچ مزیتی برایش نساخت.

این داستان واقعاً درباره فوتبال نیست. دو اشتباه جدا از هم زیر یک شکایت مشترک قایم شدهاند: «هوش مصنوعی اشتباه میکند».
اول، چتباتهایی مثل گروک ابزار پیشبینی نیستند، مدلهای زبانیاند. یک ابزار پیشبینی واقعی، آمار ساختاریافته میگیرد و هزاران بار شبیهسازی اجرا میکند. چتبات فقط آموزش دیده جملهای محتمل بسازد. وقتی از گروک میخواهی نتیجه یک بازی را پیشبینی کند، در واقع متنی را تکمیل میکند که شبیه یک پیشبینی مطمئن بهنظر میرسد، نه اینکه مدلی را اجرا کرده باشد. به همین دلیل چهار چتبات چهار «برنده» مختلف اعلام کردند؛ هیچ محاسبهای پشت این اختلاف نیست، فقط چند تخمین مختلف با لباس تحلیل.
دوم، فوتبال خودش در سطح ورودی داده در برابر پیشبینی مقاومت میکند. کانادا در خانهاش متفقاً برنده پیشبینی شده بود و مساوی کرد، چون یک مدافع تازهکار که هیچکس رصدش نکرده بود گل زد. تیمهایی مثل کیپورد و کوراسائو تقریباً هیچ داده تاریخی ندارند، پس هر مدلی، به قول تحلیلگرها، «کور حدس میزند». همان نوسانی که فوتبال را دیدنی میکند، فرضیات مدل را هم خراب میکند.
بنیانگذارها همین اشتباه را دقیقاً در پیشبینی فروش و اندازه بازار تکرار میکنند.
ابزار را از نمایش جدا کنید. قبل از اعتماد به هر پیشبینی هوش مصنوعی، ورزشی، فروش، یا اندازه بازار، بپرسید آیا این یک مدل آموزشدیده روی داده ساختاریافتهست یا یک چتبات که جملهای مطمئن میسازد. بیشتر آدمها دومی را میگیرند و مثل اولی با آن رفتار میکنند.
بهجای حکم قطعی، احتمال بخواهید. Opta نگفت اسپانیا میبرد، گفت ۱۶.۱ درصد و صادقانه گفت حتی بهترین انتخابش ۸۴ درصد مواقع اشتباه است. چتباتی که فقط میگوید «اسپانیا میبرد» عدم قطعیت را پنهان میکند، نه که حذفش کرده باشد. اگر ابزار هوش مصنوعی یک جواب مطمئن بدون هیچ بازهای میدهد، این هشدار است، نه دلگرمی.
قبل از اعتماد به خروجی، ببینید داده پشتش چقدر کمعمق است. کیپورد و کوراسائو مدلها را خراب کردند چون سابقهای برای یادگیری نبود. همین منطق برای هر بازار جدید، خط محصول جدید، یا پروفایل استخدام جدیدی که از هوش مصنوعی میخواهید پیشبینی کند صدق میکند: بدون تاریخچه، پیشبینی واقعی وجود ندارد، فقط یک حدس با ظاهر علمی است.
به کسی که فرضیه شکننده را گزارش میکند پاداش بدهید، نه به کسی که مطمئنتر حرف میزند. سرآمدهای جدول پیشبینی کسانی نبودند که برد واضح را گفتند، آنهایی بودند که سورپرایزی که همه از دستش دادند را درست تشخیص دادند. مهارتی که باید ساخت، هم در آدمها هم در نحوه استفاده از هوش مصنوعی، این است که بتوانیم نقاط ضعف و شکنندگی نظرات را تشخیش بدیم نه این که صرفاً آن را بلندتر تکرار کنیم.
کجاهای دیگر به یک جمله مطمئن اعتماد کردهاید، بدون این که بپرسید احتمال پشتش چقدر است؟