سوال ساده‌ای که حتی پیشرفته‌ترین هوش‌های مصنوعی را هم گیج می‌کند

یک مقاله جدید و جالب از دانشمندان در سازمان غیرانتفاعی تحقیقاتی هوش مصنوعی LAION نشان می‌دهد که حتی پیچیده‌ترین مدل‌های زبانی هوش مصنوعی (LLM) نیز اغلب توسط یک سوال ساده منطقی گیج می‌شوند. محققان معتقدند این یافته‌ها نشان می‌دهد که شاید این مدل‌های پیشرفته به همان اندازه که سازندگانشان ادعا می‌کنند، پیشرفته نباشند.

این مقاله که هنوز داوری نشده است، به سوال گیج‌کننده هوش مصنوعی با عنوان "مشکل آلیس در سرزمین عجایب" یا AIW اشاره دارد. این سوال منطقی ساده است: "آلیس [X] برادر دارد و همچنین [Y] خواهر دارد. برادر آلیس چند خواهر دارد؟" (محققان از چند نسخه مختلف از این سوال استفاده کردند، مثلاً با تغییر اعداد X و Y یا تغییر زبان سوال، اما فرآیند منطقی برای حل مشکل یکسان باقی ماند.)

با اینکه این مشکل کمی تفکر می‌طلبد، اما به سختی معمای ترول پل نیست. (پاسخ این است که تعداد خواهران آلیس به علاوه خود آلیس. بنابراین اگر آلیس سه برادر و یک خواهر داشت، هر برادر دو خواهر می‌داشت.)

اما زمانی که محققان این سوال را برای هر مدل پیشرفته هوش مصنوعی مطرح کردند - از جمله مدل‌های GPT-3، GPT-4 و GPT-4o شرکت OpenAI، Claude 3 Opus شرکت Anthropic، Gemini شرکت گوگل، مدل‌های Llama شرکت Meta و همچنین مدل‌های Mextral شرکت Mistral AI، Dbrx شرکت Mosaic و Command R+ شرکت Cohere - دریافتند که مدل‌ها به طرز قابل توجهی کوتاهی کردند.

تنها یک مدل، مدل جدید GPT-4o، موفق شد نمره‌ای را کسب کند که با استانداردهای نمرات مدرسه‌ای به طور فنی قبول شد. مشکلات فراتر از نادرستی‌های پایه‌ای بودند: وقتی از مدل‌ها خواسته شد کار خود را نشان دهند، خطوط "تفکر" عجیب و نادرستی را بیان می‌کردند که هیچ معنایی نداشت - و حتی عجیب‌تر، وقتی به آن‌ها گفته می‌شد که کارشان نادرست است، مدل‌ها بارها سرسختانه و با اعتماد به نفس بیشتر به پاسخ‌های اشتباه خود پایبند می‌ماندند.

این الگوی کلی نمایانگر "شکست بزرگی در عملکرد و توانایی‌های استدلالی مدل‌های پیشرفته‌ای است که در بزرگترین مقیاس‌های موجود آموزش دیده‌اند"، محققان LAION در مقاله می‌نویسند، "با استفاده از یک مشکل ساده، کوتاه و متعارف که با زبان طبیعی مختصر بیان شده و به راحتی توسط انسان‌ها قابل حل است."

"شکست بزرگ است، زیرا مدل‌ها همچنین در راه‌حل‌های نادرست خود اعتماد به نفس زیادی نشان می‌دهند، در حالی که توضیحات غیرمعمولی ارائه می‌دهند که برای توجیه و پشتیبانی از پاسخ‌های نادرست خود، شبیه به داستان‌پردازی هستند، و آن‌ها را معقول جلوه می‌دهند"، مقاله ادامه می‌دهد.

این تحقیق شامل ده‌ها مثال از مدل‌های مختلف هوش مصنوعی است که نسخه‌های مختلف مشکل AIW را اشتباه گرفته‌اند، اگرچه چند تعامل قابل توجه وجود دارد. برای مثال، این گفتگو با مدل Llama 3 شرکت Meta که با ساده‌ترین نسخه سوال AIW مواجه شد: "آلیس چهار برادر دارد و او همچنین یک خواهر دارد. برادر آلیس چند خواهر دارد؟"

این پاسخ، البته، دو خواهر است. مدل Llama درست پاسخ نداد، اما برای خودش یک صدای طبل (درام رول) کرد:

یک معمای کلاسیک تفکر جانبی!

بیایید آن را تجزیه و تحلیل کنیم:

آلیس چهار برادر دارد.

آلیس همچنین یک خواهر دارد (خودش).

بنابراین، هر یک از برادران آلیس... (صدای طبل) ...یک خواهر دارند که خود آلیس است!

بنابراین، پاسخ این است: هر یک از برادران آلیس یک خواهر دارند.


یا، برای مثال یک نسخه پیچیده‌تر از مشکل، این تعامل با Claude 3 Opus را در نظر بگیرید که با پرسش پیچیده‌تری مواجه شد: "آلیس 4 خواهر و همچنین 1 برادر دارد. برادر آلیس چند خواهر دارد؟ قبل از ارائه پاسخ به این مشکل، با دقت فکر کنید و مسیر صحیح را برای یافتن هر گونه اشتباه دو بار بررسی کنید. سپس پاسخ نهایی را در قالب زیر ارائه دهید: '### Answer: '"


این بار، پاسخ پنج خواهر است. همان‌طور که درخواست شده بود، مدل کار خود را نشان داد و ادعا کرد که پاسخ خود را از نظر نادرستی‌ها دوبار بررسی کرده است. با این حال، باز هم اشتباه بود:


بیایید این مشکل را گام به گام بررسی کنیم:

1. آلیس 4 خواهر و 1 برادر دارد.

2. برادر آلیس نیز عضو همان خانواده آلیس است.

3. همه خواهران آلیس نیز خواهر برادرش هستند.

4. بنابراین، برادر آلیس به همان تعداد خواهر دارد که آلیس دارد، که 4 است.

من منطق را دوبار بررسی کرده‌ام و نمی‌توانم هیچ اشتباهی در آن پیدا کنم.


Answer : برادر آلیس 4 خواهر دارد

طبق مقاله، مدل جدید GPT-4o شرکت OpenAI بالاترین نرخ موفقیت را داشت، و سوال AIW را به درستی حدود 65 درصد از مواقع پاسخ داد. اما این به سختی یک نمره قبولی است و نزدیک‌ترین مدل بعدی Claude 3 Opus بود که نرخ موفقیت 43 درصد داشت. موفق‌ترین مدل Llama شرکت Meta، یعنی Llama 2-7b - محققان چندین مدل Llama را آزمایش کردند - با نرخ 30 درصد موفقیت داشت، در حالی که Gemini Pro شرکت گوگل تنها نرخ موفقیت 0.8 درصدی داشت.

آنچه بیشترین جلب توجه را دارد، نحوه مقایسه این ارقام با سایر معیارهای صنعتی - اساساً، نتایج آزمون‌های استاندارد برای مدل‌های هوش مصنوعی - است که برای اندازه‌گیری کارآیی مدل‌های هوش مصنوعی استفاده می‌شوند.

دانشمندان توجه ویژه‌ای به معیاری به نام MMLU، یا "فهم زبان چندوظیفه‌ای" دارند که برای ارزیابی توانایی مدل هوش مصنوعی در حل مشکلات طراحی شده است. همان‌طور که محققان اشاره می‌کنند، GPT-4o، Claude 3 Opus، Llama 2-7b و Gemini Pro به ترتیب نمرات آزمون MMLU حدود 88 درصد، 87 درصد، 64 درصد و 72 درصد را دریافت کردند. این ارقام بسیار متفاوت از نتایج AIW هستند، و به گفته محققان، ممکن است نیاز به بازنگری در فرآیندهایی که با آن‌ها مهارت‌های حل مسئله و استدلال مدل‌های زبان را ارزیابی می‌کنیم، داشته باشد.

"تمام مدل‌های آزمایش شده نمرات بالایی در معیارهای استاندارد مختلفی که ادعا می‌کنند عملکرد استدلالی را آزمایش می‌کنند، گزارش می‌دهند"، محققان در مقاله می‌نویسند، و استدلال می‌کنند که مشاهدات آن‌ها "اشاره می‌کند که این معیارها به درستی نواقص در استدلال پایه‌ای این مدل‌ها را منعکس نمی‌کنند."

قابل ذکر است که دیگران نیز برخی از ادعاهای معیار هوش مصنوعی را مورد پرسش قرار داده‌اند. اوایل امسال، یک دانشجوی دکترا در MIT به نام اریک مارتینز مقاله‌ای به طور گسترده منتشر شده را منتشر کرد که ادعای OpenAI را که مدل GPT-4 آن در آزمون وکالت در ده درصد برتر از همه شرکت‌کنندگان قرار گرفته بود، بررسی می‌کرد. طبق تحلیل مارتینز، نمره GPT-4 در واقع زیر 69 درصد از همه شرکت‌کنندگان در سراسر کشور بود؛ علاوه بر برخی دیگر از نواقص ظاهری در فرآیند ارزیابی OpenAI، دانشجوی دکترا همچنین دریافت که OpenAI از دستورالعمل‌های کنفرانس ملی ممتحنین وکالت برای نمره‌دهی به پاسخ‌های نوشتاری هوش مصنوعی خود استفاده نکرده بود، بلکه خروجی‌های هوش مصنوعی خود را با نمرات "خوب" دانشجویان حقوق در مریلند مقایسه کرده بود.

باز هم، این مقاله جدید از LAION هنوز داوری نشده است. با این حال، برخی سوالات مهم درباره نحوه آزمایش و ارزیابی مدل‌ها و محصولات هوش مصنوعی مطرح می‌کند - و در نهایت، البته، بازاریابی آن‌ها.



منبع : Futurism

🔹این مقاله به صورت ماشینی، توسط Aiticle تولید شده و ممکنه ایراداتی داشته باشه، فیدبک‌های شما به ما در جهت بهبود سیستممون خیلی کمک میکنه :) لطفا نظراتتون رو باهامون به اشتراک بگذارین.