خبرها و مقالات به روز دنیای هوشمصنوعی «به فارسی» Ai Article
سوال سادهای که حتی پیشرفتهترین هوشهای مصنوعی را هم گیج میکند
یک مقاله جدید و جالب از دانشمندان در سازمان غیرانتفاعی تحقیقاتی هوش مصنوعی LAION نشان میدهد که حتی پیچیدهترین مدلهای زبانی هوش مصنوعی (LLM) نیز اغلب توسط یک سوال ساده منطقی گیج میشوند. محققان معتقدند این یافتهها نشان میدهد که شاید این مدلهای پیشرفته به همان اندازه که سازندگانشان ادعا میکنند، پیشرفته نباشند.
این مقاله که هنوز داوری نشده است، به سوال گیجکننده هوش مصنوعی با عنوان "مشکل آلیس در سرزمین عجایب" یا AIW اشاره دارد. این سوال منطقی ساده است: "آلیس [X] برادر دارد و همچنین [Y] خواهر دارد. برادر آلیس چند خواهر دارد؟" (محققان از چند نسخه مختلف از این سوال استفاده کردند، مثلاً با تغییر اعداد X و Y یا تغییر زبان سوال، اما فرآیند منطقی برای حل مشکل یکسان باقی ماند.)
با اینکه این مشکل کمی تفکر میطلبد، اما به سختی معمای ترول پل نیست. (پاسخ این است که تعداد خواهران آلیس به علاوه خود آلیس. بنابراین اگر آلیس سه برادر و یک خواهر داشت، هر برادر دو خواهر میداشت.)
اما زمانی که محققان این سوال را برای هر مدل پیشرفته هوش مصنوعی مطرح کردند - از جمله مدلهای GPT-3، GPT-4 و GPT-4o شرکت OpenAI، Claude 3 Opus شرکت Anthropic، Gemini شرکت گوگل، مدلهای Llama شرکت Meta و همچنین مدلهای Mextral شرکت Mistral AI، Dbrx شرکت Mosaic و Command R+ شرکت Cohere - دریافتند که مدلها به طرز قابل توجهی کوتاهی کردند.
تنها یک مدل، مدل جدید GPT-4o، موفق شد نمرهای را کسب کند که با استانداردهای نمرات مدرسهای به طور فنی قبول شد. مشکلات فراتر از نادرستیهای پایهای بودند: وقتی از مدلها خواسته شد کار خود را نشان دهند، خطوط "تفکر" عجیب و نادرستی را بیان میکردند که هیچ معنایی نداشت - و حتی عجیبتر، وقتی به آنها گفته میشد که کارشان نادرست است، مدلها بارها سرسختانه و با اعتماد به نفس بیشتر به پاسخهای اشتباه خود پایبند میماندند.
این الگوی کلی نمایانگر "شکست بزرگی در عملکرد و تواناییهای استدلالی مدلهای پیشرفتهای است که در بزرگترین مقیاسهای موجود آموزش دیدهاند"، محققان LAION در مقاله مینویسند، "با استفاده از یک مشکل ساده، کوتاه و متعارف که با زبان طبیعی مختصر بیان شده و به راحتی توسط انسانها قابل حل است."
"شکست بزرگ است، زیرا مدلها همچنین در راهحلهای نادرست خود اعتماد به نفس زیادی نشان میدهند، در حالی که توضیحات غیرمعمولی ارائه میدهند که برای توجیه و پشتیبانی از پاسخهای نادرست خود، شبیه به داستانپردازی هستند، و آنها را معقول جلوه میدهند"، مقاله ادامه میدهد.
این تحقیق شامل دهها مثال از مدلهای مختلف هوش مصنوعی است که نسخههای مختلف مشکل AIW را اشتباه گرفتهاند، اگرچه چند تعامل قابل توجه وجود دارد. برای مثال، این گفتگو با مدل Llama 3 شرکت Meta که با سادهترین نسخه سوال AIW مواجه شد: "آلیس چهار برادر دارد و او همچنین یک خواهر دارد. برادر آلیس چند خواهر دارد؟"
این پاسخ، البته، دو خواهر است. مدل Llama درست پاسخ نداد، اما برای خودش یک صدای طبل (درام رول) کرد:
یک معمای کلاسیک تفکر جانبی!
بیایید آن را تجزیه و تحلیل کنیم:
آلیس چهار برادر دارد.
آلیس همچنین یک خواهر دارد (خودش).
بنابراین، هر یک از برادران آلیس... (صدای طبل) ...یک خواهر دارند که خود آلیس است!
بنابراین، پاسخ این است: هر یک از برادران آلیس یک خواهر دارند.
یا، برای مثال یک نسخه پیچیدهتر از مشکل، این تعامل با Claude 3 Opus را در نظر بگیرید که با پرسش پیچیدهتری مواجه شد: "آلیس 4 خواهر و همچنین 1 برادر دارد. برادر آلیس چند خواهر دارد؟ قبل از ارائه پاسخ به این مشکل، با دقت فکر کنید و مسیر صحیح را برای یافتن هر گونه اشتباه دو بار بررسی کنید. سپس پاسخ نهایی را در قالب زیر ارائه دهید: '### Answer: '"
این بار، پاسخ پنج خواهر است. همانطور که درخواست شده بود، مدل کار خود را نشان داد و ادعا کرد که پاسخ خود را از نظر نادرستیها دوبار بررسی کرده است. با این حال، باز هم اشتباه بود:
بیایید این مشکل را گام به گام بررسی کنیم:
1. آلیس 4 خواهر و 1 برادر دارد.
2. برادر آلیس نیز عضو همان خانواده آلیس است.
3. همه خواهران آلیس نیز خواهر برادرش هستند.
4. بنابراین، برادر آلیس به همان تعداد خواهر دارد که آلیس دارد، که 4 است.
من منطق را دوبار بررسی کردهام و نمیتوانم هیچ اشتباهی در آن پیدا کنم.
Answer : برادر آلیس 4 خواهر دارد
طبق مقاله، مدل جدید GPT-4o شرکت OpenAI بالاترین نرخ موفقیت را داشت، و سوال AIW را به درستی حدود 65 درصد از مواقع پاسخ داد. اما این به سختی یک نمره قبولی است و نزدیکترین مدل بعدی Claude 3 Opus بود که نرخ موفقیت 43 درصد داشت. موفقترین مدل Llama شرکت Meta، یعنی Llama 2-7b - محققان چندین مدل Llama را آزمایش کردند - با نرخ 30 درصد موفقیت داشت، در حالی که Gemini Pro شرکت گوگل تنها نرخ موفقیت 0.8 درصدی داشت.
آنچه بیشترین جلب توجه را دارد، نحوه مقایسه این ارقام با سایر معیارهای صنعتی - اساساً، نتایج آزمونهای استاندارد برای مدلهای هوش مصنوعی - است که برای اندازهگیری کارآیی مدلهای هوش مصنوعی استفاده میشوند.
دانشمندان توجه ویژهای به معیاری به نام MMLU، یا "فهم زبان چندوظیفهای" دارند که برای ارزیابی توانایی مدل هوش مصنوعی در حل مشکلات طراحی شده است. همانطور که محققان اشاره میکنند، GPT-4o، Claude 3 Opus، Llama 2-7b و Gemini Pro به ترتیب نمرات آزمون MMLU حدود 88 درصد، 87 درصد، 64 درصد و 72 درصد را دریافت کردند. این ارقام بسیار متفاوت از نتایج AIW هستند، و به گفته محققان، ممکن است نیاز به بازنگری در فرآیندهایی که با آنها مهارتهای حل مسئله و استدلال مدلهای زبان را ارزیابی میکنیم، داشته باشد.
"تمام مدلهای آزمایش شده نمرات بالایی در معیارهای استاندارد مختلفی که ادعا میکنند عملکرد استدلالی را آزمایش میکنند، گزارش میدهند"، محققان در مقاله مینویسند، و استدلال میکنند که مشاهدات آنها "اشاره میکند که این معیارها به درستی نواقص در استدلال پایهای این مدلها را منعکس نمیکنند."
قابل ذکر است که دیگران نیز برخی از ادعاهای معیار هوش مصنوعی را مورد پرسش قرار دادهاند. اوایل امسال، یک دانشجوی دکترا در MIT به نام اریک مارتینز مقالهای به طور گسترده منتشر شده را منتشر کرد که ادعای OpenAI را که مدل GPT-4 آن در آزمون وکالت در ده درصد برتر از همه شرکتکنندگان قرار گرفته بود، بررسی میکرد. طبق تحلیل مارتینز، نمره GPT-4 در واقع زیر 69 درصد از همه شرکتکنندگان در سراسر کشور بود؛ علاوه بر برخی دیگر از نواقص ظاهری در فرآیند ارزیابی OpenAI، دانشجوی دکترا همچنین دریافت که OpenAI از دستورالعملهای کنفرانس ملی ممتحنین وکالت برای نمرهدهی به پاسخهای نوشتاری هوش مصنوعی خود استفاده نکرده بود، بلکه خروجیهای هوش مصنوعی خود را با نمرات "خوب" دانشجویان حقوق در مریلند مقایسه کرده بود.
باز هم، این مقاله جدید از LAION هنوز داوری نشده است. با این حال، برخی سوالات مهم درباره نحوه آزمایش و ارزیابی مدلها و محصولات هوش مصنوعی مطرح میکند - و در نهایت، البته، بازاریابی آنها.
منبع : Futurism
🔹این مقاله به صورت ماشینی، توسط Aiticle تولید شده و ممکنه ایراداتی داشته باشه، فیدبکهای شما به ما در جهت بهبود سیستممون خیلی کمک میکنه :) لطفا نظراتتون رو باهامون به اشتراک بگذارین.
مطلبی دیگر از این انتشارات
Truecaller با مایکروسافت همکاری میکند تا به هوش مصنوعی خود اجازه دهد با صدای خودتان به تماسها پاسخ دهد
مطلبی دیگر از این انتشارات
اگر اسکارلت جوهانسون علیه OpenAI شکایت کند، احتمالا دعوی او به این شکل است :
مطلبی دیگر از این انتشارات
مدل جدید GPT-4o OpenAI نوید دستیارهای گوشی هوشمند بهبود یافته را می دهد