سینا مرادی
سینا مرادی
خواندن ۷ دقیقه·۲ سال پیش

مدل GPT-4: جدید، مهم و سقراط‌مانند، اما ناامیدکننده...!

پیش نوشت: هر چند بعید است اما اگر در جریان اتفاقات اخیر دنیای هوش مصنوعی (مانند انتشار ChatGPT و حواشی‌های بعد از آن) نیستید، پیشنهاد می‌کنم که خواندن این مطلب را متوقف و این بلاگ را مطالعه کنید.


معرفی

فقط چند ساعت از انتشار GPT-4 می‌گذرد و بحث درمورد این مدل (که خود شرکت OpenAI اون رو "the latest milestone in its effort in scaling up deep learning" یا "آخرین [و به‌روزترین] نقطه‌ی عطف در پیشرفت یادگیری عمیق" خطاب کرده) به شدت بالاست. تصمیم گرفتم که این بلاگ را بنویسم، تا هم به معرفی این مدل بپردازم و هم کمی درمورد اتفاقات حول این موضوع صحبت کنم.

مهم‌ترین ویژگی مدل GPT-4 [که در مدل‌های قبلی به صورت مجتمع وجود نداشت]، امکان دریافت تصویر به عنوان input (ورودی) است. به این معنی که می‌توانید تصویر بدهید و درمورد تصویر چیزی بخواهید!

مثال: می‌توانید بر روی کاغذ تصویری را بکشید و از مدل انتظار داشته باشید که کدهای html و css مربوط به آن را برای‌تان بنویسد و با این روش، به صورت دستی سایت طراحی کنید!
تصویری که خود OpenAI برای بلاگ مربوط به GPT-4 انتخاب کرده.
تصویری که خود OpenAI برای بلاگ مربوط به GPT-4 انتخاب کرده.

* پی‌نوشت اول: GPT-4 یک multimodal model هستش [به این صورت که توانایی‌های متنی‌اش تقریبا همان GPT-3.5 است و توانایی پردازش تصویرش اضافه شده‌ست] و این ادغام، می‌تواند مشکلات جالبی را حل کند! برای مثال اگر یادتان باشد مقاله‌ای اخیرا منتشر شده بود و پژوهشگرانی آمده بودند و آزمون USMLE (آزمون پیش‌نیاز ورود به مرحله‌ی تخصصی پزشکی در آمریکا) را به ChatGPT داده بودند و این مدل، تا حد خوبی توانسته بود به سوالات پاسخ بدهد [و آزمون را پاس کند!]، اما کمتر کسی اشاره می‌کرد که سوالات دارای تصویر در ابتدا از سوالاتی که به مدل داده بودند exclude (حذف) شده بودند [لینک مقاله برای ارجاع] و درصورت وجود اون‌ها، مشخصا درصد پاسخ‌گویی کمتری را شاهد می‌بودیم! اما در GPT-4 دیگر این مشکل وجود ندارد و احتمالا با خیال راحت بتوانیم تمام سوالات متنی و تصویری را بهش بدهیم! (هرچند هنوز وویس قبول نمی‌کند!). یک مورد دیگر هم امکان تولید متن‌های طولانی است و احتمالا بزودی شاهد تولید کتاب‌های بسیاری توسط و یا به کمک GPT-4 باشیم.


تفاوت عملکرد GPT-3.5 و GPT-4

خود شرکت OpenAI، ادعا کرده است که عملکرد GPT-3.5 و GPT-4 را در یک آزمون وکالت سنجیده و هر دو بین قبول‌شوندگان بودند؛ اما GPT-3.5 در بین 10% پایین قبول‌شوندگان و GPT-4 در بین 10% بالای قبول شوندگان! و این اتفاق، نشان از عملکرد بهتر GPT-4 دارد.

همچنین برای مقایسه‌ی بهتر آمدند و هر دو مدل را با سوالاتی از سایت Leetcode (یک سایت آموزشی و تمرینی برای برنامه‌نویسان و دارای سوالاتی در زمینه‌ی الگوریتم‌ها، ساختار داده‌ها و...) ارزیابی کردند. نتایج خیره‌کننده بود! به طوری که:

مدل GPT-3.5 نتوانسته بود هیچ یک از سوالات دشوار سایت Leetcode را حل کند، اما مدل GPT-4 سه سوال از 45 سوال داده‌شده را به درستی حل کرد و نشان داد که حل این سوالات برای هوش‌مصنوعی [برخلاف خیل کثیری از برنامه‌نویسان] غیرممکن نیست!
(این مدل همچنین عملکردی تقریبا 2.5برابری در سوالات سطح آسان و متوسط داشت).
اعداد مربوط به مقایسه‌ی عملکرد GPT-3.5 (ستون اول از سمت راست) در سوالات Leetcode در برابر عملکرد GPT-4 (ستون دوم و سوم از سمت راست)
اعداد مربوط به مقایسه‌ی عملکرد GPT-3.5 (ستون اول از سمت راست) در سوالات Leetcode در برابر عملکرد GPT-4 (ستون دوم و سوم از سمت راست)


* پی‌نوشت دوم: عملکرد هر دو مدل را [علاوه بر سوالات سایت Leetcode] در آزمون‌های متفاوتی ارزیابی کردند و همانطور که قابل حدس بود، عملکرد آن‌ها در آزمون‌هایی که بیشتر سوالات مربوط به متن و نوشتن و... می‌شد، تقریبا یکسان بود [زیرا بخش پردازش متن آن، APIای از GPT-3.5 است] اما عملکرد GPT-4 در مباحثی مانند ریاضیات تفاوت چشم‌گیری داشت [و این نشان از افزایش قدرت reasoning آن دارد].


معلم خصوصی سقراطی!

یک ویژگی جدید در GPT-4 که به شخصه برایم بسیار جذاب و هیجان‌انگیز بود، Socratic tutor بودن یا “داشتن رویه‌ی سقراط در پاسخ‌گویی به سوالات” است!

رویه سقراطی در پاسخ‌گویی به سوال چیست؟ در این روش با شناسایی دقیق و بدون قضاوت درباره نگرش و موضع طرف مقابل، ابتدا با موضع او موافقت و همراهی می‌شود تا متوجه شود که درمانگر می تواند به درستی از نگاه و منظر او به موضوع یا مساله نگاه کند و سپس با طرح سولات صادقانه و جستجوگرایانه، تناقضات استدلال های او را آشکار و با استفاده از موضوع خود شخص، مدعایش رد می‌شود. [منبع برای ارجاع و یا مطالعه بیشتر].

این هم‌صحبتی با فردی سقراط‌مانند، شاید در نگاه اول عجیب نباشد اما یادآوری جمله‌ی معروف استیو جابز [منبع] درباره‌ی سقراط، احتمالا بتواند ارزش این اتفاق را تا حدی نشان دهد:

من حاضرم تمام فناوری‌های خود را با "یک بعدازظهر با سقراط" عوض کنم.
- استیو جابز

این ویژگی در عین اینکه می‌تواند بسیار جذاب، آموزشی و مفید باشد، می‌تواند بسیار حوصله‌سربر و کسل‌کننده نیز باشد. برای مثال گفتگوی زیر را نگاه کنید:

بخشی از صحبت یک کاربر (آزمایشی) و تلاش وی برای فهمیدن پاسخ سوالش و مقاومت مدل GPT-4! :)
بخشی از صحبت یک کاربر (آزمایشی) و تلاش وی برای فهمیدن پاسخ سوالش و مقاومت مدل GPT-4! :)

* پی‌نوشت سوم: البته این مورد را ذکر کنم که برای فعال شدن "فاز سقراط" باید ابتدا به مدل بگویید که اینطوری رفتار کند! :) احتمالا بشود انواع دیگری از صحبت‌کردن را هم ازش انتظار داشت، اما مثال‌های بیشتر و جالب‌تر مرتبط با این موضوع در آینده‌ی نزدیک [و از تجربه‌ی افرادی که استفاده می‌کنند] مشخص خواهد شد.


چرا ناامیدکننده!؟

ممکن است عنوان این بحث کمی برای‌تان عجیب بیاید، اما متاسفانه باید بگویم که شرکت OpenAI -که با هدف non-profit (غیرانتفاعی) بودن و برای پیشبرد هوش مصنوعی تاسیس شده بود- به شرکتی for-profit (انتفاعی) و برای سود تبدیل شده است. [لینک توییت آقای ایلان ماسک در این مورد] البته درست است که نمی‌توان زیاد بر آن‌ها خرده گرفت، اما همان‌طور که برخی از دوستان نیز پیشنهاد داده‌اند:

بهتر است شرکت OpenAI نام خود را به CloseAI تغییر بدهد تا حداقل تکلیف‌مان مشخص باشد!

چرا این حرف را می‌زنم؟ زیرا اگر مقاله‌ی مربوط به GPT-4 [لینک مقاله] را مشاهده کنید، خواهید دید که -برخلاف اسم آن که "technical report" نامیده شده است- هیچ‌گونه جزئیات فنی‌ای از آن منتشر نشده است! هیچ صحبتی درمورد معماری مدل، سایز مدل، میزان پردازش، سخت‌افزار، دیتاست و روش آموزش مدل نشده است! هرچند می‌شود علت این کار را "رقابت بسیار زیاد در این حوزه" و یا به قول خودشان، مسائل امنیتی بیان کرد، اما این کار دقیقا برخلاف رویه‌ی نرمال موجود در community (جامعه) هوش‌مصنوعی است و بسیاری از توسعه‌دهندگان از این رویه -که بعید نیست به سایر شرکت‌های نرم‌افزاری نیز سرایت کند و اوضاع را بدتر و بدتر کند- شدیدا گلایه کرده‌اند!

بخشی از مقاله‌ی اسماً تکنیکال GPT-4! ترجمه بخش هایلایت شده: این گزارش شامل هیچگونه جزئیاتی درمورد معماری (شامل اندازه‌ی مدل)، سخت افزار، محاسبات آموزش، ساختار دیتاست، training method و امثال آن‌ها نمی‌شود.
بخشی از مقاله‌ی اسماً تکنیکال GPT-4! ترجمه بخش هایلایت شده: این گزارش شامل هیچگونه جزئیاتی درمورد معماری (شامل اندازه‌ی مدل)، سخت افزار، محاسبات آموزش، ساختار دیتاست، training method و امثال آن‌ها نمی‌شود.


بلاگ اصلی معرفی این مدل [لینک بلاگ اصلی] هم تقریبا هیچ جزئیاتی را پوشش نمی‌دهد و صرفا به تعریف از آن می‌پردازد. فلذا خیلی پیشنهاد نمی‌کنم که آن را بخوانید. فقط در این حد توضیح داده شده است که این multimodal ، بر اساس Reinforcement Learning from Human feedback یا RLHF آموزش دیده است و نوعی مدل transformer-based محسوب می‌شود. این مدل برای کسانی که اشتراک ChatGPT plus را دارند فعال شده است، اما درمورد اینکه برای کاربران عادی فعال خواهد شد یا خیر هنوز صحبتی به میان نیامده است. البته مایکروسافت اعلام کرده است که به زودی GPT-4 را به موتور جستجوی Bing اضافه خواهد کرد.

* پی‌نوشت چهارم: شاید برای‌تان سوال باشد که چرا عرضه‌ی GPT-4، مانند ChatGPT نشد. it was by design, not by chance! در این زمینه به زودی مطلب دیگری را خواهم نوشت.


روزتان بخیر... (هرچند الان تقریبا نیمه‌شب است!)



بلاگ‌های مرتبطی که احتمالا برای‌تان جالب باشند:

* مدل هوش‌مصنوعی ChatGPT چیست؟ آیا انقلابی جدید در راه است؟

* 2ماه پس از عرضه‌ی ChatGPT، چه در دنیا گذشت!؟



از طریق لینک‌های زیر می‌توانید با من در ارتباط باشید، خوش‌حال می‌شوم که نظرات‌تان را در ارتباط با این مقاله برایم بفرستید:

E-mail: sina80mor@gmail.com

linked-in: https://www.linkedin.com/in/sinusealpha/

telegram-channel: https://www.telegram.com/sinusealpha_channel

twitter: https://www.twitter.com/sinamoradi2002









chatgptیادگیری ماشینهوش مصنوعییادگیری عمیقopenai
دیگر این‌جا نمی‌نویسم! |‌ کانال تلگرام: @Sinusealpha_Channel
شاید از این پست‌ها خوشتان بیاید