پیش نوشت: هر چند بعید است اما اگر در جریان اتفاقات اخیر دنیای هوش مصنوعی (مانند انتشار ChatGPT و حواشیهای بعد از آن) نیستید، پیشنهاد میکنم که خواندن این مطلب را متوقف و این بلاگ را مطالعه کنید.
فقط چند ساعت از انتشار GPT-4 میگذرد و بحث درمورد این مدل (که خود شرکت OpenAI اون رو "the latest milestone in its effort in scaling up deep learning" یا "آخرین [و بهروزترین] نقطهی عطف در پیشرفت یادگیری عمیق" خطاب کرده) به شدت بالاست. تصمیم گرفتم که این بلاگ را بنویسم، تا هم به معرفی این مدل بپردازم و هم کمی درمورد اتفاقات حول این موضوع صحبت کنم.
مهمترین ویژگی مدل GPT-4 [که در مدلهای قبلی به صورت مجتمع وجود نداشت]، امکان دریافت تصویر به عنوان input (ورودی) است. به این معنی که میتوانید تصویر بدهید و درمورد تصویر چیزی بخواهید!
مثال: میتوانید بر روی کاغذ تصویری را بکشید و از مدل انتظار داشته باشید که کدهای html و css مربوط به آن را برایتان بنویسد و با این روش، به صورت دستی سایت طراحی کنید!
* پینوشت اول: GPT-4 یک multimodal model هستش [به این صورت که تواناییهای متنیاش تقریبا همان GPT-3.5 است و توانایی پردازش تصویرش اضافه شدهست] و این ادغام، میتواند مشکلات جالبی را حل کند! برای مثال اگر یادتان باشد مقالهای اخیرا منتشر شده بود و پژوهشگرانی آمده بودند و آزمون USMLE (آزمون پیشنیاز ورود به مرحلهی تخصصی پزشکی در آمریکا) را به ChatGPT داده بودند و این مدل، تا حد خوبی توانسته بود به سوالات پاسخ بدهد [و آزمون را پاس کند!]، اما کمتر کسی اشاره میکرد که سوالات دارای تصویر در ابتدا از سوالاتی که به مدل داده بودند exclude (حذف) شده بودند [لینک مقاله برای ارجاع] و درصورت وجود اونها، مشخصا درصد پاسخگویی کمتری را شاهد میبودیم! اما در GPT-4 دیگر این مشکل وجود ندارد و احتمالا با خیال راحت بتوانیم تمام سوالات متنی و تصویری را بهش بدهیم! (هرچند هنوز وویس قبول نمیکند!). یک مورد دیگر هم امکان تولید متنهای طولانی است و احتمالا بزودی شاهد تولید کتابهای بسیاری توسط و یا به کمک GPT-4 باشیم.
خود شرکت OpenAI، ادعا کرده است که عملکرد GPT-3.5 و GPT-4 را در یک آزمون وکالت سنجیده و هر دو بین قبولشوندگان بودند؛ اما GPT-3.5 در بین 10% پایین قبولشوندگان و GPT-4 در بین 10% بالای قبول شوندگان! و این اتفاق، نشان از عملکرد بهتر GPT-4 دارد.
همچنین برای مقایسهی بهتر آمدند و هر دو مدل را با سوالاتی از سایت Leetcode (یک سایت آموزشی و تمرینی برای برنامهنویسان و دارای سوالاتی در زمینهی الگوریتمها، ساختار دادهها و...) ارزیابی کردند. نتایج خیرهکننده بود! به طوری که:
مدل GPT-3.5 نتوانسته بود هیچ یک از سوالات دشوار سایت Leetcode را حل کند، اما مدل GPT-4 سه سوال از 45 سوال دادهشده را به درستی حل کرد و نشان داد که حل این سوالات برای هوشمصنوعی [برخلاف خیل کثیری از برنامهنویسان] غیرممکن نیست!
(این مدل همچنین عملکردی تقریبا 2.5برابری در سوالات سطح آسان و متوسط داشت).
* پینوشت دوم: عملکرد هر دو مدل را [علاوه بر سوالات سایت Leetcode] در آزمونهای متفاوتی ارزیابی کردند و همانطور که قابل حدس بود، عملکرد آنها در آزمونهایی که بیشتر سوالات مربوط به متن و نوشتن و... میشد، تقریبا یکسان بود [زیرا بخش پردازش متن آن، APIای از GPT-3.5 است] اما عملکرد GPT-4 در مباحثی مانند ریاضیات تفاوت چشمگیری داشت [و این نشان از افزایش قدرت reasoning آن دارد].
یک ویژگی جدید در GPT-4 که به شخصه برایم بسیار جذاب و هیجانانگیز بود، Socratic tutor بودن یا “داشتن رویهی سقراط در پاسخگویی به سوالات” است!
رویه سقراطی در پاسخگویی به سوال چیست؟ در این روش با شناسایی دقیق و بدون قضاوت درباره نگرش و موضع طرف مقابل، ابتدا با موضع او موافقت و همراهی میشود تا متوجه شود که درمانگر می تواند به درستی از نگاه و منظر او به موضوع یا مساله نگاه کند و سپس با طرح سولات صادقانه و جستجوگرایانه، تناقضات استدلال های او را آشکار و با استفاده از موضوع خود شخص، مدعایش رد میشود. [منبع برای ارجاع و یا مطالعه بیشتر].
این همصحبتی با فردی سقراطمانند، شاید در نگاه اول عجیب نباشد اما یادآوری جملهی معروف استیو جابز [منبع] دربارهی سقراط، احتمالا بتواند ارزش این اتفاق را تا حدی نشان دهد:
من حاضرم تمام فناوریهای خود را با "یک بعدازظهر با سقراط" عوض کنم.
- استیو جابز
این ویژگی در عین اینکه میتواند بسیار جذاب، آموزشی و مفید باشد، میتواند بسیار حوصلهسربر و کسلکننده نیز باشد. برای مثال گفتگوی زیر را نگاه کنید:
* پینوشت سوم: البته این مورد را ذکر کنم که برای فعال شدن "فاز سقراط" باید ابتدا به مدل بگویید که اینطوری رفتار کند! :) احتمالا بشود انواع دیگری از صحبتکردن را هم ازش انتظار داشت، اما مثالهای بیشتر و جالبتر مرتبط با این موضوع در آیندهی نزدیک [و از تجربهی افرادی که استفاده میکنند] مشخص خواهد شد.
ممکن است عنوان این بحث کمی برایتان عجیب بیاید، اما متاسفانه باید بگویم که شرکت OpenAI -که با هدف non-profit (غیرانتفاعی) بودن و برای پیشبرد هوش مصنوعی تاسیس شده بود- به شرکتی for-profit (انتفاعی) و برای سود تبدیل شده است. [لینک توییت آقای ایلان ماسک در این مورد] البته درست است که نمیتوان زیاد بر آنها خرده گرفت، اما همانطور که برخی از دوستان نیز پیشنهاد دادهاند:
بهتر است شرکت OpenAI نام خود را به CloseAI تغییر بدهد تا حداقل تکلیفمان مشخص باشد!
چرا این حرف را میزنم؟ زیرا اگر مقالهی مربوط به GPT-4 [لینک مقاله] را مشاهده کنید، خواهید دید که -برخلاف اسم آن که "technical report" نامیده شده است- هیچگونه جزئیات فنیای از آن منتشر نشده است! هیچ صحبتی درمورد معماری مدل، سایز مدل، میزان پردازش، سختافزار، دیتاست و روش آموزش مدل نشده است! هرچند میشود علت این کار را "رقابت بسیار زیاد در این حوزه" و یا به قول خودشان، مسائل امنیتی بیان کرد، اما این کار دقیقا برخلاف رویهی نرمال موجود در community (جامعه) هوشمصنوعی است و بسیاری از توسعهدهندگان از این رویه -که بعید نیست به سایر شرکتهای نرمافزاری نیز سرایت کند و اوضاع را بدتر و بدتر کند- شدیدا گلایه کردهاند!
بلاگ اصلی معرفی این مدل [لینک بلاگ اصلی] هم تقریبا هیچ جزئیاتی را پوشش نمیدهد و صرفا به تعریف از آن میپردازد. فلذا خیلی پیشنهاد نمیکنم که آن را بخوانید. فقط در این حد توضیح داده شده است که این multimodal ، بر اساس Reinforcement Learning from Human feedback یا RLHF آموزش دیده است و نوعی مدل transformer-based محسوب میشود. این مدل برای کسانی که اشتراک ChatGPT plus را دارند فعال شده است، اما درمورد اینکه برای کاربران عادی فعال خواهد شد یا خیر هنوز صحبتی به میان نیامده است. البته مایکروسافت اعلام کرده است که به زودی GPT-4 را به موتور جستجوی Bing اضافه خواهد کرد.
* پینوشت چهارم: شاید برایتان سوال باشد که چرا عرضهی GPT-4، مانند ChatGPT نشد. it was by design, not by chance! در این زمینه به زودی مطلب دیگری را خواهم نوشت.
روزتان بخیر... (هرچند الان تقریبا نیمهشب است!)
بلاگهای مرتبطی که احتمالا برایتان جالب باشند:
* مدل هوشمصنوعی ChatGPT چیست؟ آیا انقلابی جدید در راه است؟
* 2ماه پس از عرضهی ChatGPT، چه در دنیا گذشت!؟
از طریق لینکهای زیر میتوانید با من در ارتباط باشید، خوشحال میشوم که نظراتتان را در ارتباط با این مقاله برایم بفرستید:
E-mail: sina80mor@gmail.com
linked-in: https://www.linkedin.com/in/sinusealpha/
telegram-channel: https://www.telegram.com/sinusealpha_channel
twitter: https://www.twitter.com/sinamoradi2002