اندر حکایت GPT-4 و چاله‌چوله‌های آن!

انسانی در حال انگولک رباتی! این تصویر به کمک هوش‌مصنوعی تولید شده است.
انسانی در حال انگولک رباتی! این تصویر به کمک هوش‌مصنوعی تولید شده است.

چندی پیش مدل GPT-4 هم منتشر شد (البته نه به صورت عمومی) و گفته شد که برخی از ضعف‌های ChatGPT در آن برطرف شده. مثلا قابلیت multi-modality بهش اضافه شده و می‌تونه تسک‌هایی که ترکیب text و عکس هست رو هم انجام بده. یا اینکه قابلیت reasoning در اون تقویت شده. همین موضوع بهانه‌ای شد تا تیمی از microsoft research کرم‌شون بگیره و این مدل زبون‌بسته رو به انحاء مختلف انگولک کنند تا چاله‌چوله‌های اون رو پیدا کنند که نتیجه‌ش یک مقاله ۱۵۰ صفحه‌ای (بله درست شنیدید ۱۵۰ صفحه) شد.

در این مقاله در ابتدا در چندین فصل قابلیت‌های مختلف GPT-4 بررسی شده و رویکرد بررسی هم کاملا مبتنی بر مثال‌هایی از promptهای مختلف هست و متدهای ارزیابی ریاضیاتی خاصی استفاده نشده و همین باعث شده این مقاله تا حد خوبی همه‌فهم باشه. مثلا در باب تعامل انسان‌گونه این مدل، مثالی آورده شده که نشون میده مدل نه تنها می‌تونه reasoning بکنه بلکه می‌تونه درباره باورهای دیگری نیز reasoning انجام بده و یا اینکه می‌تونه احساسات یک انسان رو در تعامل با خودش در قالب جملات درک کنه. این دو مثال ذیل مفهوم Theory of Mind می‌گنجند که قراره به این سوال پاسخ بده که مثلا Alice به چه چیزی معتقده و یا میتونه یک مرحله پیچیده‌تر بشه: Bob فکر می‌کنه که Alice به چه چیزی معتقده و این مثال هی می‌تونه با اضافه شدن یک لایه دیگه پیچیده‌تر بشه. در این prompt همون‌طور که در تصویر مشخصه سعی‌شده شرایطی ذکر بشه که در دیتای اینترنت قابل پیدا کردن نبوده.

یا مثلا برای درک توانایی مدل در فهم احساسات در قالب جملات، یک prompt طراحی شده که در اون Tom یک چیز خیالی به نام ZURFIN رو گم کرده. اینجا هم باز به خاطر اینکه مطمئن بشند مفهوم طراحی‌شده در دیتای آموزش مدل دیده‌نشده از یک چیز خیالی به این نام استفاده کردند.

چاله‌های مدل - ساختار auto regressive

اما جنبه دیگه این مدل که می‌تونه جذاب باشه، ضعف‌های این مدل هست. ضعف‌های این مدل به دو دسته کلی تقسیم‌شده که دسته اول مربوط به ساختار autoregressive این مدل هست و دسته دوم مربوط به تاثیرات اجتماعیه. در دسته اول، همون‌طور که می‌دونید ساختار اصلی تمامی مدل‌های GPT مبتنی بر پیش‌بینی کلمه بعدی در پیکره متنیه که auto-regressive نامیده میشه (برای فهم بهتر داستان ترنسفورمرها و معماری اون‌ها می‌تونید به این رشته پست مراجعه کنید). همین ساختار باعث‌شده برخی سوالات متداول رو نتونه جواب بده. مثلا اومدند یه متن چندجمله‌ای از یه روزنامه بهش دادند و خواستند در یک جمله اون متن رو توضیح بده یا در واقع خلاصه کنه که مدل نتونسته این کار رو بکنه و دوباره یه متن طولانی تولید کرده.

مدل در خلاصه کردن یک متن از روزنامه New York Times عاجزه! علت هم ضعف ساختار autoregressive در فهم چندباره  کل متن و تولید خروجی از اون هست. جایی که مدل‌های مبتنی بر autoencoder بسیار قوی‌تر هستند. برای فهم این نبرد به این رشته‌پست مراجعه کنید.
مدل در خلاصه کردن یک متن از روزنامه New York Times عاجزه! علت هم ضعف ساختار autoregressive در فهم چندباره کل متن و تولید خروجی از اون هست. جایی که مدل‌های مبتنی بر autoencoder بسیار قوی‌تر هستند. برای فهم این نبرد به این رشته‌پست مراجعه کنید.


یکی دیگه از ایرادات اصلی این مدل اینه که نمی‌تونه با خودش inner dialog داشته باشه یا work memory کوتاهی داره که نمی‌تونه تسک‌هایی که نیاز به نگه داشتن نتایج میانی دارند رو حل بکنه. مثلا ازش خواستند که تعداد اعداد اول بین ۱۵۰ و ۲۵۰ رو بگه که مدل به اشتباه عدد ۱۳ رو اعلام می‌کنه در حالیکه ۱۸تا عدد اول در این بازه داریم. بعد ازش خواستند که اعداد اول در این بازه رو لیست کنه و سپس طول این لیست رو بیان کنه که اینجا درست اعلام می‌کنه.

تعداد اعداد اول در بازه ۱۵۰ تا ۲۵۰ برابر با ۱۸ عدد هست در حالیکه GPT-4 فکر می‌کنه ۱۳ تا عدد هستند!
تعداد اعداد اول در بازه ۱۵۰ تا ۲۵۰ برابر با ۱۸ عدد هست در حالیکه GPT-4 فکر می‌کنه ۱۳ تا عدد هستند!
وقتی از GPT-4 می‌خواند که اول اعداد اول در بازه ۱۵۰ تا ۲۵۰ رو ذکر کنه و بعد بشمره اون وقت درست جواب میده که نشون میده working memory خوبی نداره.
وقتی از GPT-4 می‌خواند که اول اعداد اول در بازه ۱۵۰ تا ۲۵۰ رو ذکر کنه و بعد بشمره اون وقت درست جواب میده که نشون میده working memory خوبی نداره.


یکی دیگه از مشکلات پیش پاافتاده‌ای که عموم LLMها باهاش رو به رو هستند عملیات‌های ریاضیه. در مثال اول اومدند یه ضرب و جمع ریاضی رو دادند و ازش خواستند جواب یه ضرب و جمع دیگه رو بگه که اینجا هم مدل اشتباه می‌کنه. جالب اینه که در این حالات هر چقدر اعداد ریاضی به کار رفته در معادله ارقام بیشتری داشته باشند خطای مدل بیشتر میشه تا جایی که وقتی به اعداد سه رقمی می‌رسیم دقت مدل به صفر می‌رسه! اما وقتی همین مثال رو به مدل می‌دند و ازش می‌خوان که این معادله رو گام به گام حل بکنه جواب درست رو تولید می‌کنه. در واقع با این مثال نشون دادند که مدل ضعف برنامه‌ریزی درونی برای انجام تسک‌های ریاضی داره ولی وقتی به صورت صریح ازش خواسته میشه که این برنامه‌ریزی رو انجام بده می‌تونه موفق بشه.

این prompt مربوط به مدل Chat-GPT هست که دقیقا همین ایراد GPT-4 را دارد ولی وقتی ازش می‌خوایم که این معادله رو گام به گام حل بکنه حتی در ضرب و جمع اعداد سه رقمی و بالاتر عملکرد درستی داره.
این prompt مربوط به مدل Chat-GPT هست که دقیقا همین ایراد GPT-4 را دارد ولی وقتی ازش می‌خوایم که این معادله رو گام به گام حل بکنه حتی در ضرب و جمع اعداد سه رقمی و بالاتر عملکرد درستی داره.


همین مشکل عدم برنامه‌ریزی در انجام تسک رو در تولید محتوای متنی تحت شرایط خاص هم داره. اومدند و دو تا مثال تولید کردند. در اولی یه سری شروط لوکال برای مدل می‌ذارند. مثلا می‌خوان که یه شعر تولید کنه که اول هر مصرعش با تک تک کلمات یک جمله خاص شروع بشه (عمرا خودتون نمی‌تونید همچین شعری بگید!) و مدل کاملا با موفقیت این کار رو می‌کنه. این شرط یه شرط لوکال هست چرا که در تولید هر مصرع کافیه به حرف خاص از اون جمله هدف اولیه دقت کنه. اما یه مثال دیگه که یه شرط گلوبال هست و مدل رو بیشتر درگیر می‌کنه اینه که یه شعری تولید کنه که مصرع اول و آخرش یکی باشند و فقط ترتیب کلمات‌شون برعکس باشه به شرطی که بامعنی هم باشه (باز هم عمرا نمی‌تونید خودتون همچین چیزی بگید!) . اینجا مدل ضعیف عمل می‌کنه و دایم دنبال شعرهایی می‌ره که مصرع‌های بلندی دارند در حالیکه برای حل چنین تسکی باید سراغ شعر‌هایی با مصرع کوتاه رفت. در ادامه سعی می‌کنند مدل رو راهنمایی کنند و حتی مدل یه جمله کوتاه با این شرایط نمی‌تونه پیدا کنه که معنی‌دار باشه (مثلا جمله Life gives hope از هر دو طرف معنی میده که مدل این جمله رو هم ذکر می کنه ولی جملات پرت و پلای دیگه‌ای هم میگه).

وقتی از مدل خواسته میشه که یک شعری بگه که حروف اول هر مصرعش با جمله I am Da vinci Three شروع بشه، مدل با موفقیت این کار رو انجام میده.
وقتی از مدل خواسته میشه که یک شعری بگه که حروف اول هر مصرعش با جمله I am Da vinci Three شروع بشه، مدل با موفقیت این کار رو انجام میده.


وقتی از مدل خواسته میشه که شعری بگه که مصرع اول و آخرش عین هم باشند و فقط ترتیب کلمات برعکس باشه که هم معنی بده و هم از لحاظ گرامری درست باشه، مدل قاطی می‌کنه و شروع به چرت و پرت گفتن می‌کنه
وقتی از مدل خواسته میشه که شعری بگه که مصرع اول و آخرش عین هم باشند و فقط ترتیب کلمات برعکس باشه که هم معنی بده و هم از لحاظ گرامری درست باشه، مدل قاطی می‌کنه و شروع به چرت و پرت گفتن می‌کنه


در اینجا سعی‌شده که با پرسش و پاسخ فراوان، مدل رو راهنمایی کنند که چه طوری یه همچین شعری بگه ولی باز نمی‌تونه
در اینجا سعی‌شده که با پرسش و پاسخ فراوان، مدل رو راهنمایی کنند که چه طوری یه همچین شعری بگه ولی باز نمی‌تونه

چوله‌های! مدل - تاثیرات اجتماعی

دسته دوم ایرادات مربوط به تاثیرات اجتماعی هست که مهم‌ترین قسمتش بایاس‌های جوامع هست. با چند مثال نشون دادند که GPT-4 بایاس‌های اجتماعی رو تشدید کرده. مثلا در یه جدول، میزان توزیع برخی مشاغل بین زن ‌ها و مرد‌ها رو بررسی کردند و در عوض بررسی کردند که GPT-4 برای اون مشاغل در چند درصد موارد از ضمایر he یا she استفاده می‌کنه. به طور مثال در دنیا حدود ۷۸ درصد مهندسین نرم‌افزار مرد و مابقی خانم هستند در حالیکه GPT-4 در ۹۸ درصد اوقات از ضمیر he برای یه مهندس نرم‌افزار استفاده می‌کنه.

مقایسه توزیع جنسیتی مشاغل مختلف و توزیع استفاده GPT-4 از ضمایر he و she برای این مشاغل
مقایسه توزیع جنسیتی مشاغل مختلف و توزیع استفاده GPT-4 از ضمایر he و she برای این مشاغل

یا نشون دادند که مدل‌های GPT کلا تمایلات زیادی به چرت و پرت گفتن دارند و انصافا هم خوب چرت و پرت می‌گند و هم چرت‌و‌پرت‌های خوبی می‌گند! اما درکی از اینکه مطلبی که تولید می‌کنند چقدر درست و چه مقدار غلط هست ندارند. به عبارت دیگه با گسترش استفاده از این مدل‌ها همون خطری که همواره برای تکنولوژی ذکر میشده برای GPT هم وجود داره؛ Misinformation.

جمع‌بندی

در انتها هم مثال‌های ذکرشده رو دسته‌بندی کردند و گفتند که LLMها برای بهبود باید در چه زمینه‌هایی کار کنند. مثلا مباحثی مانند confidence calibration لازمه انجام بشه برای اینکه این مدل‌ها درباره اطلاعاتی که تولید می‌کنند بدونند چقدر اطمینان دارند تا از mis information جلوگیری بشه. یا مثلا باید روی long-term memoryشون کار بشه تا تسک‌هایی که نیاز به نگهداری نتایج میانی و یا Inner dialog دارند هم به خوبی انجام بشند. در پایان میشه گفت هنوز راه بسیار زیادی تا artificial general intelligence مونده ولی بعید هم نیست که بشر یه روزی به اون برسه.



پ.ن: اینا نشستند ۱۵۰ صفحه مقاله نوشتند خداوکیلی ظلم در حق‌شون هست که شما مقاله شون رو حتی یه تورق هم نکنید! حداقل تصاویرش رو ببینید :)

لینک مقاله:

https://arxiv.org/abs/2303.12712

به کانال ما سر بزنید:

https://t.me/nlp_stuff