مهندس نرم افزار | متخصص علوم داده
اندر حکایت GPT-4 و چالهچولههای آن!
چندی پیش مدل GPT-4 هم منتشر شد (البته نه به صورت عمومی) و گفته شد که برخی از ضعفهای ChatGPT در آن برطرف شده. مثلا قابلیت multi-modality بهش اضافه شده و میتونه تسکهایی که ترکیب text و عکس هست رو هم انجام بده. یا اینکه قابلیت reasoning در اون تقویت شده. همین موضوع بهانهای شد تا تیمی از microsoft research کرمشون بگیره و این مدل زبونبسته رو به انحاء مختلف انگولک کنند تا چالهچولههای اون رو پیدا کنند که نتیجهش یک مقاله ۱۵۰ صفحهای (بله درست شنیدید ۱۵۰ صفحه) شد.
در این مقاله در ابتدا در چندین فصل قابلیتهای مختلف GPT-4 بررسی شده و رویکرد بررسی هم کاملا مبتنی بر مثالهایی از promptهای مختلف هست و متدهای ارزیابی ریاضیاتی خاصی استفاده نشده و همین باعث شده این مقاله تا حد خوبی همهفهم باشه. مثلا در باب تعامل انسانگونه این مدل، مثالی آورده شده که نشون میده مدل نه تنها میتونه reasoning بکنه بلکه میتونه درباره باورهای دیگری نیز reasoning انجام بده و یا اینکه میتونه احساسات یک انسان رو در تعامل با خودش در قالب جملات درک کنه. این دو مثال ذیل مفهوم Theory of Mind میگنجند که قراره به این سوال پاسخ بده که مثلا Alice به چه چیزی معتقده و یا میتونه یک مرحله پیچیدهتر بشه: Bob فکر میکنه که Alice به چه چیزی معتقده و این مثال هی میتونه با اضافه شدن یک لایه دیگه پیچیدهتر بشه. در این prompt همونطور که در تصویر مشخصه سعیشده شرایطی ذکر بشه که در دیتای اینترنت قابل پیدا کردن نبوده.
یا مثلا برای درک توانایی مدل در فهم احساسات در قالب جملات، یک prompt طراحی شده که در اون Tom یک چیز خیالی به نام ZURFIN رو گم کرده. اینجا هم باز به خاطر اینکه مطمئن بشند مفهوم طراحیشده در دیتای آموزش مدل دیدهنشده از یک چیز خیالی به این نام استفاده کردند.
چالههای مدل - ساختار auto regressive
اما جنبه دیگه این مدل که میتونه جذاب باشه، ضعفهای این مدل هست. ضعفهای این مدل به دو دسته کلی تقسیمشده که دسته اول مربوط به ساختار autoregressive این مدل هست و دسته دوم مربوط به تاثیرات اجتماعیه. در دسته اول، همونطور که میدونید ساختار اصلی تمامی مدلهای GPT مبتنی بر پیشبینی کلمه بعدی در پیکره متنیه که auto-regressive نامیده میشه (برای فهم بهتر داستان ترنسفورمرها و معماری اونها میتونید به این رشته پست مراجعه کنید). همین ساختار باعثشده برخی سوالات متداول رو نتونه جواب بده. مثلا اومدند یه متن چندجملهای از یه روزنامه بهش دادند و خواستند در یک جمله اون متن رو توضیح بده یا در واقع خلاصه کنه که مدل نتونسته این کار رو بکنه و دوباره یه متن طولانی تولید کرده.
یکی دیگه از ایرادات اصلی این مدل اینه که نمیتونه با خودش inner dialog داشته باشه یا work memory کوتاهی داره که نمیتونه تسکهایی که نیاز به نگه داشتن نتایج میانی دارند رو حل بکنه. مثلا ازش خواستند که تعداد اعداد اول بین ۱۵۰ و ۲۵۰ رو بگه که مدل به اشتباه عدد ۱۳ رو اعلام میکنه در حالیکه ۱۸تا عدد اول در این بازه داریم. بعد ازش خواستند که اعداد اول در این بازه رو لیست کنه و سپس طول این لیست رو بیان کنه که اینجا درست اعلام میکنه.
یکی دیگه از مشکلات پیش پاافتادهای که عموم LLMها باهاش رو به رو هستند عملیاتهای ریاضیه. در مثال اول اومدند یه ضرب و جمع ریاضی رو دادند و ازش خواستند جواب یه ضرب و جمع دیگه رو بگه که اینجا هم مدل اشتباه میکنه. جالب اینه که در این حالات هر چقدر اعداد ریاضی به کار رفته در معادله ارقام بیشتری داشته باشند خطای مدل بیشتر میشه تا جایی که وقتی به اعداد سه رقمی میرسیم دقت مدل به صفر میرسه! اما وقتی همین مثال رو به مدل میدند و ازش میخوان که این معادله رو گام به گام حل بکنه جواب درست رو تولید میکنه. در واقع با این مثال نشون دادند که مدل ضعف برنامهریزی درونی برای انجام تسکهای ریاضی داره ولی وقتی به صورت صریح ازش خواسته میشه که این برنامهریزی رو انجام بده میتونه موفق بشه.
همین مشکل عدم برنامهریزی در انجام تسک رو در تولید محتوای متنی تحت شرایط خاص هم داره. اومدند و دو تا مثال تولید کردند. در اولی یه سری شروط لوکال برای مدل میذارند. مثلا میخوان که یه شعر تولید کنه که اول هر مصرعش با تک تک کلمات یک جمله خاص شروع بشه (عمرا خودتون نمیتونید همچین شعری بگید!) و مدل کاملا با موفقیت این کار رو میکنه. این شرط یه شرط لوکال هست چرا که در تولید هر مصرع کافیه به حرف خاص از اون جمله هدف اولیه دقت کنه. اما یه مثال دیگه که یه شرط گلوبال هست و مدل رو بیشتر درگیر میکنه اینه که یه شعری تولید کنه که مصرع اول و آخرش یکی باشند و فقط ترتیب کلماتشون برعکس باشه به شرطی که بامعنی هم باشه (باز هم عمرا نمیتونید خودتون همچین چیزی بگید!) . اینجا مدل ضعیف عمل میکنه و دایم دنبال شعرهایی میره که مصرعهای بلندی دارند در حالیکه برای حل چنین تسکی باید سراغ شعرهایی با مصرع کوتاه رفت. در ادامه سعی میکنند مدل رو راهنمایی کنند و حتی مدل یه جمله کوتاه با این شرایط نمیتونه پیدا کنه که معنیدار باشه (مثلا جمله Life gives hope از هر دو طرف معنی میده که مدل این جمله رو هم ذکر می کنه ولی جملات پرت و پلای دیگهای هم میگه).
چولههای! مدل - تاثیرات اجتماعی
دسته دوم ایرادات مربوط به تاثیرات اجتماعی هست که مهمترین قسمتش بایاسهای جوامع هست. با چند مثال نشون دادند که GPT-4 بایاسهای اجتماعی رو تشدید کرده. مثلا در یه جدول، میزان توزیع برخی مشاغل بین زن ها و مردها رو بررسی کردند و در عوض بررسی کردند که GPT-4 برای اون مشاغل در چند درصد موارد از ضمایر he یا she استفاده میکنه. به طور مثال در دنیا حدود ۷۸ درصد مهندسین نرمافزار مرد و مابقی خانم هستند در حالیکه GPT-4 در ۹۸ درصد اوقات از ضمیر he برای یه مهندس نرمافزار استفاده میکنه.
یا نشون دادند که مدلهای GPT کلا تمایلات زیادی به چرت و پرت گفتن دارند و انصافا هم خوب چرت و پرت میگند و هم چرتوپرتهای خوبی میگند! اما درکی از اینکه مطلبی که تولید میکنند چقدر درست و چه مقدار غلط هست ندارند. به عبارت دیگه با گسترش استفاده از این مدلها همون خطری که همواره برای تکنولوژی ذکر میشده برای GPT هم وجود داره؛ Misinformation.
جمعبندی
در انتها هم مثالهای ذکرشده رو دستهبندی کردند و گفتند که LLMها برای بهبود باید در چه زمینههایی کار کنند. مثلا مباحثی مانند confidence calibration لازمه انجام بشه برای اینکه این مدلها درباره اطلاعاتی که تولید میکنند بدونند چقدر اطمینان دارند تا از mis information جلوگیری بشه. یا مثلا باید روی long-term memoryشون کار بشه تا تسکهایی که نیاز به نگهداری نتایج میانی و یا Inner dialog دارند هم به خوبی انجام بشند. در پایان میشه گفت هنوز راه بسیار زیادی تا artificial general intelligence مونده ولی بعید هم نیست که بشر یه روزی به اون برسه.
پ.ن: اینا نشستند ۱۵۰ صفحه مقاله نوشتند خداوکیلی ظلم در حقشون هست که شما مقاله شون رو حتی یه تورق هم نکنید! حداقل تصاویرش رو ببینید :)
لینک مقاله:
https://arxiv.org/abs/2303.12712
به کانال ما سر بزنید:
https://t.me/nlp_stuff
مطلبی دیگر از این انتشارات
داستان نامداران: یافتن اسامی خاص!
مطلبی دیگر از این انتشارات
داستان ترنسفورمرها (۳): توجه و دیگر هیچ!
مطلبی دیگر از این انتشارات
هوش مصنوعی با فیدبکهای واقعی!