خواندن ۷ دقیقه·۱ ماه پیش

داخل ذهن مدل چی میگذره ؟ میسازیم اما درک نمیکنیم

فکر میکنم اکثر کسایی که این مطلب رو میخونن استفاده مکرر از مدل های هوش مصنوعی مثل gemeni و chat gpt دارن . این مدل های ساعت ها train شده اند و میلیون ها دلار براشون هزینه شده . این مدل ها شعر مینویسن ، کد میزنن ، استدلال میکنن ، محاسبات سخت و طولانی انجام میدن ؛ اما دقیقا چطور کار میکنن ؟ این یه سوال فلسفی یا یه بحران وجودی نیست ولی واقعا چطور ما مدل هایی خلق کردیم و استفاده میکنیم که نمیدونیم چی توی سر این مدل میگذره .

اما حوضه mechanistic interpretability به ما کمک میکنه تا ما رو به یه جواب برسونه .

اما اول سوالم رو واضح تر بیان کنم

وقتی میگم "نمیفهمیم" منظورم اینه که LLM ها اساسا مثل یه جعبه سیاه هستن . ورودی میدی ، خروجی میگیری اما چطور به اون جواب رسیده ؟ کدوم بخش از مدل مسئول پاسخ دادن این سوال بود ؟ و چه اطلاعاتی درونش ذخیره شده و چطور دان ترکیب میشن ؟

اینا سوال هایی هستن براش جواب قانع کننده ای نداریم .

حالا شاید براتون سوال شده باشه که :« مگه Explainable AI نداریم که فرایند تفکرش رو توضیح بده ؟»

بله . اما mechanistic interpretability چیز دیگه ایه .

تفاوت این دوتا مهمه :

یه راه برای فهمدین مدل ها اینه که از بیرون بهشون نگاه کنی ، و بپرسی : « کدوم بخش از ورودی بیشترین تاثیر رو داشت ؟» به این رویکرد Explainable AI میگیم . مفیده اما مثل اینه که بانک بگه وامت رد شده ؛ درسته که یه دلیل بهت میدن مثل اینکه بهت بگن درآمدت کمه ، اما توضیح نمیده که بانک چطور به این نتیجه رسیده .

mechanistic interpretability یه لایه عمیق تر میشه . بهت نمیگه چه چیزی تاثیر گذاشت بلکه بهت میگه دقیقا کجای مدل این اتفاق افتاد و چطور .

مثل اینکه ماشین دود کنه و تو کاپوت رو بزنی بالا تا ببینی دقیقا کجای ماشین دارهه میسوزه .

چرا اصلا مهمه ؟

درک میکنم اگه این سوال برات پیش بیاد که : «مدل داره کار میکنه ، چرا من باید بدونم چطور ؟» یا به قول

آدولف مایر بزرگ : « جایی که نمیخارد را نخارانید .»

اما چند تا دلیل است که این سوال رو جدی میکنه :

اول امنیت : مدل هایی که نمیفهمیم چطور تصمیم میگیرند ، ممکنه رفتار های ناخواسته ای داشته باشند که ما نمیتونیم پیش بینی کنیم . اگه ندونیم چرا یه مدل یه حرف مضر میزنه ، نمی تونیم مطمئن بشیم که fine -tuning یا RLHF واقعا رفتار رو عوض کرده یا فقط یادگرفته که اون رفتار هارو مخفی کنه .

دوم فریب : یه مدل که داره فریب میده ، رو چطور تشخیص میدیم ؟ اگه فقط از خروجی نگاه کنیم ، ممکنه جواب های درست بده تا وقتی که مهم باشه و اونجا رفتار متفاوتی نشون میده .

سوم هم ترازی : میخواهیم مدل هایی بسازیم که واقعا ارزش های ما رو دنبال کنن ، نه فقط الگوی ارزش ها رو یاد گرفته باشند . برای این کار باید بفهمیم داخل ندل چه اتفاقی داره می افته .

خلاصه : هر چقدر مدل ها قدرتمند تر بشند ، ندانستن سازو کارشون خطرناک تر میشه .

داخل مدل چه خبره ؟

Neurons - اتم های سازنده شبکه

وقتی یه transformer رو train میکنیم ، در واقع داری میلیارد ها پارامتر رو تنظیم میکنیم .این پارامتر ها توی لایه های مختلف سازماندهی میشن . توی هر لایه nueronها هستند ؛ واحد های محاسباتی که ورودی میگیرند و یه عدد (activation) تولید میکنن .

در تئوری هر نورون باید یه مفهوم رو نمایندگی کنه . مثلا یه نورون ممکنه مسئول تشخیص حضور یه اسم خاص باشه و یه نورون دیگه مسئول لحن جمله باشه .

ولی واقعیت پیچیده تره . و اینجا یکی از جالب ترین کشف های این حوزه شروع میشه .

Superposition - وقتی یه نورون چند نقش بازی میکنه

کشف مهم اینه که مدل ها چیزی رو انجام میدند که بهش superposition میگن . یعنی یه نورون میتونه همزمان چندین مفهوم مختلف رو نمایندگی کنه البته نه همزمان ، بلکه در context های مختلف .

چرا مدل این کار رو میکنه ؟ چون فضای محاسباتی محدوده ، ولی اطلاعاتی که باید یاد بگیره نامحدود . پس یاد میگیره چندین مفهوم رو توی یه نورون فشرده کنه به شرطی که این مفاهیم معمولا باهم ظاهر نشن .

این خیلی شبیه compression توی برنامه نویسی هست . فضای کمی اگه داری پس overlap کن .

features - چیزی که مدل واقعا نمایندگی میکنه

پس اگه نورون ها به تنهایی معنایی ندارند چه چیزی معنا رو خلق میکنه ؟ جواب این سوال فیچر ها هستن. یه فیچر یه جهت در فضای activation هاست . مثلا شاید مفهوم سلطنت نه در یه نورون خاص بلکه به عنوان یه ترکیب خطی از چند نورون وجود داشته باشه . مشهورترین مثالش : اگه embedding کلمات رو اشته باشیم :

(شاه - مرد ) + خانم = ملکه

این نشون میده که جنسیت و سلطنت به عنوان مسیر مستقل در فضای embedding وجود دارند . این همون فیچر هست .

محققان نشون دادند که مدل های زبانی representation های معنا داری میسازند نه فقط یه الگو سازی ساده .

چرا این حوضه هنوز خیلی سخته ؟

اگه همچین مبحثی انقدر جالبه چرا هنوز علی رغم خوبی هاش هنوز باهاش مشکل داریم .

مقیاس : یه مدل بزرگ میلیارد های و حتی صد های میلیارد پارامتر داره . حتی اگه بتونیم یه بخش کوچیکی از این این مدل رو متوجه بشیم و درک کنیم اما درک کامل این مدل ها در حال حاضر کار غیر ممکنی به نظر میاد . مثل اینکه تمام ترانزیستور های یه CPU رو بشناسی اما ندونی چطور باهم ویندوز رواجرا میکنن .

نا پایداری فیچر ها : بعضی از فیچر ها توی train های بین tun های مختلق تغییر میکنن . حتی در برخورد با یه مشکل مشابه مدل ها با وزن های متفاوت رویکرد های متفاوتی نسبت به اون مسله نشون میدن مثل اینکه دو شخص یه معادله ریاضی داشته باشن ولی به روش های متفاوت حلش کنن .

سوال ترسناک

شرکت های بزرگ هوش مصنوعی دارن هر سال مدل های جدید و جدید تری به بازار عرضه میکنن و هر بار درک این مدل ها سخت تر از قبل میشه . سوال من اینه که ما چقدر از ساختن مدلی که از درک کاملش عاجز باشیم فاصله داریم .

برای اینکه سوالم رو واضح تر کنم بزارید با داستان alpha zero توضیح بدم . در سال 2017 شزکت deep mind یه مدل هوش مصنوعی به دنیا عرضه کرد ؛ مدلی که میتونست شطرنج بازی کنه . البته که شطرنج بازی کردن یه مدل هوش مصنوعی و کامپیوتر ها چیز جدیدی نیست ؛ شرکت IBM در سال 1997 موفق شده بود کامپیوتر Deep blue رو بسازه که Garry kasparov رو شکست بده . اما تفاوت مهم بین این دو مثال اینه که در شرکت IBM داشنمندان و ریاضی دانان با وجود اینکه شطرنج بلد نبودن الگوریتم هایی ساخته بودن و میلیارد ها استراتژِی به مدل یاد داده بودن که بتونه گرند مستر شطرنج رو شکست بده اما alpha zero فقط با دونستن قوانین اولیه شطرنج تبدیل به قوی ترین بازیکن شطرنج شد . الفا زیرو با دونستن قوانین میلیارد ها بار با خودش شطرنج بازی کرد استراتژی خلق کرد ؛ استراتژی هایی رو ساهت که حتی اساتید شطرنج هم بهش فکر نکرده بودن . درواقع شرکت Deep mind تونسته بود مدلی از هوش مصنوعی خلق کنه که هنگام بازی کردن حرکاتی رو انجام بده که در اون لحظه یه اشتباه به حساب میاد اما چند دقیقه بعد تبدیل به یه برتری میشه . حالا انسان ها سیستم هایی میسازن که الگو ها رو کشف کنن و راه حل کشف کنن که به طور کامل قادر به توضیح دادنشون نیستن .اگه امروز هوش مصنوعی در محیطی محدود مانند شطرنج میتونه به راه‌حل‌ها و استراتژی‌هایی برسه که انسان تنها پس از مشاهده نتایجش قادر به درک ارزش آن‌هاست، این پرسش جدی مطرح می‌شه که در آینده، در حوزه‌های پیچیده‌تری مانند علم، اقتصاد یا سیاست، تا چه حد ممکنه با سیستم‌هایی روبه‌رو بشیم که تصمیم‌هاشون فراتر از توان تحلیل و درک مستقیم ما باشه .

هوش مصنوعیمدلmachine learning

sobhan chabi

شاید از این پست‌ها خوشتان بیاید

sobhan chabi

خواندن ۷ دقیقه·۱ ماه پیش

داخل ذهن مدل چی میگذره ؟ میسازیم اما درک نمیکنیم

اما حوضه mechanistic interpretability به ما کمک میکنه تا ما رو به یه جواب برسونه .

اما اول سوالم رو واضح تر بیان کنم

اینا سوال هایی هستن براش جواب قانع کننده ای نداریم .

حالا شاید براتون سوال شده باشه که :« مگه Explainable AI نداریم که فرایند تفکرش رو توضیح بده ؟»

بله . اما mechanistic interpretability چیز دیگه ایه .

تفاوت این دوتا مهمه :

مثل اینکه ماشین دود کنه و تو کاپوت رو بزنی بالا تا ببینی دقیقا کجای ماشین دارهه میسوزه .

چرا اصلا مهمه ؟

درک میکنم اگه این سوال برات پیش بیاد که : «مدل داره کار میکنه ، چرا من باید بدونم چطور ؟» یا به قول

آدولف مایر بزرگ : « جایی که نمیخارد را نخارانید .»

اما چند تا دلیل است که این سوال رو جدی میکنه :

خلاصه : هر چقدر مدل ها قدرتمند تر بشند ، ندانستن سازو کارشون خطرناک تر میشه .

داخل مدل چه خبره ؟

Neurons - اتم های سازنده شبکه

ولی واقعیت پیچیده تره . و اینجا یکی از جالب ترین کشف های این حوزه شروع میشه .

Superposition - وقتی یه نورون چند نقش بازی میکنه

این خیلی شبیه compression توی برنامه نویسی هست . فضای کمی اگه داری پس overlap کن .

features - چیزی که مدل واقعا نمایندگی میکنه

(شاه - مرد ) + خانم = ملکه

این نشون میده که جنسیت و سلطنت به عنوان مسیر مستقل در فضای embedding وجود دارند . این همون فیچر هست .

محققان نشون دادند که مدل های زبانی representation های معنا داری میسازند نه فقط یه الگو سازی ساده .

چرا این حوضه هنوز خیلی سخته ؟

اگه همچین مبحثی انقدر جالبه چرا هنوز علی رغم خوبی هاش هنوز باهاش مشکل داریم .

سوال ترسناک

هوش مصنوعیمدلmachine learning

sobhan chabi

شاید از این پست‌ها خوشتان بیاید