حمیدرضا مازندرانی
حمیدرضا مازندرانی
خواندن ۳ دقیقه·۱ سال پیش

اِیجنت‌ها را تقلیدشان بر باد داد

یادگیری تقلید

در هنگام مطالعه یادگیری تقویتی، این سوال احتمالاً به ذهنمون رسیده که آیا نمیشه عامل (agent) خودمون رو به صورت نظارت‌شده (supervised) از روی یک عامل خِبره (expert) آموزش بدیم؟ مثلاً با تصاویری که از یک راننده انسانی گرفته شده، یک خودروی خودران رو به حرکت در بیاریم؟

جناب سرگئی لوین به تفصیل پاسخ میده چرا این کار به طور کلی نشدنیه یا چالش‌های اساسی داره. در واقع علت اصلی اینه که با اندکی اشتباه، ما وارد حالت‌هایی میشیم که عامل خبره پاسخی واسش نداره.

اگه بخواهیم پلی بزنیم به روانشناسی، آدام گرنت در کتاب توانمندی‌های نهان میگه که:

این طور نیست که اطلاعات به راحتی در مغز دیگران نشسته و منتظر استخراج شدن از سوی ما باشند. ... هدف از کمک گرفتن از راهنمایان، پیروی کورکورانه از توصیه‌های آنان نیست بلکه ترسیم مسیری احتمالی برای واکاوی همراه با هم است.

نکته به نکته، مو به مو

فرض کنید تصمیم دارید یک معامله‌گر هوشمند رو بر اساس تاریخچه معاملات بهترین تریدرها آموزش بدین، تا بی‌هیچ اشتباهی از اونا تقلید کنه.

اما چرا این کار یعنی تقلیدِ تمام و کمال از عامل خِبره -چه برای هوش طبیعی چه مصنوعی- سخت یا نشدنیه؟

یک دلیل مهم اینه که عامل خبره معمولاً فاکتورهای دیگه‌ای رو هم در تصمیمات خودش لحاظ میکنه. در همین مثال بالا، ممکنه معامله‌گر تصمیمات قبلی خودش رو هم در نظر بگیره مثلاً اگه روز گذشته سهام زیادی خریده امروز دست نگه داره.

خب در پاسخ میشه گفت همه عوامل احتمالی رو در ورودی مدل قرار بدیم. حتی اگه چنین امکانی فراهم باشه، معلوم نیست مدل بتونه روابط علت و معلولی رو درست شناسایی کنه. چند نفر رو میشناسیم که فکر میکنن مشغله زیادی داشتن یعنی موفقیت؟

اما این تنها دلیلی نیست که یادگیری تقلید رو دشوار میکنه. در ادامه یک دلیل دیگه رو هم میگم.

در مذمت وسط‌بازی

icelandmag.is
icelandmag.is

گاهی عامل خبره در هنگام تصمیم‌گیری یکی از دو سر طیف رو انتخاب میکنه. برای مثال یک راننده در هنگام مواجهه با یه مانع به سمت راست می‌پیچه یا به سمت چپ. اما مدلی که از این راننده الگوبرداری میکنه، اگه میانگین تصمیمات رو در نظر بگیره عاقبتی جز برخورد با مانع نخواهد داشت.

محمدرضا شعبانعلی پیرامون این نوع نگاه به سیاست چنین نوشته:

... در [میانه‌روی]، دغدغهٔ شما «حق» نیست. بلکه صرفاً پیدا کردن نقطهٔ وسط است. هر گروه تندرویی که افراطی‌تر شود، شما کمی به سمتش کشیده می‌شوید تا هم‌چنان وسط مانده باشید.

درس گرفتن از اشتباهات

پس انگار این رویکرد که مشاهده کنیم عامل خبره چه کرده و همون رو دقیقاً تکرار کنیم خیلی مواقع جواب نمیده. پس چه کنیم؟

یه دسته دیگه از راهکارها به این سمت میرن که از اشتباهات عامل خبره هم برای یادگیری الگوریتم استفاده کنن.

به نظر من شبکه‌های اجتماعی دیتاست خیلی نامناسبی برای این شیوه از یادگیری هستن، چون به ندرت بهمون یاد میدن که آدما موقع تنهایی، دلمردگی و افسردگی واقعاً چه کار میکنن.

***

در نوشته‌های بعدی (اگه رغبتی داشتم) به این موضوع و سایر راهکارها بیش‌تر خواهم پرداخت. خلاصه این حرف‌ها در چند خط زیر از اسلایدهای سرگئی لوین قابل مشاهده است.



یادگیری تقویتییادگیری ماشینهوش مصنوعیتوسعه فردی
خالق محتوا، کد و هوشمندی!
شاید از این پست‌ها خوشتان بیاید