در هنگام مطالعه یادگیری تقویتی، این سوال احتمالاً به ذهنمون رسیده که آیا نمیشه عامل (agent) خودمون رو به صورت نظارتشده (supervised) از روی یک عامل خِبره (expert) آموزش بدیم؟ مثلاً با تصاویری که از یک راننده انسانی گرفته شده، یک خودروی خودران رو به حرکت در بیاریم؟
جناب سرگئی لوین به تفصیل پاسخ میده چرا این کار به طور کلی نشدنیه یا چالشهای اساسی داره. در واقع علت اصلی اینه که با اندکی اشتباه، ما وارد حالتهایی میشیم که عامل خبره پاسخی واسش نداره.
اگه بخواهیم پلی بزنیم به روانشناسی، آدام گرنت در کتاب توانمندیهای نهان میگه که:
این طور نیست که اطلاعات به راحتی در مغز دیگران نشسته و منتظر استخراج شدن از سوی ما باشند. ... هدف از کمک گرفتن از راهنمایان، پیروی کورکورانه از توصیههای آنان نیست بلکه ترسیم مسیری احتمالی برای واکاوی همراه با هم است.
فرض کنید تصمیم دارید یک معاملهگر هوشمند رو بر اساس تاریخچه معاملات بهترین تریدرها آموزش بدین، تا بیهیچ اشتباهی از اونا تقلید کنه.
اما چرا این کار یعنی تقلیدِ تمام و کمال از عامل خِبره -چه برای هوش طبیعی چه مصنوعی- سخت یا نشدنیه؟
یک دلیل مهم اینه که عامل خبره معمولاً فاکتورهای دیگهای رو هم در تصمیمات خودش لحاظ میکنه. در همین مثال بالا، ممکنه معاملهگر تصمیمات قبلی خودش رو هم در نظر بگیره مثلاً اگه روز گذشته سهام زیادی خریده امروز دست نگه داره.
خب در پاسخ میشه گفت همه عوامل احتمالی رو در ورودی مدل قرار بدیم. حتی اگه چنین امکانی فراهم باشه، معلوم نیست مدل بتونه روابط علت و معلولی رو درست شناسایی کنه. چند نفر رو میشناسیم که فکر میکنن مشغله زیادی داشتن یعنی موفقیت؟
اما این تنها دلیلی نیست که یادگیری تقلید رو دشوار میکنه. در ادامه یک دلیل دیگه رو هم میگم.
گاهی عامل خبره در هنگام تصمیمگیری یکی از دو سر طیف رو انتخاب میکنه. برای مثال یک راننده در هنگام مواجهه با یه مانع به سمت راست میپیچه یا به سمت چپ. اما مدلی که از این راننده الگوبرداری میکنه، اگه میانگین تصمیمات رو در نظر بگیره عاقبتی جز برخورد با مانع نخواهد داشت.
محمدرضا شعبانعلی پیرامون این نوع نگاه به سیاست چنین نوشته:
... در [میانهروی]، دغدغهٔ شما «حق» نیست. بلکه صرفاً پیدا کردن نقطهٔ وسط است. هر گروه تندرویی که افراطیتر شود، شما کمی به سمتش کشیده میشوید تا همچنان وسط مانده باشید.
پس انگار این رویکرد که مشاهده کنیم عامل خبره چه کرده و همون رو دقیقاً تکرار کنیم خیلی مواقع جواب نمیده. پس چه کنیم؟
یه دسته دیگه از راهکارها به این سمت میرن که از اشتباهات عامل خبره هم برای یادگیری الگوریتم استفاده کنن.
به نظر من شبکههای اجتماعی دیتاست خیلی نامناسبی برای این شیوه از یادگیری هستن، چون به ندرت بهمون یاد میدن که آدما موقع تنهایی، دلمردگی و افسردگی واقعاً چه کار میکنن.
***
در نوشتههای بعدی (اگه رغبتی داشتم) به این موضوع و سایر راهکارها بیشتر خواهم پرداخت. خلاصه این حرفها در چند خط زیر از اسلایدهای سرگئی لوین قابل مشاهده است.