حمیدرضا مازندرانی
حمیدرضا مازندرانی
خواندن ۴ دقیقه·۲ سال پیش

نیم‌نگاهی به آینده شغلی یادگیری تقویتی

مدتی پیش یکی از دوستان درباره آینده شغلی و تحصیلی یادگیری تقویتی از من پرسید. پاسخی رو که به ایشون دادم با توضیحات بیش‌تر در ادامه مطرح می‌کنم.

حوزه یادگیری تقویتی هنوز نسبتاً نارسه و به همین جهت از سایر دوستان به ویژه شاغلین و پژوهشگران خارج از کشور درخواست می‌کنم این موارد رو تکمیل/تصحیح بفرمایند.

فراتر از الگویابی

قبل از هر چیز، باید توجه داشت یادگیری تقویتی کاری فراتر از یافتن الگو در داده‌های موجود انجام میده. پس همین‌طوری یک-هیچ از بقیه روش‌های یادگیری ماشین جلوتره!

این پارادایم یادگیری، تصمیم‌های نزدیک‌به‌بهینه رو در مسائل مختلف میتونه استخراج کنه، از تخصیص منابع محدود بین یک سری کاربر گرفته (مثلاً تخصیص ماشین مجازی در پردازش ابری) تا حرکت‌های یک بازوی رباتیک برای گرفتن یک جسم در دست (لینک برای مطالعه بیشتر).

(everydayrobots.com/thinking: آموزش ربات‌ها برای برداشتن اجسام (مرجع
(everydayrobots.com/thinking: آموزش ربات‌ها برای برداشتن اجسام (مرجع

هنوز نه چندان کارآمد!

با این حال، علی‌رغم تلاش‌های فراوانی که انجام شده، الگوریتم‌های فعلی هنوز چندان کارآمد نیستن. به همین جهت، یادگیری تقویتی هنوز به صورت صنعتی در ابعاد گسترده مورد استفاده قرار نگرفته. البته نوشتم هنوز، چرا که این وضعیت احتمال داره دیر یا زود تغییر بکنه.

گزاره بالا رو به شکل‌های مختلفی میشه صحت‌سنجی کرد. یک راه، بررسی استارت‌آپ‌های مورد توجه هست و این که چند درصد از این استارت‌آپ‌ها از یادگیری تقویتی برای توسعه محصولشون بهره بردن. برای مثال در لیستی که سایت فوربس از 50 استارت‌آپ برتر سال 2023 منتشر کرده، به نظر نمی‌رسه یادگیری تقویتی ابزار اصلی هیچ یک از این شرکت‌ها باشه.

https://www.forbes.com/lists/ai50/

انتخاب ریسک-محور

با توجه به مورد قبل، به نظرم این تصمیم که وارد حوزه شغلی یادگیری تقویتی بشیم یا نه بستگی به ریسک‌پذیر بودن ما داره. اگه میزان ریسک‌پذیری‌مون پایینه شاید بهتر باشه حوزه‌های بهترجواب‌داده مثل تحلیل دیتا یا پردازش تصویر رو دنبال بکنیم.

اما اگه ریسک‌پذیری بالایی داریم، می‌تونیم یادگیری تقویتی رو به چشم یک فناوری آینده‌دار ببینیم و بریم سراغش. همون‌طور که الان مدل‌های زبانی یه انقلابی رو دارن تجربه میکنن، دیر یا زود ممکنه این اتفاق برای یادگیری تقویتی هم بیفته و خوبه که اون روز موعود ما در متن حادثه باشیم.

یک نکته جانبی: میشه یادگیری تقویتی رو با حوزه‌های دیگه مثل پردازش متن، یادگیری گراف و ... ترکیب کرد. اینطوری ریسک ورود به این حوزه کاهش پیدا میکنه. برای مثال، یادگیری داده‌هایی که از جنس گراف هستن (مثل پروئتین‌ها یا شبکه‌های پیچیده) یه حوزه مستقل محسوب میشه که قابلیت ترکیب شدن با یادگیری تقویتی رو داره. یا چرا راه دور بریم؟ همین مدل‌های زبانی مثل چت‌جی‌پی‌تی هم برای بهبود عملکردشون با یادگیری تقویتی آموزش می‌بینن. اما اگه در نهایت مشخص شد یادگیری تقویتی به درد نمی‌خوره، میشه همون پردازش گراف یا متن رو ادامه داد و به عبارتی همه‌ی سرمایه‌گذاری ما هدر نرفته!

پژوهش

همه مواردی که در بالا ذکر شد تمرکز بر شغل و کسب درآمد از یادگیری تقویتی داشت. در حوزه ریسرچ اما، اوضاع خیلی بهتره و من در حال حاضر به همراه یکی از دوستان در حال استفاده از یادگیری تقویتی برای حل مسائل شبکه‌های بیسیم هستیم (کم‌کم خبراش میاد!) و البته خبر دارم خیلی از دوستان از این فناوری در حل مسائل رباتیک، فایننس، مدارهای قدرت و کنترل، بهبود عملکرد ورزشکاران و ... دارن بهره میبرن. چاپ مقاله کمترین پاداش این دوستان خواهد بود، و کمک به شکوفایی این پارادایم یادگیری، پاداش بزرگ‌تر که شما هم می‌تونید در اون سهیم باشید.

یک راه برای بررسی وضعیت این حوزه، مراجعه به پایگاه داده DBLP و بررسی تعداد مقالاتی هست که کلیدواژه یادگیری تقویتی رو دارن (لینک). شکل زیر نتیجه رو برای تاریخ 25 مه 2023 (یعنی وسطای سال 2023) نشون میده.

رشد تعداد مقالات با کلیدواژه یادگیری تقویتی
رشد تعداد مقالات با کلیدواژه یادگیری تقویتی

از کجا شروع کنیم؟

اگه به یادگیری تقویتی علاقه‌مند شدین و اگه مشکل زبان ندارید پیشنهاد من، کورس عالی خانم Emma Brunskill از دانشگاه استنفورده (لینک کورس و لینک ویدیوها روی یوتیوب).

یک آموزش فارسی نصفه‌نیمه هم خودم دارم که دوستان مکتب‌خونه اینجا در فصل ۵ قرار دادن و به رایگان قابل تماشاست. اما اگه به دنبال یک کورس رسمی‌تر می‌گردید می‌تونید اینجا در کورس علی قندی ثبت‌نام کنید.

https://web.stanford.edu/class/cs234/

سخن آخر

متن رو با یک شعر که از چت‌جی‌پی‌تی خواستم برای Reinforcement Learning بگه به پایان می‌برم:

In a world of data and machines, Reinforcement learning reigns supreme.
Rewarding the algorithm's deeds, till better decisions it conceives.
یادگیری تقویتیهوش مصنوعییادگیری ماشینشغلمسیر شغلی
خالق محتوا، کد و هوشمندی!
شاید از این پست‌ها خوشتان بیاید