مدتی پیش یکی از دوستان درباره آینده شغلی و تحصیلی یادگیری تقویتی از من پرسید. پاسخی رو که به ایشون دادم با توضیحات بیشتر در ادامه مطرح میکنم.
حوزه یادگیری تقویتی هنوز نسبتاً نارسه و به همین جهت از سایر دوستان به ویژه شاغلین و پژوهشگران خارج از کشور درخواست میکنم این موارد رو تکمیل/تصحیح بفرمایند.
قبل از هر چیز، باید توجه داشت یادگیری تقویتی کاری فراتر از یافتن الگو در دادههای موجود انجام میده. پس همینطوری یک-هیچ از بقیه روشهای یادگیری ماشین جلوتره!
این پارادایم یادگیری، تصمیمهای نزدیکبهبهینه رو در مسائل مختلف میتونه استخراج کنه، از تخصیص منابع محدود بین یک سری کاربر گرفته (مثلاً تخصیص ماشین مجازی در پردازش ابری) تا حرکتهای یک بازوی رباتیک برای گرفتن یک جسم در دست (لینک برای مطالعه بیشتر).
با این حال، علیرغم تلاشهای فراوانی که انجام شده، الگوریتمهای فعلی هنوز چندان کارآمد نیستن. به همین جهت، یادگیری تقویتی هنوز به صورت صنعتی در ابعاد گسترده مورد استفاده قرار نگرفته. البته نوشتم هنوز، چرا که این وضعیت احتمال داره دیر یا زود تغییر بکنه.
گزاره بالا رو به شکلهای مختلفی میشه صحتسنجی کرد. یک راه، بررسی استارتآپهای مورد توجه هست و این که چند درصد از این استارتآپها از یادگیری تقویتی برای توسعه محصولشون بهره بردن. برای مثال در لیستی که سایت فوربس از 50 استارتآپ برتر سال 2023 منتشر کرده، به نظر نمیرسه یادگیری تقویتی ابزار اصلی هیچ یک از این شرکتها باشه.
با توجه به مورد قبل، به نظرم این تصمیم که وارد حوزه شغلی یادگیری تقویتی بشیم یا نه بستگی به ریسکپذیر بودن ما داره. اگه میزان ریسکپذیریمون پایینه شاید بهتر باشه حوزههای بهترجوابداده مثل تحلیل دیتا یا پردازش تصویر رو دنبال بکنیم.
اما اگه ریسکپذیری بالایی داریم، میتونیم یادگیری تقویتی رو به چشم یک فناوری آیندهدار ببینیم و بریم سراغش. همونطور که الان مدلهای زبانی یه انقلابی رو دارن تجربه میکنن، دیر یا زود ممکنه این اتفاق برای یادگیری تقویتی هم بیفته و خوبه که اون روز موعود ما در متن حادثه باشیم.
یک نکته جانبی: میشه یادگیری تقویتی رو با حوزههای دیگه مثل پردازش متن، یادگیری گراف و ... ترکیب کرد. اینطوری ریسک ورود به این حوزه کاهش پیدا میکنه. برای مثال، یادگیری دادههایی که از جنس گراف هستن (مثل پروئتینها یا شبکههای پیچیده) یه حوزه مستقل محسوب میشه که قابلیت ترکیب شدن با یادگیری تقویتی رو داره. یا چرا راه دور بریم؟ همین مدلهای زبانی مثل چتجیپیتی هم برای بهبود عملکردشون با یادگیری تقویتی آموزش میبینن. اما اگه در نهایت مشخص شد یادگیری تقویتی به درد نمیخوره، میشه همون پردازش گراف یا متن رو ادامه داد و به عبارتی همهی سرمایهگذاری ما هدر نرفته!
همه مواردی که در بالا ذکر شد تمرکز بر شغل و کسب درآمد از یادگیری تقویتی داشت. در حوزه ریسرچ اما، اوضاع خیلی بهتره و من در حال حاضر به همراه یکی از دوستان در حال استفاده از یادگیری تقویتی برای حل مسائل شبکههای بیسیم هستیم (کمکم خبراش میاد!) و البته خبر دارم خیلی از دوستان از این فناوری در حل مسائل رباتیک، فایننس، مدارهای قدرت و کنترل، بهبود عملکرد ورزشکاران و ... دارن بهره میبرن. چاپ مقاله کمترین پاداش این دوستان خواهد بود، و کمک به شکوفایی این پارادایم یادگیری، پاداش بزرگتر که شما هم میتونید در اون سهیم باشید.
یک راه برای بررسی وضعیت این حوزه، مراجعه به پایگاه داده DBLP و بررسی تعداد مقالاتی هست که کلیدواژه یادگیری تقویتی رو دارن (لینک). شکل زیر نتیجه رو برای تاریخ 25 مه 2023 (یعنی وسطای سال 2023) نشون میده.
اگه به یادگیری تقویتی علاقهمند شدین و اگه مشکل زبان ندارید پیشنهاد من، کورس عالی خانم Emma Brunskill از دانشگاه استنفورده (لینک کورس و لینک ویدیوها روی یوتیوب).
یک آموزش فارسی نصفهنیمه هم خودم دارم که دوستان مکتبخونه اینجا در فصل ۵ قرار دادن و به رایگان قابل تماشاست. اما اگه به دنبال یک کورس رسمیتر میگردید میتونید اینجا در کورس علی قندی ثبتنام کنید.
متن رو با یک شعر که از چتجیپیتی خواستم برای Reinforcement Learning بگه به پایان میبرم:
In a world of data and machines, Reinforcement learning reigns supreme.
Rewarding the algorithm's deeds, till better decisions it conceives.