مسعود مقینی
مسعود مقینی
خواندن ۴ دقیقه·۴ سال پیش

تفاوت یادگیری تقویتی با نظارتی و غیر نظارتی

از کاربرد های یادگیری تقویتی در خودرو های خودران است
از کاربرد های یادگیری تقویتی در خودرو های خودران است

مقدمه

یکی از نخستین مطالبی که در مسیر فراگیری «یادگیری ماشین» باهاش مواجه میشیم ، تقسیم‌بندی روش های یادگیری ماشین به یادگیری نظارتی ، یادگیری غیر نظارتی و یادگیری تقویتی هست ، تفاوت دو دسته‌ی اول معمولاً به سادگی درک میشه ، اما اینکه چرا یک دسته‌ی سومی داریم و یادگیری تقویتی نه نظارتی تلقی میشه و نه غیر نظارتی ، معمولاً خوب هضم نمیشه و در مصاحبه های شغلی هم اتفاقاً به شدت پرسیده میشه . در این مطلب سعی می‌کنیم ابتدا به صورت بسیار گذرا نگاهی به تعریف اصطلاحات مهم در یادگیری ماشین بکنیم، بعد کمی عمیق‌تر (اما نه خیلی) وارد یادگیری تقویتی میشیم و در نهایت به این سوال پاسخ میدیم که
چرا یادگیری تقویتی در هیچ‌یک از دسته های نظارتی و غیر نظارتی نیست و یک دسته‌بندی جدا به حساب میاد .

تعاریف

یادگیری ماشین : دانش و مهارت قادر کردن رایانه ها به انجام کاری ، بدون شرح دقیق چگونگی انجام کار مزبور ( به عبارتی همون طور که کسی به ما یاد نداد جمله ها رو دقیقاً چطور کنار هم بگذاریم تا حرف بزنیم و خودمون به مرور زمان یاد گرفتیم ، این بار میخوایم رایانه ها کار هایی نظیر تشخیص چهره رو انجام بدن بدون اینکه دقیقاً بهشون بگیم چطور انجام بدن، چون خودمون هم نمیدونم :) )

یادگیری نظارتی: دسته ای از تکنیک های یادگیری ماشین ، که در اون مجموعه‌ای از داده ها که هر قلم داده یک برچسب معین داره به ماشین داده میشه (مثلا چهره‌ی افراد به عنوان قلم داده و اسم فرد به عنوان برچسب) و در اون به دنبال یافتن تابعی هستیم که داده های ما رو نگاشت کنه به برچسب مورد نظر .
مثال هایی از یادگیری نظارتی

  • دسته‌بندی متن : این ایمیل هرزنامه است؟
  • مسائل رگرسیون: پیش‌بینی روند قیمت سهام
  • آنالیز معنا : این دیدگاه خرید محصول را توصیه می‌کند یا نه؟

یادگیری غیرنظارتی : دسته ای از تکنیک های یادگیری ماشین ، که در اون دادگان ورودی فاقد برچسب هستند و به دنبال این هستیم که ماشین با استفاده از صفات داده ها ، به هر کدوم برچسبی تخصیص بده ، به‌طوری که داده های شبیه تر در یک بر چسب(گروه) قرار بگیرند

یادگیری تقویتی : در یادگیری تقویتی به دنبال این هستیم که عاملی که در یک محیط از مشاهدات ، اعمالی انجام میده و در ازای اون ، ضمن تغییر وضعیت محیط مشاهده شده، پاداشی کسب میکنه ، بتونه بیشترین پاداش رو بدست بیاره ، به عنوان مثال یک ربات معامله‌گر در بازار سهام بتونه بیشترین مقدار سود رو بدست بیاره

تشریح یادگیری تقویتی

موشی رو در یک هزارتو در نظر بگیرید که تلاش در یافتن 3 پنیر پنهان در این هزار تو رو داره ، بدیهیه با پیدا کردن هر سه پنیر ماموریت موش تمام میشه ، اما در طول مسیر تله های الکتریکی وجود دارد که موش تا حد امکان باید از اون ها دوری کنه . تعاریف یادگیری تقویتی در اینجا مرور می‌کنیم

هزارتوی موش
هزارتوی موش

محیط: هزارتویی که موش در اون به دنبال یافتن پنیر هاست(دقت کنید موش فقط قادر به مشاهده جداره های اطرافش هست و کل مسیر رو نمیشناسه)
وضعیت : مشاهدات موش از دنیای اطرافش که با هر حرکت موش تغییر میکنه (مثلا با رفتن به سمت تله‌ی بالایی ، جداره‌ی چپ از دید مشاهده گر بالا ، برای موش باز میشه)
عامل : موش
اعمال: یک حرکت در یکی از سو های بالا ، پایین ، چپ و راست
پاداش : کمیتی که با هر حرکت به موش مرتبط میشه و موش باید حرکاتی رو انجام بده که اون رو بیشینه کنه

در مثال بالا ، موش با برخورد به هر تله میمیره و بازی به پایان میرسه ، در خلال بازی ، با هر حرکت ، اگر به پنیر برسه بهش پاداش داده میشه ، موش باید یادبگیره چطور در یک بازی پاداش رو بیشینه کنه (بطور مترادف بدون برخورد به تله ، هر سه پنیر رو پیدا کنه)

دسته‌بندی مجزا از نظارتی و غیرنظارتی

محیط کلی قابل برچسب‌گذاری به به «خوب» یا «بد» نیست ، هیچ ناظری قادر به برچسب‌گذاری محیط در همه‌ی وضعیت ها برای تقسیم‌بندی نیست ، بنابراین در مسئله‌ی یافتن پنیر ها در هزارتو ، عامل در معرض اطلاعات تدریجی است و بر خلاف اقلام یادگیری نظارتی ، برچسب صریحی به همه‌ی وضعیت های محیط قابل تخصیص نیست .

از سوی دیگر ، برخلاف مسائل یادگیری غیر نظارتی ، کاملاً نسبت به محیط کور نیستیم . هر چند قادر به دسته‌بندی خوب و بد بودن برای همه‌ی وضعیت ها نیستیم ، اما می‌دونیم ، برخورد با تله یک وضعیت «بد» و یافتن پنیر یک وضعیت «خوب» هست . به عبارتی ، با انجام عمل ، سازوکار پاداش اطلاعاتی در مورد محیط به ما می‌دهد و بر خلاف مسائل غیر نظارتی ، یک ارزیابی جزئی نسبت به برخی وضعیت ها می‌تونیم بدست بیاریم .

جمع‌بندی

در مسائل یادگیری نظارتی ، قادر به برچسب گذاری اقلام داده هستیم ، همه‌‌ی دیدگاه ها قابل تقسیم بندی به «مثبت» و «منفی» است ، در مسائل یادگیری غیر نظارتی ، تخصیص برچسب به وضعیت قابل انجام نیست ، مسائل یادگیری تقویتی ، به سبب برچسب ناپذیر نبودن کل وضعیت های محتمل برای محیط ، در دسته‌ی نظارتی جای نمیگیرند و به سبب برخوردار بودن از سازوکار پاداش ، بر خلاف مسائل غیرنظارتی ، کاملاً کورکورانه نیستند ، بنابراین ، یادگیری تقویتی ، دسته‌ی سومی از مسائل یادگیری ماشین است و جزء هیچ یک از دو دسته‌ی فوق نیست .


یادگیری ماشینیادگیری عمیقهوش مصنوعی
مهندس نرم افزار و پژوهشگر یادگیری ماشین ، کتاب های مربوط به اقتصاد و سیاست رو در زمان آزاد مطالعه میکنم و مشتاقم راجع به اصول تامین مالی استارت آپ ها و خلق ارزش افزوده بیشتر یاد بگیرم
شاید از این پست‌ها خوشتان بیاید