یکی از نخستین مطالبی که در مسیر فراگیری «یادگیری ماشین» باهاش مواجه میشیم ، تقسیمبندی روش های یادگیری ماشین به یادگیری نظارتی ، یادگیری غیر نظارتی و یادگیری تقویتی هست ، تفاوت دو دستهی اول معمولاً به سادگی درک میشه ، اما اینکه چرا یک دستهی سومی داریم و یادگیری تقویتی نه نظارتی تلقی میشه و نه غیر نظارتی ، معمولاً خوب هضم نمیشه و در مصاحبه های شغلی هم اتفاقاً به شدت پرسیده میشه . در این مطلب سعی میکنیم ابتدا به صورت بسیار گذرا نگاهی به تعریف اصطلاحات مهم در یادگیری ماشین بکنیم، بعد کمی عمیقتر (اما نه خیلی) وارد یادگیری تقویتی میشیم و در نهایت به این سوال پاسخ میدیم که
چرا یادگیری تقویتی در هیچیک از دسته های نظارتی و غیر نظارتی نیست و یک دستهبندی جدا به حساب میاد .
یادگیری ماشین : دانش و مهارت قادر کردن رایانه ها به انجام کاری ، بدون شرح دقیق چگونگی انجام کار مزبور ( به عبارتی همون طور که کسی به ما یاد نداد جمله ها رو دقیقاً چطور کنار هم بگذاریم تا حرف بزنیم و خودمون به مرور زمان یاد گرفتیم ، این بار میخوایم رایانه ها کار هایی نظیر تشخیص چهره رو انجام بدن بدون اینکه دقیقاً بهشون بگیم چطور انجام بدن، چون خودمون هم نمیدونم :) )
یادگیری نظارتی: دسته ای از تکنیک های یادگیری ماشین ، که در اون مجموعهای از داده ها که هر قلم داده یک برچسب معین داره به ماشین داده میشه (مثلا چهرهی افراد به عنوان قلم داده و اسم فرد به عنوان برچسب) و در اون به دنبال یافتن تابعی هستیم که داده های ما رو نگاشت کنه به برچسب مورد نظر .
مثال هایی از یادگیری نظارتی
یادگیری غیرنظارتی : دسته ای از تکنیک های یادگیری ماشین ، که در اون دادگان ورودی فاقد برچسب هستند و به دنبال این هستیم که ماشین با استفاده از صفات داده ها ، به هر کدوم برچسبی تخصیص بده ، بهطوری که داده های شبیه تر در یک بر چسب(گروه) قرار بگیرند
یادگیری تقویتی : در یادگیری تقویتی به دنبال این هستیم که عاملی که در یک محیط از مشاهدات ، اعمالی انجام میده و در ازای اون ، ضمن تغییر وضعیت محیط مشاهده شده، پاداشی کسب میکنه ، بتونه بیشترین پاداش رو بدست بیاره ، به عنوان مثال یک ربات معاملهگر در بازار سهام بتونه بیشترین مقدار سود رو بدست بیاره
موشی رو در یک هزارتو در نظر بگیرید که تلاش در یافتن 3 پنیر پنهان در این هزار تو رو داره ، بدیهیه با پیدا کردن هر سه پنیر ماموریت موش تمام میشه ، اما در طول مسیر تله های الکتریکی وجود دارد که موش تا حد امکان باید از اون ها دوری کنه . تعاریف یادگیری تقویتی در اینجا مرور میکنیم
محیط: هزارتویی که موش در اون به دنبال یافتن پنیر هاست(دقت کنید موش فقط قادر به مشاهده جداره های اطرافش هست و کل مسیر رو نمیشناسه)
وضعیت : مشاهدات موش از دنیای اطرافش که با هر حرکت موش تغییر میکنه (مثلا با رفتن به سمت تلهی بالایی ، جدارهی چپ از دید مشاهده گر بالا ، برای موش باز میشه)
عامل : موش
اعمال: یک حرکت در یکی از سو های بالا ، پایین ، چپ و راست
پاداش : کمیتی که با هر حرکت به موش مرتبط میشه و موش باید حرکاتی رو انجام بده که اون رو بیشینه کنه
در مثال بالا ، موش با برخورد به هر تله میمیره و بازی به پایان میرسه ، در خلال بازی ، با هر حرکت ، اگر به پنیر برسه بهش پاداش داده میشه ، موش باید یادبگیره چطور در یک بازی پاداش رو بیشینه کنه (بطور مترادف بدون برخورد به تله ، هر سه پنیر رو پیدا کنه)
محیط کلی قابل برچسبگذاری به به «خوب» یا «بد» نیست ، هیچ ناظری قادر به برچسبگذاری محیط در همهی وضعیت ها برای تقسیمبندی نیست ، بنابراین در مسئلهی یافتن پنیر ها در هزارتو ، عامل در معرض اطلاعات تدریجی است و بر خلاف اقلام یادگیری نظارتی ، برچسب صریحی به همهی وضعیت های محیط قابل تخصیص نیست .
از سوی دیگر ، برخلاف مسائل یادگیری غیر نظارتی ، کاملاً نسبت به محیط کور نیستیم . هر چند قادر به دستهبندی خوب و بد بودن برای همهی وضعیت ها نیستیم ، اما میدونیم ، برخورد با تله یک وضعیت «بد» و یافتن پنیر یک وضعیت «خوب» هست . به عبارتی ، با انجام عمل ، سازوکار پاداش اطلاعاتی در مورد محیط به ما میدهد و بر خلاف مسائل غیر نظارتی ، یک ارزیابی جزئی نسبت به برخی وضعیت ها میتونیم بدست بیاریم .
در مسائل یادگیری نظارتی ، قادر به برچسب گذاری اقلام داده هستیم ، همهی دیدگاه ها قابل تقسیم بندی به «مثبت» و «منفی» است ، در مسائل یادگیری غیر نظارتی ، تخصیص برچسب به وضعیت قابل انجام نیست ، مسائل یادگیری تقویتی ، به سبب برچسب ناپذیر نبودن کل وضعیت های محتمل برای محیط ، در دستهی نظارتی جای نمیگیرند و به سبب برخوردار بودن از سازوکار پاداش ، بر خلاف مسائل غیرنظارتی ، کاملاً کورکورانه نیستند ، بنابراین ، یادگیری تقویتی ، دستهی سومی از مسائل یادگیری ماشین است و جزء هیچ یک از دو دستهی فوق نیست .