خواندن ۴ دقیقه·۵ سال پیش

تفاوت یادگیری تقویتی با نظارتی و غیر نظارتی

از کاربرد های یادگیری تقویتی در خودرو های خودران است

مقدمه

یکی از نخستین مطالبی که در مسیر فراگیری «یادگیری ماشین» باهاش مواجه میشیم ، تقسیم‌بندی روش های یادگیری ماشین به یادگیری نظارتی ، یادگیری غیر نظارتی و یادگیری تقویتی هست ، تفاوت دو دسته‌ی اول معمولاً به سادگی درک میشه ، اما اینکه چرا یک دسته‌ی سومی داریم و یادگیری تقویتی نه نظارتی تلقی میشه و نه غیر نظارتی ، معمولاً خوب هضم نمیشه و در مصاحبه های شغلی هم اتفاقاً به شدت پرسیده میشه . در این مطلب سعی می‌کنیم ابتدا به صورت بسیار گذرا نگاهی به تعریف اصطلاحات مهم در یادگیری ماشین بکنیم، بعد کمی عمیق‌تر (اما نه خیلی) وارد یادگیری تقویتی میشیم و در نهایت به این سوال پاسخ میدیم که
چرا یادگیری تقویتی در هیچ‌یک از دسته های نظارتی و غیر نظارتی نیست و یک دسته‌بندی جدا به حساب میاد .

تعاریف

یادگیری ماشین : دانش و مهارت قادر کردن رایانه ها به انجام کاری ، بدون شرح دقیق چگونگی انجام کار مزبور ( به عبارتی همون طور که کسی به ما یاد نداد جمله ها رو دقیقاً چطور کنار هم بگذاریم تا حرف بزنیم و خودمون به مرور زمان یاد گرفتیم ، این بار میخوایم رایانه ها کار هایی نظیر تشخیص چهره رو انجام بدن بدون اینکه دقیقاً بهشون بگیم چطور انجام بدن، چون خودمون هم نمیدونم :) )

یادگیری نظارتی: دسته ای از تکنیک های یادگیری ماشین ، که در اون مجموعه‌ای از داده ها که هر قلم داده یک برچسب معین داره به ماشین داده میشه (مثلا چهره‌ی افراد به عنوان قلم داده و اسم فرد به عنوان برچسب) و در اون به دنبال یافتن تابعی هستیم که داده های ما رو نگاشت کنه به برچسب مورد نظر .
مثال هایی از یادگیری نظارتی

دسته‌بندی متن : این ایمیل هرزنامه است؟
مسائل رگرسیون: پیش‌بینی روند قیمت سهام
آنالیز معنا : این دیدگاه خرید محصول را توصیه می‌کند یا نه؟

یادگیری غیرنظارتی : دسته ای از تکنیک های یادگیری ماشین ، که در اون دادگان ورودی فاقد برچسب هستند و به دنبال این هستیم که ماشین با استفاده از صفات داده ها ، به هر کدوم برچسبی تخصیص بده ، به‌طوری که داده های شبیه تر در یک بر چسب(گروه) قرار بگیرند

یادگیری تقویتی : در یادگیری تقویتی به دنبال این هستیم که عاملی که در یک محیط از مشاهدات ، اعمالی انجام میده و در ازای اون ، ضمن تغییر وضعیت محیط مشاهده شده، پاداشی کسب میکنه ، بتونه بیشترین پاداش رو بدست بیاره ، به عنوان مثال یک ربات معامله‌گر در بازار سهام بتونه بیشترین مقدار سود رو بدست بیاره

تشریح یادگیری تقویتی

موشی رو در یک هزارتو در نظر بگیرید که تلاش در یافتن 3 پنیر پنهان در این هزار تو رو داره ، بدیهیه با پیدا کردن هر سه پنیر ماموریت موش تمام میشه ، اما در طول مسیر تله های الکتریکی وجود دارد که موش تا حد امکان باید از اون ها دوری کنه . تعاریف یادگیری تقویتی در اینجا مرور می‌کنیم

محیط: هزارتویی که موش در اون به دنبال یافتن پنیر هاست(دقت کنید موش فقط قادر به مشاهده جداره های اطرافش هست و کل مسیر رو نمیشناسه)
وضعیت : مشاهدات موش از دنیای اطرافش که با هر حرکت موش تغییر میکنه (مثلا با رفتن به سمت تله‌ی بالایی ، جداره‌ی چپ از دید مشاهده گر بالا ، برای موش باز میشه)
عامل : موش
اعمال: یک حرکت در یکی از سو های بالا ، پایین ، چپ و راست
پاداش : کمیتی که با هر حرکت به موش مرتبط میشه و موش باید حرکاتی رو انجام بده که اون رو بیشینه کنه

در مثال بالا ، موش با برخورد به هر تله میمیره و بازی به پایان میرسه ، در خلال بازی ، با هر حرکت ، اگر به پنیر برسه بهش پاداش داده میشه ، موش باید یادبگیره چطور در یک بازی پاداش رو بیشینه کنه (بطور مترادف بدون برخورد به تله ، هر سه پنیر رو پیدا کنه)

دسته‌بندی مجزا از نظارتی و غیرنظارتی

محیط کلی قابل برچسب‌گذاری به به «خوب» یا «بد» نیست ، هیچ ناظری قادر به برچسب‌گذاری محیط در همه‌ی وضعیت ها برای تقسیم‌بندی نیست ، بنابراین در مسئله‌ی یافتن پنیر ها در هزارتو ، عامل در معرض اطلاعات تدریجی است و بر خلاف اقلام یادگیری نظارتی ، برچسب صریحی به همه‌ی وضعیت های محیط قابل تخصیص نیست .

از سوی دیگر ، برخلاف مسائل یادگیری غیر نظارتی ، کاملاً نسبت به محیط کور نیستیم . هر چند قادر به دسته‌بندی خوب و بد بودن برای همه‌ی وضعیت ها نیستیم ، اما می‌دونیم ، برخورد با تله یک وضعیت «بد» و یافتن پنیر یک وضعیت «خوب» هست . به عبارتی ، با انجام عمل ، سازوکار پاداش اطلاعاتی در مورد محیط به ما می‌دهد و بر خلاف مسائل غیر نظارتی ، یک ارزیابی جزئی نسبت به برخی وضعیت ها می‌تونیم بدست بیاریم .

جمع‌بندی

در مسائل یادگیری نظارتی ، قادر به برچسب گذاری اقلام داده هستیم ، همه‌‌ی دیدگاه ها قابل تقسیم بندی به «مثبت» و «منفی» است ، در مسائل یادگیری غیر نظارتی ، تخصیص برچسب به وضعیت قابل انجام نیست ، مسائل یادگیری تقویتی ، به سبب برچسب ناپذیر نبودن کل وضعیت های محتمل برای محیط ، در دسته‌ی نظارتی جای نمیگیرند و به سبب برخوردار بودن از سازوکار پاداش ، بر خلاف مسائل غیرنظارتی ، کاملاً کورکورانه نیستند ، بنابراین ، یادگیری تقویتی ، دسته‌ی سومی از مسائل یادگیری ماشین است و جزء هیچ یک از دو دسته‌ی فوق نیست .

یادگیری ماشینیادگیری عمیقهوش مصنوعی

مسعود مقینی

مهندس نرم افزار و پژوهشگر یادگیری ماشین ، کتاب های مربوط به اقتصاد و سیاست رو در زمان آزاد مطالعه میکنم و مشتاقم راجع به اصول تامین مالی استارت آپ ها و خلق ارزش افزوده بیشتر یاد بگیرم

شاید از این پست‌ها خوشتان بیاید

مسعود مقینی

خواندن ۴ دقیقه·۵ سال پیش

تفاوت یادگیری تقویتی با نظارتی و غیر نظارتی

مقدمه

تعاریف

دسته‌بندی متن : این ایمیل هرزنامه است؟
مسائل رگرسیون: پیش‌بینی روند قیمت سهام
آنالیز معنا : این دیدگاه خرید محصول را توصیه می‌کند یا نه؟

تشریح یادگیری تقویتی

دسته‌بندی مجزا از نظارتی و غیرنظارتی

جمع‌بندی

یادگیری ماشینیادگیری عمیقهوش مصنوعی

مسعود مقینی

شاید از این پست‌ها خوشتان بیاید