رویکردهای یادگیری ماشین (بخش اول - یادگیری با نظارت)

در مطلب قبلی به معرفی ساده یادگیری ماشین پرداخته شد. به صورت خلاصه و آنچه گذشت وار بخواهیم بگوییم، یادگیری ماشین در واقع برنامه‌ای است که توانایی یادگیری و کشف الگوی بین مجموعه‌ای از اطلاعات به صورت مستقیم به کامپیوترها با استفاده از روابط ریاضی و مفاهیم آماری است را اعطا می‌کند. که روند یادگیری آن را اگر بخاطر داشته باشیم، مانند کودکی که در حال یادگیری شکل‌های مختلف هندسی براساس نمونه‌هایی است که در اختیار دارد که به برنامه آموزش داده شده در واقع مدل (یا مدل یادگیری) می‌گویند.

اما در این مطلب قصد داریم گامی فراتر گذاشته و به بیان و معرفی رویکردهای مختلف این علم رایانه بپردازیم.

در بعضی از منابع رویکردهای یادگیری ماشین را به سه دسته و برخی دیگر به چهاردسته اصلی تقسیم می‌کنند. ما در اینجا از همان چهاردسته استفاده می‌کنیم که می‌توانیم به دسته‌های زیر اشاره کنیم:

  • (Supervised Learning) یادگیری با نظارت

  • (Unsupervised Learning) یادگیری بدون نظارت

  • (Semi-Supervised Learning) یادگیری نیمه نظارت شده

  • (Reinforcement Learning) یادگیری تقویتی

در این مطلب تنها به معرفی یادگیری با نظارت خواهیم پرداخت.

یادگیری با نظارت

برای درک بهتر ابتدا دوباره به سراغ همان مسئله کودک و یادگیری شکل‌های هندسی می‌رویم.

فرض کنید نمونه‌های زیادی از شکل‌های هندسی مانند مثلث، دایره، مربع و مستطیل را به کودک خود نمایش دهیم. اگر به کودک خود بگوییم هر شکل در واقع از چه دسته‌ای است. مثلا شکل الف، یک مثلث است یا شکل ب، یک مربع است. در واقع برای هر نمونه یک برچسب گذاشته‌ایم و در روند یادگیری کودک او را راهنمایی کرده‌ایم که الگوی داده‌ها را تشخیص داده و بتواند نمونه‌ها دسته‌بندی کند. به این صورت اگر نمونه جدیدی به او بدهیم، به راحتی می‌تواند تشخیص دهد نمونه جدید از کدام دسته است، دسته مثلث‌ها؟ یا مربع‌ها؟ یا دگیر شکل‌های هندسی.

پس به صورت کلی می‌توانیم بیان کنیم هرگاه در عملیات یادگیری خود داده‌هایی با برچسب به رایانه یا به صورت دقیق‌تر الگوریتم یادگیری می‌دهیم دارای برچسب باشد، آنگاه آن رویکرد یادگیری با نظارت است چراکه به صورت دقیق به الگوریتم گفته می‌شود چه چیزی را فرا بگیرد.

یادگیری با نظارت خود به دو دسته تقسیم می‌شود:

  • (Classification) دسته‌بندی

  • (Regression) رگرسیون

دسته‌بندی:

مثال بیان شده یک مسئله دسته‌بندی در یادگیری با نظارت را بیان می‌کند. در این مسائل الگوریتم یا مدل یادگیری به صورت دقیق به دنبال رابطه یا فرمولی است که بتواند دسته داده‌ها را تشخیص دهد. به عنوان مثال دسته‌بندی تصاویر پزشکی مربوط به سرطان را می‌توان به دو دسته مثبت (تصاویر پزشکی که نشان دهنده ابتلای به سرطان هستند) و منفی (تصاویری که نشانه‌ای از سرطان در فرد مشکوک به سرطان نیست) یک مسئله دسته‌بندی است.

رگرسیون:

در مسائل رگرسیون مدل یادگیری به دنبال تخمین زدن یک مقدار عددی پیوسته است. مثلا تخمین قیمت یک منزل براساس ویژگی‌های آن از این نوع دسته است. به عنوان مثال یک منزل ویلایی در خیابان آزادی، دارای دو خواب، حیاط پارکینگ دار و متراژ ۱۰۰ متر حدودا ۵,۰۰۰,۰۰۰,۰۰۰ است. این یعنی رگرسیون و مسئله مقدار پیوسته.