بنیانگذار مدرسه بیگ دیتا
یادگیری نظارتی یا همون Supervised Learning
به دلیل علاقه به بحث یادگیری ماشین دوست داشتم این مطلب رو اینجا بزارم گفتم شاید بدک نباشه. مباحث هم اول از همه با بحث یادگیری نظارتی شروع میشه.
در یادگیری نظارتی ما یه دیتاست داریم و کاملا میدونیم خروجی ما چه شکلی و شمایلی هست.
مسائل مرتبط با SL به دوسته مسائل طبقه بندی و رگرسیون تقسیم بندی میشن. تو مسائل رگرسیون ما تلاش می کنیم تا نتیجه رو که بصورت یک خروجی پیوسته هست پیش بینی کنیم به این صورت که ما قصد داریم متغیرهای ورودی مون رو به یه سری تابع پیوسته نگاشت بدیم. اما تو مسائل طبقه بندی ما در تلاش هستیم تا نتیجه رو که بصورت یک خروجی گسسته هست پیش بینی کنیم. بعبارت بهتر ما قصد داریم متغیرهای ورودی مون رو به یک سری دسته های گسسته نگاشت بدیم.
منظور از مدل در یادگیری ماشین الگوریتمی است که مناسب مساله ما می باشد.
مسائل مرتبط با SL به دوسته مسائل طبقه بندی و رگرسیون تقسیم بندی میشن. تو مسائل رگرسیون ما تلاش می کنیم تا نتیجه رو که بصورت یک خروجی پیوسته هست پیش بینی کنیم به این صورت که ما قصد داریم متغیرهای ورودی مون رو به یه سری تابع پیوسته نگاشت بدیم. اما تو مسائل طبقه بندی ما در تلاش هستیم تا نتیجه رو که بصورت یک خروجی گسسته هست پیش بینی کنیم. بعبارت بهتر ما قصد داریم متغیرهای ورودی مون رو به یک سری دسته های گسسته نگاشت بدیم.ن
مثال الف :
یه سری دیتا راجع به متراژ کلی چند تا سالن فوتسال داریم و قصد داریم بر اساس متراژ کلی مجموعه ورزشی قیمت اون رو پیش بینی کنیم. قیمت به عنوان تابعی از متراژ یه خروجی پیوسته هستش پس این یه نوع مساله رگرسیون هست. حالا وظیفه ما چی هست ؟ ما باید با استفاده از دیتاستی که داریم یه مدل یادگیری ماشینی بسازیم که بتونه قیمت رو بر اساس متراژ پیش بینی کنه. فرض کنیم دیتاستمون این تیپی هستش :
اگر مجموعه داده های ما مثلا 1000000 سطر باشد پس در این صورت ما 1000000 داده آموزشی داریم
خب تا اینجا فرض بر این است ما داده آموزشی رو داریم و داده آموزشی رو به عنوان خوراک به الگوریتم یادگیری ماشین پاس میدیم. پس الگوریتم از روی داده ها یادگیری خود را شروع می کند و تابعی را مشخص می کند که با دریافت متراژ مجموعه ورزشی قیمت آنرا پیش بینی کند. از این تابع با نام hypothesis یاد می شود.
حتی ما می تونیم این مساله رو یه نوع مساله دسته بندی در نظر بگیریم به این صورت که خروجی مون رو اینطور تعیین کنیم : "سالن فوتسال بر اساس قیمتی بیشتر یا کمتر از قیمت پیشنهادی تعیین شده به فروش می رسد یا خیر ؟! ". در این صورت ما سالن های فوتسال رو بر اساس قیمت پیشنهادی به دو دسته گسسته و مجزی تقسیم می کنیم.
اصطلاح رگرسیون یعنی ما قصد داریم عددی حقیقی یعنی قیمت را پیشنهاد کنیم.
تو رگرسیون فرض ما برا ین است که یه رابطه خطی بین ورودی ها و خروجی های ما برقرار هستش. به این صورت که خروجی ما که تو اینجا قیمت هست می تونه بر اساس یه سری ترکیبات خطی از ورودی های که ما که در اینجا متراژ هست محاسبه بشه. حالا اگه ما یه متغیر ورودی داشته باشیم رگرسیون ما یه رگرسیون ساده خطی هست که از معادله خط که تو ریاضی دبیرستان داشتیم کمک میگیرم.
اما اگه چند تا متغیر ورودی داشته باشیم رگرسیون ما چندگانه لقب میگیره.
مثال ب :
- رگرسیون : یه عکس به ما نشون میدن و ما باید بر اساس اون عکس سن شخص رو تشخیص بدیم.
- طبقه بندی : ما یه مریض داریم که تومور داره. باید پیش بینی کنیم تومورش بدخیمه یا خوش خیم.
تو طبقه بندی ما با مقادیر گسسته سر و کار داریم چون خروجی ما 0 و 1 هست.
مطلبی دیگر از این انتشارات
چرا بهتر است اخبار روزانه را دنبال نکنید!
مطلبی دیگر از این انتشارات
۹۰ منبع برای یادگیری و به روز ماندن در داده کاوی
مطلبی دیگر از این انتشارات
هوش مصنوعی رام نشدنی