Unsupervised learning vs Self-supervised learning


یادگیری بدون نظارت
یادگیری بدون نظارت (Unsupervised learning) ، همچنین به عنوان یادگیری ماشین بدون نظارت شناخته می شود، از الگوریتم های یادگیری ماشین برای تجزیه و تحلیل و خوشه بندی مجموعه داده های بدون برچسب استفاده می کند.
این الگوریتم ها الگوهای پنهان یا گروه بندی داده ها را بدون نیاز به دخالت انسان کشف می کنند. توانایی آن در کشف شباهت ها و تفاوت ها در اطلاعات، آن را به راه حل ایده آلی برای تجزیه و تحلیل داده های اکتشافی (data analysis) ، استراتژی های فروش متقابل و تشخیص تصویر تبدیل می کند.
مدل‌های یادگیری بدون نظارت برای سه کار اصلی - خوشه‌بندی (Clustering) ، تداعی (association) و کاهش ابعاد (dimensionality reduction) مورد استفاده قرار می‌گیرند.

مقایسه یادگیری بدون نظارت و نظارت شده
مقایسه یادگیری بدون نظارت و نظارت شده



یادگیری خود نظارتی
یادگیری خود نظارتی (Self-supervised learning) یک فرآیند یادگیری ماشینی است که در آن مدل خود را آموزش می دهد تا بخشی از ورودی را از قسمت دیگری از ورودی یاد بگیرد.
در این فرآیند، مشکل بدون نظارت با تولید خودکار برچسب ها به یک مشکل نظارت شده تبدیل می شود. برای استفاده از حجم عظیمی از داده های بدون برچسب، تعیین اهداف یادگیری مناسب برای نظارت از خود داده ها بسیار مهم است.
به عنوان مثال، در پردازش زبان طبیعی، اگر چند کلمه داشته باشیم، با استفاده از یادگیری خود نظارتی می‌توانیم بقیه جمله را کامل کنیم. به طور مشابه، در یک ویدیو، می‌توانیم فریم‌های گذشته یا آینده را بر اساس داده‌های ویدیویی موجود پیش‌بینی کنیم. یادگیری خود نظارتی از ساختار داده‌ها برای استفاده از انواع سیگنال‌های نظارتی در مجموعه داده‌های بزرگ استفاده می‌کند.(همه بدون تکیه بر برچسب‌ها)



تفاوت یادگیری بدون نظارت و یادگیری خود نظارتی
بسیاری از مردم هر دو اصطلاح را اشتباه می گیرند و آنها را به جای یکدیگر استفاده می کنند. با این حال، هر دو تکنیک یادگیری اهداف متفاوتی دارند.
روش‌های یادگیری خود نظارتی و یادگیری بدون نظارت را می‌توان تکنیک‌های یادگیری مکمل در نظر گرفت زیرا هر دو به مجموعه داده‌های برچسب‌گذاری شده نیاز ندارند.
یادگیری بدون نظارت را می توان به عنوان مجموعه بالای یادگیری خود نظارتی در نظر گرفت زیرا هیچ حلقه بازخوردی ندارد، برعکس، یادگیری خود نظارتی سیگنال های نظارتی زیادی دارد که به عنوان بازخورد در فرآیند آموزش عمل می کنند.
تکنیک یادگیری بدون نظارت بیشتر بر روی مدل تمرکز می کند و نه بر داده ها در حالی که تکنیک یادگیری خود نظارتی، برعکس عمل می کند. با این حال، روش‌های یادگیری بدون نظارت در خوشه‌بندی و کاهش ابعاد خوب هستند، در حالی که یادگیری خود نظارتی روشی برای کارهای رگرسیون و طبقه‌بندی است.


چرا به یادگیری خودنظارتی نیاز داریم؟
یادگیری خود نظارتی به دلیل مشکلات زیر که در سایر روش های یادگیری وجود دارد مورد استفاده است:
۱. هزینه بالا: داده های برچسب گذاری شده توسط اکثر روش های یادگیری مورد نیاز است. هزینه
داده های برچسب دار با کیفیت خوب از نظر زمان و هزینه بسیار بالا است.
۲. چرخه عمر طولانی: چرخه حیات آماده سازی داده ها یک فرآیند طولانی در توسعه مدل های
یادگیری ماشین است. این نیاز به تمیز کردن، فیلتر کردن، حاشیه نویسی، بازنگری و بازسازی
مطابق با فریم ورک (framework) آموزشی دارد.
۳. هوش مصنوعی عمومی: چارچوب یادگیری خود نظارتی یک گام به شناخت انسان در ماشین‌ها
نزدیک‌تر است.


یادگیری خود نظارتی، یادگیری پیش بینی کننده است
یادگیری خود نظارتی سیگنال‌های نظارتی را از خود داده‌ها به دست می‌آورد و اغلب از ساختار زیربنایی (underlying structure) در داده‌ها استفاده می‌کند. تکنیک کلی یادگیری خود نظارتی پیش بینی هر بخش (یا ویژگی) مشاهده نشده یا پنهان ورودی از هر بخش مشاهده شده یا پنهان ورودی است.

به عنوان مثال، همانطور که در NLP معمول است، می توانیم بخشی از یک جمله را پنهان کنیم و کلمات پنهان را از کلمات باقی مانده پیش بینی کنیم. ما همچنین می توانیم فریم های گذشته یا آینده را در یک ویدیو (داده های پنهان) از فریم های فعلی (داده های مشاهده شده) پیش بینی کنیم. از آنجایی که یادگیری خود نظارتی از ساختار خود داده استفاده می‌کند، می‌تواند از سیگنال‌های نظارتی متنوعی در روش‌های همزمان (مانند ویدیو و صدا) و در مجموعه‌های داده بزرگ استفاده کند - همه بدون تکیه بر برچسب‌ها.

در یادگیری خود نظارتی، سیستم برای پیش‌بینی قسمت‌های پنهان ورودی (به رنگ خاکستری) از قسمت‌های قابل مشاهده ورودی (به رنگ سبز) آموزش داده می‌شود.
در یادگیری خود نظارتی، سیستم برای پیش‌بینی قسمت‌های پنهان ورودی (به رنگ خاکستری) از قسمت‌های قابل مشاهده ورودی (به رنگ سبز) آموزش داده می‌شود.



کابرد یادگیری خود نظارتی در شبکه های عصبی
برخی از شبکه های عصبی، به عنوان مثال، رمزگذارهای خودکار (Auto Encoders)، گاهی اوقات ابزار یادگیری خود نظارتی نامیده می شوند. در واقع، شما می توانید رمزگذارهای خودکار را بدون تصاویری که به صورت دستی توسط یک انسان برچسب گذاری شده اند، آموزش دهید. به طور دقیق تر، یک رمزگذار خودکار حذف نویز را در نظر بگیرید که هدف آن بازسازی تصویر اصلی در صورت ارائه یک نسخه نویزدار از آن است. در طول آموزش، شما در واقع تصویر اصلی را دارید، با توجه به اینکه مجموعه داده ای از تصاویر خراب نشده دارید و فقط این تصاویر را با مقداری نویز خراب می کنید، بنابراین می توانید فاصله بین تصویر اصلی و نویزدار را جایی که تصویر اصلی، سیگنال نظارتی است محاسبه کنید. از این نظر، رمزگذارهای خودکار ابزارهای یادگیری خود نظارتی هستند، اما بیشتر متداول است که بگوییم رمزگذارهای خودکار ابزارهای یادگیری بدون نظارت هستند، بنابراین یادگیری خود نظارتی نیز برای اشاره به تکنیک های یادگیری بدون نظارت استفاده شده است.


چالش های یادگیری خود نظارتی
۱. دقت: اگرچه پیش‌فرض تکنیک یادگیری خود نظارتی استفاده نکردن از داده‌های برچسب‌گذاری‌شده
است، اما نقطه ضعف آن رویکرد این است که شما یا به مقادیر زیادی داده برای تولید برچسب‌های
شبه دقیق نیاز دارید یا در مورد دقت به خطر می‌افتید. توجه به این نکته مهم است زیرا برچسب‌های
نادرست تولید شده هنگام آموزش در مراحل اولیه نتیجه معکوس خواهند داشت.
۲. کارایی محاسباتی: به دلیل مراحل متعدد آموزش (۱. تولید برچسب های شبه ۲. آموزش بر روی
برچسب های شبه) زمان صرف شده برای آموزش یک مدل در مقایسه با یادگیری تحت نظارت زیاد
است. همچنین، رویکردهای فعلی یادگیری خود نظارتی به حجم عظیمی از داده ها برای دستیابی به
دقت نزدیک به همتایان یادگیری تحت نظارت نیاز دارد.