مهدی مشایخی
مهدی مشایخی
خواندن ۸ دقیقه·۲ سال پیش

یادگیری با ناظر چیست؟ - Supervised Learning - مهدی مشایخی

یادگیری با ناظر چیست؟ - Supervised Learning - مهدی مشایخی
یادگیری با ناظر چیست؟ - Supervised Learning - مهدی مشایخی

یادگیری تحت نظارت چیست؟

یادگیری نظارت شده، همچنین به عنوان یادگیری ماشین نظارت شده شناخته می شود، زیر مجموعه ای از یادگیری ماشین و هوش مصنوعی است. با استفاده از مجموعه داده‌های برچسب‌گذاری‌شده برای آموزش الگوریتم‌هایی که داده‌ها را طبقه‌بندی می‌کنند یا نتایج را با دقت پیش‌بینی می‌کنند، تعریف می‌شود. همانطور که داده های ورودی به مدل وارد می شود، وزن آن را تا زمانی تنظیم می کند که مدل به طور مناسب برازش شود، که به عنوان بخشی از فرآیند اعتبار سنجی متقابل رخ می دهد. یادگیری تحت نظارت به سازمان ها کمک می کند تا انواع مشکلات دنیای واقعی را در مقیاس بزرگ حل کنند، مانند طبقه‌بندی هرزنامه ها در یک پوشه جداگانه از صندوق ورودی شما.

نحوه عملکرد یادگیری تحت نظارت

یادگیری نظارت شده از یک مجموعه آموزشی برای آموزش مدل ها برای به دست آوردن خروجی مطلوب استفاده می کند. این مجموعه داده آموزشی شامل ورودی ها و خروجی های صحیح است که به مدل اجازه می دهد در طول زمان یاد بگیرد. الگوریتم دقت خود را از طریق تابع ضرر اندازه گیری می کند، تا زمانی که خطا به اندازه کافی به حداقل برسد، تنظیم می کند.

یادگیری تحت نظارت را می توان در هنگام داده کاوی به دو نوع تقسیم کرد عبارت اند از طبقه‌بندی و رگرسیون:

  • طبقه‌بندی از یک الگوریتم برای تخصیص دقیق داده های آزمون به دسته های خاص استفاده می کند. موجودیت‌های خاصی را در مجموعه داده شناسایی می‌کند و تلاش می‌کند تا در مورد اینکه چگونه آن موجودیت‌ها باید برچسب‌گذاری یا تعریف شوند، نتیجه‌گیری کند. الگوریتم‌های طبقه‌بندی رایج، طبقه‌بندی‌کننده‌های خطی، ماشین‌های بردار پشتیبان (SVM)، درخت‌های تصمیم‌گیری، k-نزدیک‌ترین همسایه و جنگل تصادفی هستند که در زیر با جزئیات بیشتر توضیح داده شده‌اند.
  • برای درک رابطه بین متغیرهای وابسته و مستقل از رگرسیون استفاده می شود. معمولاً برای پیش بینی، مانند درآمد فروش برای یک تجارت خاص استفاده می شود. رگرسیون خطی ، رگرسیون لجستیک و رگرسیون چند جمله ای الگوریتم های رگرسیون رایج هستند.
الگوریتم های یادگیری تحت نظارت - مهدی مشایخی
الگوریتم های یادگیری تحت نظارت - مهدی مشایخی

الگوریتم های یادگیری تحت نظارت

الگوریتم‌ها و تکنیک‌های محاسباتی مختلفی در فرآیندهای یادگیری ماشینی تحت نظارت استفاده می‌شوند. در زیر توضیحات مختصری درباره برخی از متداول‌ترین روش‌های یادگیری که معمولاً با استفاده از برنامه‌هایی مانند R یا Python محاسبه می‌شوند، آورده شده است:

  • شبکه های عصبی

شبکه‌های عصبی که عمدتاً برای الگوریتم‌های یادگیری عمیق استفاده می‌شوند، داده‌های آموزشی را با تقلید از اتصال مغز انسان از طریق لایه‌هایی از گره‌ها پردازش می‌کنند. هر گره از ورودی ها، وزن ها، یک سوگیری (یا آستانه) و یک خروجی تشکیل شده است. اگر آن مقدار خروجی از یک آستانه معین فراتر رود، گره را "آتش" یا فعال می کند و داده ها را به لایه بعدی در شبکه ارسال می کند. شبکه های عصبی این تابع نگاشت را از طریق یادگیری نظارت شده، تنظیم بر اساس تابع از دست دادن از طریق فرآیند نزول گرادیان، یاد می گیرند. زمانی که تابع هزینه نزدیک به صفر است، می‌توانیم به دقت مدل برای به دست آوردن پاسخ صحیح اطمینان داشته باشیم.

  • بیز ساده لوح

ساده بیس یک رویکرد طبقه‌بندی است که اصل استقلال شرطی طبقاتی را از قضیه بیز اتخاذ می کند. این بدان معنی است که وجود یک ویژگی بر حضور ویژگی دیگر در احتمال یک نتیجه معین تأثیر نمی گذارد و هر پیش بینی کننده تأثیر یکسانی بر آن نتیجه دارد. سه نوع طبقه‌بندی کننده ساده بیز وجود دارد: چند جمله‌ای بیز ساده، برنولی نایو بیز و گاوسی نایو بیز. این تکنیک در درجه اول در طبقه‌بندی متن، شناسایی هرزنامه و سیستم های توصیه استفاده می شود.

  • رگرسیون خطی

رگرسیون خطی برای شناسایی رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل استفاده می‌شود و معمولاً برای پیش‌بینی نتایج آتی مورد استفاده قرار می‌گیرد. زمانی که تنها یک متغیر مستقل و یک متغیر وابسته وجود داشته باشد، به آن رگرسیون خطی ساده می گویند. با افزایش تعداد متغیرهای مستقل، از آن به عنوان رگرسیون خطی چندگانه یاد می شود. برای هر نوع رگرسیون خطی، به دنبال ترسیم خطی با بهترین برازش است که از طریق روش حداقل مربعات محاسبه می شود. با این حال، بر خلاف سایر مدل های رگرسیون، این خط زمانی که بر روی یک نمودار رسم می شود مستقیم است.

  • رگرسیون لجستیک

در حالی که رگرسیون خطی زمانی که متغیرهای وابسته پیوسته هستند به کار گرفته می شود، رگرسیون لجستیک زمانی انتخاب می شود که متغیر وابسته مقوله ای باشد، به این معنی که آنها خروجی های باینری دارند، مانند "درست" و "نادرست" یا "بله" و "خیر". در حالی که هر دو مدل رگرسیون به دنبال درک روابط بین ورودی داده ها هستند، رگرسیون لجستیک عمدتا برای حل مشکلات طبقه‌بندی باینری، مانند شناسایی هرزنامه استفاده می شود.

  • ماشین بردار پشتیبانی (SVM)

ماشین بردار پشتیبان یک مدل یادگیری نظارت شده محبوب است که توسط ولادیمیر واپنیک توسعه یافته است و برای طبقه‌بندی داده ها و رگرسیون استفاده می شود. گفته می‌شود، معمولاً برای مسائل طبقه‌بندی استفاده می‌شود و یک ابرصفحه ایجاد می‌کند که در آن فاصله بین دو کلاس از نقاط داده در حداکثر آن باشد. این ابرصفحه به عنوان مرز تصمیم شناخته می شود که کلاس های نقاط داده (مثلاً پرتقال در مقابل سیب) را در دو طرف صفحه از هم جدا می کند.

  • کا نزدیک ترین همسایه

نزدیکترین همسایه K که با نام الگوریتم KNN نیز شناخته می شود، یک الگوریتم ناپارامتریک است که نقاط داده را بر اساس نزدیکی و ارتباط آنها با سایر داده های موجود طبقه‌بندی می کند. این الگوریتم فرض می کند که نقاط داده مشابه را می توان در نزدیکی یکدیگر یافت. در نتیجه، به دنبال محاسبه فاصله بین نقاط داده، معمولاً از طریق فاصله اقلیدسی است، و سپس یک دسته را بر اساس پرتکرارترین دسته یا میانگین اختصاص می دهد.

سهولت استفاده و زمان محاسبه کم آن را به الگوریتم مورد علاقه دانشمندان داده تبدیل می کند، اما با افزایش مجموعه داده آزمایشی، زمان پردازش طولانی تر می شود و جذابیت آن برای کارهای طبقه‌بندی کمتر می شود. KNN معمولاً برای موتورهای توصیه و تشخیص تصویر استفاده می شود.

  • جنگل تصادفی

جنگل تصادفی یکی دیگر از الگوریتم‌های یادگیری ماشینی نظارت‌شده انعطاف‌پذیر است که برای اهداف طبقه‌بندی و رگرسیون استفاده می‌شود. "جنگل" به مجموعه ای از درختان تصمیم گیری نامرتبط اشاره می کند که سپس برای کاهش واریانس و ایجاد پیش بینی های داده های دقیق تر با هم ادغام می شوند.

یادگیری بدون نظارت در مقابل یادگیری نیمه نظارت - مهدی مشایخی
یادگیری بدون نظارت در مقابل یادگیری نیمه نظارت - مهدی مشایخی

یادگیری بدون نظارت در مقابل یادگیری نیمه نظارت

یادگیری ماشین بدون نظارت و یادگیری ماشین نظارت شده اغلب با هم مورد بحث قرار می گیرند. برخلاف یادگیری تحت نظارت، یادگیری بدون نظارت از داده های بدون برچسب استفاده می کند. از این داده ها، الگوهایی را کشف می کند که به حل مشکلات خوشه بندی یا تداعی کمک می کند. این به ویژه زمانی مفید است که متخصصان موضوع از ویژگی‌های رایج در مجموعه داده مطمئن نیستند. الگوریتم‌های خوشه‌بندی رایج مدل‌های سلسله مراتبی، k-means و مدل‌های مخلوط گاوسی هستند.

یادگیری نیمه نظارت شده زمانی اتفاق می افتد که تنها بخشی از داده های ورودی مشخص شده باشد. یادگیری بدون نظارت و نیمه نظارت می‌تواند جایگزین‌های جذاب‌تری باشد، زیرا تکیه بر تخصص حوزه برای برچسب‌گذاری مناسب داده‌ها برای یادگیری تحت نظارت می‌تواند زمان‌بر و پرهزینه باشد.

نمونه های یادگیری تحت نظارت

از مدل های یادگیری نظارت شده می توان برای ساخت و پیشبرد تعدادی از برنامه های کاربردی تجاری استفاده کرد، از جمله موارد زیر:

  • تشخیص تصویر و اشیا:  الگوریتم‌های یادگیری نظارت شده را می‌توان برای مکان‌یابی، جداسازی و دسته‌بندی اشیاء خارج از فیلم‌ها یا تصاویر استفاده کرد و در صورت استفاده از تکنیک‌های بینایی کامپیوتری و تجزیه و تحلیل تصویر، آنها را مفید می‌سازد.
  • تجزیه و تحلیل پیش‌بینی‌کننده:  یک مورد استفاده گسترده برای مدل‌های یادگیری نظارت‌شده، ایجاد سیستم‌های تحلیل پیش‌بینی‌کننده برای ارائه بینش عمیق به نقاط مختلف داده‌های تجاری است. این به شرکت ها اجازه می دهد تا نتایج خاصی را بر اساس یک متغیر خروجی معین پیش بینی کنند و به رهبران کسب و کار کمک می کند تا تصمیمات خود را توجیه کنند یا به نفع سازمان حرکت کنند.
  • تجزیه و تحلیل احساسات مشتری: با استفاده از الگوریتم‌های یادگیری ماشینی نظارت شده، سازمان‌ها می‌توانند اطلاعات مهمی را از حجم زیادی از داده‌ها - از جمله زمینه، احساسات و هدف - با دخالت بسیار کمی استخراج و طبقه‌بندی کنند. این می تواند در هنگام به دست آوردن درک بهتری از تعاملات مشتری بسیار مفید باشد و می تواند برای بهبود تلاش های تعامل با برند استفاده شود.
  • تشخیص هرزنامه: تشخیص هرزنامه نمونه دیگری از مدل یادگیری تحت نظارت است. با استفاده از الگوریتم‌های طبقه‌بندی نظارت شده، سازمان‌ها می‌توانند پایگاه‌های اطلاعاتی را برای تشخیص الگوها یا ناهنجاری‌ها در داده‌های جدید آموزش دهند تا مکاتبات هرزنامه و غیرمرتبط با هرزنامه را به طور مؤثر سازماندهی کنند.

چالش های یادگیری تحت نظارت

اگرچه یادگیری نظارت شده می‌تواند مزایایی مانند بینش عمیق داده‌ها و اتوماسیون بهبودیافته را به کسب‌وکارها ارائه دهد، در ساختن مدل‌های یادگیری نظارت شده پایدار، چالش‌هایی وجود دارد. برخی از این چالش ها به شرح زیر است:

  • مدل‌های یادگیری تحت نظارت می‌توانند به سطوح خاصی از تخصص برای ساختار دقیق نیاز داشته باشند.
  • آموزش مدل های یادگیری تحت نظارت می تواند بسیار زمان بر باشد.
  • مجموعه داده ها می توانند احتمال خطای انسانی بیشتری داشته باشند و در نتیجه الگوریتم ها اشتباه یاد بگیرند.
  • برخلاف مدل‌های یادگیری بدون نظارت، یادگیری تحت نظارت نمی‌تواند به تنهایی داده‌ها را خوشه‌بندی یا طبقه‌بندی کند.



وبسایت من : اینجا کلیک کنید.

لینک حمایت مالی برای ادامه راه : اینجا کلیک کنید.

آدرس لینکدین من و جواب به سوالات شما : اینجا کلیک کنید.

آدرس توییتر من برای مشارکت در گفت و گو ها : اینجا کلیک کنید.

انجام پروژه های ماشین لرنینگ و یادگیری عمیق در تلگرام : Mashayekhi_Ai@

منبع : https://www.ibm.com/cloud/learn/supervised-learning

ماشین لرنینگپایتون
مهدی مشایخی هستم. برنامه نویس هوش مصنوعی و پایتون در زمینه یادگیری ماشینی و عمیق. به همه کمک میکنم تا با هم رشد کنیم! من در توییتر: https://twitter.com/Mashayekhi_AI
شاید از این پست‌ها خوشتان بیاید