یادگیری نظارت شده، همچنین به عنوان یادگیری ماشین نظارت شده شناخته می شود، زیر مجموعه ای از یادگیری ماشین و هوش مصنوعی است. با استفاده از مجموعه دادههای برچسبگذاریشده برای آموزش الگوریتمهایی که دادهها را طبقهبندی میکنند یا نتایج را با دقت پیشبینی میکنند، تعریف میشود. همانطور که داده های ورودی به مدل وارد می شود، وزن آن را تا زمانی تنظیم می کند که مدل به طور مناسب برازش شود، که به عنوان بخشی از فرآیند اعتبار سنجی متقابل رخ می دهد. یادگیری تحت نظارت به سازمان ها کمک می کند تا انواع مشکلات دنیای واقعی را در مقیاس بزرگ حل کنند، مانند طبقهبندی هرزنامه ها در یک پوشه جداگانه از صندوق ورودی شما.
یادگیری نظارت شده از یک مجموعه آموزشی برای آموزش مدل ها برای به دست آوردن خروجی مطلوب استفاده می کند. این مجموعه داده آموزشی شامل ورودی ها و خروجی های صحیح است که به مدل اجازه می دهد در طول زمان یاد بگیرد. الگوریتم دقت خود را از طریق تابع ضرر اندازه گیری می کند، تا زمانی که خطا به اندازه کافی به حداقل برسد، تنظیم می کند.
یادگیری تحت نظارت را می توان در هنگام داده کاوی به دو نوع تقسیم کرد عبارت اند از طبقهبندی و رگرسیون:
الگوریتمها و تکنیکهای محاسباتی مختلفی در فرآیندهای یادگیری ماشینی تحت نظارت استفاده میشوند. در زیر توضیحات مختصری درباره برخی از متداولترین روشهای یادگیری که معمولاً با استفاده از برنامههایی مانند R یا Python محاسبه میشوند، آورده شده است:
شبکههای عصبی که عمدتاً برای الگوریتمهای یادگیری عمیق استفاده میشوند، دادههای آموزشی را با تقلید از اتصال مغز انسان از طریق لایههایی از گرهها پردازش میکنند. هر گره از ورودی ها، وزن ها، یک سوگیری (یا آستانه) و یک خروجی تشکیل شده است. اگر آن مقدار خروجی از یک آستانه معین فراتر رود، گره را "آتش" یا فعال می کند و داده ها را به لایه بعدی در شبکه ارسال می کند. شبکه های عصبی این تابع نگاشت را از طریق یادگیری نظارت شده، تنظیم بر اساس تابع از دست دادن از طریق فرآیند نزول گرادیان، یاد می گیرند. زمانی که تابع هزینه نزدیک به صفر است، میتوانیم به دقت مدل برای به دست آوردن پاسخ صحیح اطمینان داشته باشیم.
ساده بیس یک رویکرد طبقهبندی است که اصل استقلال شرطی طبقاتی را از قضیه بیز اتخاذ می کند. این بدان معنی است که وجود یک ویژگی بر حضور ویژگی دیگر در احتمال یک نتیجه معین تأثیر نمی گذارد و هر پیش بینی کننده تأثیر یکسانی بر آن نتیجه دارد. سه نوع طبقهبندی کننده ساده بیز وجود دارد: چند جملهای بیز ساده، برنولی نایو بیز و گاوسی نایو بیز. این تکنیک در درجه اول در طبقهبندی متن، شناسایی هرزنامه و سیستم های توصیه استفاده می شود.
رگرسیون خطی برای شناسایی رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل استفاده میشود و معمولاً برای پیشبینی نتایج آتی مورد استفاده قرار میگیرد. زمانی که تنها یک متغیر مستقل و یک متغیر وابسته وجود داشته باشد، به آن رگرسیون خطی ساده می گویند. با افزایش تعداد متغیرهای مستقل، از آن به عنوان رگرسیون خطی چندگانه یاد می شود. برای هر نوع رگرسیون خطی، به دنبال ترسیم خطی با بهترین برازش است که از طریق روش حداقل مربعات محاسبه می شود. با این حال، بر خلاف سایر مدل های رگرسیون، این خط زمانی که بر روی یک نمودار رسم می شود مستقیم است.
در حالی که رگرسیون خطی زمانی که متغیرهای وابسته پیوسته هستند به کار گرفته می شود، رگرسیون لجستیک زمانی انتخاب می شود که متغیر وابسته مقوله ای باشد، به این معنی که آنها خروجی های باینری دارند، مانند "درست" و "نادرست" یا "بله" و "خیر". در حالی که هر دو مدل رگرسیون به دنبال درک روابط بین ورودی داده ها هستند، رگرسیون لجستیک عمدتا برای حل مشکلات طبقهبندی باینری، مانند شناسایی هرزنامه استفاده می شود.
ماشین بردار پشتیبان یک مدل یادگیری نظارت شده محبوب است که توسط ولادیمیر واپنیک توسعه یافته است و برای طبقهبندی داده ها و رگرسیون استفاده می شود. گفته میشود، معمولاً برای مسائل طبقهبندی استفاده میشود و یک ابرصفحه ایجاد میکند که در آن فاصله بین دو کلاس از نقاط داده در حداکثر آن باشد. این ابرصفحه به عنوان مرز تصمیم شناخته می شود که کلاس های نقاط داده (مثلاً پرتقال در مقابل سیب) را در دو طرف صفحه از هم جدا می کند.
نزدیکترین همسایه K که با نام الگوریتم KNN نیز شناخته می شود، یک الگوریتم ناپارامتریک است که نقاط داده را بر اساس نزدیکی و ارتباط آنها با سایر داده های موجود طبقهبندی می کند. این الگوریتم فرض می کند که نقاط داده مشابه را می توان در نزدیکی یکدیگر یافت. در نتیجه، به دنبال محاسبه فاصله بین نقاط داده، معمولاً از طریق فاصله اقلیدسی است، و سپس یک دسته را بر اساس پرتکرارترین دسته یا میانگین اختصاص می دهد.
سهولت استفاده و زمان محاسبه کم آن را به الگوریتم مورد علاقه دانشمندان داده تبدیل می کند، اما با افزایش مجموعه داده آزمایشی، زمان پردازش طولانی تر می شود و جذابیت آن برای کارهای طبقهبندی کمتر می شود. KNN معمولاً برای موتورهای توصیه و تشخیص تصویر استفاده می شود.
جنگل تصادفی یکی دیگر از الگوریتمهای یادگیری ماشینی نظارتشده انعطافپذیر است که برای اهداف طبقهبندی و رگرسیون استفاده میشود. "جنگل" به مجموعه ای از درختان تصمیم گیری نامرتبط اشاره می کند که سپس برای کاهش واریانس و ایجاد پیش بینی های داده های دقیق تر با هم ادغام می شوند.
یادگیری ماشین بدون نظارت و یادگیری ماشین نظارت شده اغلب با هم مورد بحث قرار می گیرند. برخلاف یادگیری تحت نظارت، یادگیری بدون نظارت از داده های بدون برچسب استفاده می کند. از این داده ها، الگوهایی را کشف می کند که به حل مشکلات خوشه بندی یا تداعی کمک می کند. این به ویژه زمانی مفید است که متخصصان موضوع از ویژگیهای رایج در مجموعه داده مطمئن نیستند. الگوریتمهای خوشهبندی رایج مدلهای سلسله مراتبی، k-means و مدلهای مخلوط گاوسی هستند.
یادگیری نیمه نظارت شده زمانی اتفاق می افتد که تنها بخشی از داده های ورودی مشخص شده باشد. یادگیری بدون نظارت و نیمه نظارت میتواند جایگزینهای جذابتری باشد، زیرا تکیه بر تخصص حوزه برای برچسبگذاری مناسب دادهها برای یادگیری تحت نظارت میتواند زمانبر و پرهزینه باشد.
از مدل های یادگیری نظارت شده می توان برای ساخت و پیشبرد تعدادی از برنامه های کاربردی تجاری استفاده کرد، از جمله موارد زیر:
اگرچه یادگیری نظارت شده میتواند مزایایی مانند بینش عمیق دادهها و اتوماسیون بهبودیافته را به کسبوکارها ارائه دهد، در ساختن مدلهای یادگیری نظارت شده پایدار، چالشهایی وجود دارد. برخی از این چالش ها به شرح زیر است:
وبسایت من : اینجا کلیک کنید.
لینک حمایت مالی برای ادامه راه : اینجا کلیک کنید.
آدرس لینکدین من و جواب به سوالات شما : اینجا کلیک کنید.
آدرس توییتر من برای مشارکت در گفت و گو ها : اینجا کلیک کنید.
انجام پروژه های ماشین لرنینگ و یادگیری عمیق در تلگرام : Mashayekhi_Ai@