۳ روش‌ کاهش برازش بیش از حد مدل‌های یادگیری ماشینی

شکل ۱. مدل بیش برازش شده
شکل ۱. مدل بیش برازش شده
منتشر‌شده در : towardsdatascience به تاریخ ۲ ژوئن ۲۰۲۱
لینک منبع 3 Methods to Reduce Overfitting of Machine Learning Models

من با تعاریف متعددی از بیش برازش برخورد کرده‌ام. همه آن‌ها به معنای یک‌سان با عبارات مختلف اشاره می‌کنند. تعریف من این است که یک مدل overfit، جزئیات غیر ضروری، نویز، یا روابط خاص بیش از حد در یک مجموعه داده را ثبت می‌کند.

برازش بیش از حد زمانی رخ می‌دهد که یک مدل نتواند به خوبی به داده‌ها تعمیم یابد. بنابراین ، یک مدلoverfit خیلی پایدار نیست و معمولاً رفتاری غیر منتظره دارد. به طور کلی، بیش برازش منجر به عملکرد ضعیف در مورد داده‌های نادیده قبلی می‌شود.

برازش بیش از حد یک مشکل جدی در یادگیری ماشین است. ما هرگز نمی‌توانیم به یک مدل overfit اعتماد کنیم و آن را در تولید قرار دهیم. پر از شگفتی است، اما نه آن‌هایی که شما را خوشحال می‌کنند. حتی اگر تغییرات بسیار کوچکی در مقادیر ویژگی وجود داشته باشد، پیش‌بینی‌ها ممکن است به طور چشمگیری تغییر کنند.

برخی شاخص‌های قوی از بیش برازش وجود دارد. اگر تفاوت قابل‌توجهی بین دقت در آموزش و مجموعه آزمون وجود داشته باشد، ما احتمالا یک مدل overfit خواهیم داشت. شاخص دیگر بدست آوردن نتایج بسیار متفاوت با مجموعه‌های تست مختلف است.

ما باید بیش برازش را قبل از بکارگیری یک مدل یادگیری ماشین کاهش یا حذف کنیم. روش‌های متعددی برای کاهش بیش برازش وجود دارد. در این مقاله، ما سه روش رایج را بررسی خواهیم کرد.

اعتبارسنجی متقابل

قوی‌ترین روش برای کاهش بیش برازش جمع‌آوری داده‌های بیشتر است. هرچه داده‌های بیشتری داشته باشیم، کاوش و مدل‌سازی ساختار زیربنایی آسان‌تر خواهد بود. روش‌هایی که ما در این مقاله مورد بحث قرار خواهیم داد مبتنی بر این فرض هستند که جمع‌آوری داده‌های بیشتر ممکن نیست.

از آنجا که ما نمی‌توانیم اطلاعات بیشتری به دست آوریم، باید از آنچه داریم بهترین استفاده را بکنیم. اعتبار سنجی متقابل روش انجام این کار است.

در یک جریان کار یادگیری ماشینی معمولی، داده‌ها را به زیرمجموعه‌های آموزشی و آزمایشی تقسیم می‌کنیم. در برخی موارد، ما یک مجموعه جداگانه برای اعتبار سنجی کنار می‌گذاریم. این مدل بر روی مجموعه آموزشی آموزش داده می‌شود. سپس عملکرد آن بر روی مجموعه تست اندازه‌گیری می‌شود. بنابراین، ما مدل را بر روی داده‌های نادیده قبلی ارزیابی می‌کنیم.

در این سناریو، ما نمی‌توانیم از بخشی از مجموعه داده برای آموزش استفاده کنیم. ما به نوعی آن را هدر می‌دهیم. اعتبارسنجی متقابل امکان استفاده از هر مشاهده در هر دو مجموعه آموزش و تست را فراهم می‌کند.

شکل۲. اعتبار سنجی ۵ برابر
شکل۲. اعتبار سنجی ۵ برابر

تصویر بالا یک اعتبارسنجی متقابل ۵ تایی را نشان می‌دهد. مجموعه داده به ۵ قسمت تقسیم می‌شود. در هر تکرار، ۴ قطعه برای آموزش و ۴ قطعه دیگر برای آزمایش مورد استفاده قرار می‌گیرند. کل فرآیند بعد از ۵ تکرار تکمیل می‌شود. هر قطعه هم برای آموزش و هم برای تست مورد استفاده قرار می‌گیرد.

از این نظر، اعتبار سنجی متقابل روشی برای افزایش مقدار داده‌های آموزشی است. دقت مدل به صورت میانگین همه تکرارها محاسبه می‌شود. در نتیجه، ما یک ارزیابی قوی‌تر از عملکرد مدل خود به دست می‌آوریم.

منظم سازی

اگر یک مدل نسبت به داده‌ها بسیار پیچیده باشد، احتمال زیادی وجود دارد که به بیش برازش منجر شود. در تصویر زیر، مدل با خط‌قرمز نشان‌داده شده‌است. نقاط آبی نشان‌دهنده نقاط داده هستند.

شکل ۳. مدل برازش بیش از حد
شکل ۳. مدل برازش بیش از حد

این مدل تلاش می‌کند تا هر یک از جزئیات مربوط به تمام نقاط داده را ثبت کند. این روش نمی‌تواند به خوبی به روند موجود در مجموعه داده تعمیم داده شود.

این مدل نسبت به داده‌ها بسیار پیچیده است (نقاط آبی). بنابراین ما یک مشکل بیش برازش داریم. ما می‌توانیم این مشکل را با کاهش پیچیدگی مدل حل کنیم.

تنظیم یک روش برای کاهش پیچیدگی است. این روش پیچیدگی مدل را با اضافه کردن جریمه‌ای برای جملات بالاتر کنترل می‌کند. به طور معمول، هدف یک مدل به حداقل رساندن زیان با توجه به تابع زیان معین است. اگر یک عبارت تنظیم‌کننده اضافه شود، مدل تلاش می‌کند تا پیچیدگی و زیان را به حداقل برساند.

دو تکنیک معمول برای پایدارسازی L1 و L2 هستند. قبل از توضیح نحوه کار L1 و L2، اجازه دهید اول در مورد آنچه پیچیدگی یک مدل را افزایش می‌دهد صحبت کنیم.

  • تعداد کل ویژگی‌ها
  • وزن ویژگی‌ها

تنظیم L1 با توجه به تعداد کل ویژگی‌ها، پیچیدگی را کنترل می‌کند. مانند نیرویی عمل می‌کند که مقدار کمی از وزن هر تکرار را محدود می‌کند. بنابراین، برخی از وزن‌ها در نهایت صفر می‌شوند.

تنظیم L2 به دلیل بزرگی وزن ویژگی‌ها، پیچیدگی را کنترل می‌کند. مانند نیرویی عمل می‌کند که درصد کمی از وزن هر تکرار را حذف می‌کند. بنابراین، وزن‌ها کاهش می‌یابند اما هرگز صفر نمی‌شوند.

در زیر یک مدل قابل‌قبول‌تر برای این مجموعه داده نشان‌داده شده‌است.

شکل ۴:نمودار
شکل ۴:نمودار

همچنین می‌توانیم پیچیدگی مدل را با تنظیم هایپرپارامترها کاهش دهیم. هر الگوریتم پارامترهای فوق خود را دارد. در مورد یک مدل جنگل تصادفی، عمق درخت تاثیر زیادی بر پیچیدگی مدل دارد.

مدل‌های جامع

مدل‌های جامع شامل بسیاری از مدل‌های کوچک (به عنوان مثال ضعیف). مدل کلی معمولا قوی‌تر و دقیق‌تر از مدل منفرد است. همچنین ریسک بیش برازش با استفاده از مدل‌های گروهی کاهش می‌یابد.

رایج‌ترین مدل‌های ترکیبی، جنگل تصادفی و شیب درختان تصمیم‌گیری تقویت‌شده هستند. آن‌ها ترکیبی از چندین درخت تصمیم‌گیری هستند.

بیایید روی جنگل تصادفی تمرکز کنیم. این روش از تکنیکی به نام برچسب زدن برای کنار هم قرار دادن چندین درخت تصمیم‌گیری استفاده می‌کند. پیش‌بینی با جمع‌بندی پیش‌بینی‌های درخت‌های تصمیم‌گیری فردی محاسبه می‌شود.

مدل جنگل تصادفی با استفاده از درخت‌های تصمیم‌گیری ناهمبسته، خطر بیش برازش را کاهش می‌دهد. آن‌ها توسط بوت استرپینگ و تصادفی بودن ویژگی تولید می‌شوند.

بوت استرپینگ به معنی انتخاب تصادفی نمونه‌ها (یعنی نقاط داده) از داده‌های آموزشی با جایگزینی است. در نتیجه، هر درخت تصمیم‌گیری بر روی مجموعه داده متفاوتی آموزش داده می‌شود.

تصادفی بودن ویژگی با انتخاب تصادفی زیرمجموعه‌ای از ویژگی‌ها برای هر درخت تصمیم‌گیری به دست می‌آید. مجموعه داده شامل ۲۰ ویژگی است و ما به صورت تصادفی ۱۵ ویژگی را برای هر درخت انتخاب می‌کنیم. تعداد ویژگی‌های انتخاب‌شده را می توان با یک پارامتر کنترل کرد.

در پایان، ما چندین درخت تصمیم‌گیری داریم که بر روی یک نمونه بالقوه متفاوت از مجموعه داده اصلی قرار می‌گیرند. ما از تمرکز بیش از حد مدل کلی بر روی یک ویژگی خاص یا مجموعه‌ای از ارزش‌ها جلوگیری می‌کنیم. بنابراین خطر بیش برازش کاهش می‌یابد.

نتیجه‌گیری

برازش بیش از حد یک مساله جدی در یادگیری ماشینی است. حل آن قبل از حرکت رو به جلو با مدل ما از اهمیت حیاتی برخوردار است. من یک مدل کم‌تر دقیق را نسبت به یک مدل بیش برازش با دقت بالا ترجیح می‌دهم.

روش‌های متعددی برای کاهش بیش برازش وجود دارد. ما ۳ مورد معمول مورد استفاده را پوشش داده‌ایم.

متشکرم که مطالعه کردید.

این متن با استفاده از ربات ترجمه مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.