من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
۳ روش کاهش برازش بیش از حد مدلهای یادگیری ماشینی

منتشرشده در : towardsdatascience به تاریخ ۲ ژوئن ۲۰۲۱
لینک منبع 3 Methods to Reduce Overfitting of Machine Learning Models
من با تعاریف متعددی از بیش برازش برخورد کردهام. همه آنها به معنای یکسان با عبارات مختلف اشاره میکنند. تعریف من این است که یک مدل overfit، جزئیات غیر ضروری، نویز، یا روابط خاص بیش از حد در یک مجموعه داده را ثبت میکند.
برازش بیش از حد زمانی رخ میدهد که یک مدل نتواند به خوبی به دادهها تعمیم یابد. بنابراین ، یک مدلoverfit خیلی پایدار نیست و معمولاً رفتاری غیر منتظره دارد. به طور کلی، بیش برازش منجر به عملکرد ضعیف در مورد دادههای نادیده قبلی میشود.
برازش بیش از حد یک مشکل جدی در یادگیری ماشین است. ما هرگز نمیتوانیم به یک مدل overfit اعتماد کنیم و آن را در تولید قرار دهیم. پر از شگفتی است، اما نه آنهایی که شما را خوشحال میکنند. حتی اگر تغییرات بسیار کوچکی در مقادیر ویژگی وجود داشته باشد، پیشبینیها ممکن است به طور چشمگیری تغییر کنند.
برخی شاخصهای قوی از بیش برازش وجود دارد. اگر تفاوت قابلتوجهی بین دقت در آموزش و مجموعه آزمون وجود داشته باشد، ما احتمالا یک مدل overfit خواهیم داشت. شاخص دیگر بدست آوردن نتایج بسیار متفاوت با مجموعههای تست مختلف است.
ما باید بیش برازش را قبل از بکارگیری یک مدل یادگیری ماشین کاهش یا حذف کنیم. روشهای متعددی برای کاهش بیش برازش وجود دارد. در این مقاله، ما سه روش رایج را بررسی خواهیم کرد.
اعتبارسنجی متقابل
قویترین روش برای کاهش بیش برازش جمعآوری دادههای بیشتر است. هرچه دادههای بیشتری داشته باشیم، کاوش و مدلسازی ساختار زیربنایی آسانتر خواهد بود. روشهایی که ما در این مقاله مورد بحث قرار خواهیم داد مبتنی بر این فرض هستند که جمعآوری دادههای بیشتر ممکن نیست.
از آنجا که ما نمیتوانیم اطلاعات بیشتری به دست آوریم، باید از آنچه داریم بهترین استفاده را بکنیم. اعتبار سنجی متقابل روش انجام این کار است.
در یک جریان کار یادگیری ماشینی معمولی، دادهها را به زیرمجموعههای آموزشی و آزمایشی تقسیم میکنیم. در برخی موارد، ما یک مجموعه جداگانه برای اعتبار سنجی کنار میگذاریم. این مدل بر روی مجموعه آموزشی آموزش داده میشود. سپس عملکرد آن بر روی مجموعه تست اندازهگیری میشود. بنابراین، ما مدل را بر روی دادههای نادیده قبلی ارزیابی میکنیم.
در این سناریو، ما نمیتوانیم از بخشی از مجموعه داده برای آموزش استفاده کنیم. ما به نوعی آن را هدر میدهیم. اعتبارسنجی متقابل امکان استفاده از هر مشاهده در هر دو مجموعه آموزش و تست را فراهم میکند.

تصویر بالا یک اعتبارسنجی متقابل ۵ تایی را نشان میدهد. مجموعه داده به ۵ قسمت تقسیم میشود. در هر تکرار، ۴ قطعه برای آموزش و ۴ قطعه دیگر برای آزمایش مورد استفاده قرار میگیرند. کل فرآیند بعد از ۵ تکرار تکمیل میشود. هر قطعه هم برای آموزش و هم برای تست مورد استفاده قرار میگیرد.
از این نظر، اعتبار سنجی متقابل روشی برای افزایش مقدار دادههای آموزشی است. دقت مدل به صورت میانگین همه تکرارها محاسبه میشود. در نتیجه، ما یک ارزیابی قویتر از عملکرد مدل خود به دست میآوریم.
منظم سازی
اگر یک مدل نسبت به دادهها بسیار پیچیده باشد، احتمال زیادی وجود دارد که به بیش برازش منجر شود. در تصویر زیر، مدل با خطقرمز نشانداده شدهاست. نقاط آبی نشاندهنده نقاط داده هستند.

این مدل تلاش میکند تا هر یک از جزئیات مربوط به تمام نقاط داده را ثبت کند. این روش نمیتواند به خوبی به روند موجود در مجموعه داده تعمیم داده شود.
این مدل نسبت به دادهها بسیار پیچیده است (نقاط آبی). بنابراین ما یک مشکل بیش برازش داریم. ما میتوانیم این مشکل را با کاهش پیچیدگی مدل حل کنیم.
تنظیم یک روش برای کاهش پیچیدگی است. این روش پیچیدگی مدل را با اضافه کردن جریمهای برای جملات بالاتر کنترل میکند. به طور معمول، هدف یک مدل به حداقل رساندن زیان با توجه به تابع زیان معین است. اگر یک عبارت تنظیمکننده اضافه شود، مدل تلاش میکند تا پیچیدگی و زیان را به حداقل برساند.
دو تکنیک معمول برای پایدارسازی L1 و L2 هستند. قبل از توضیح نحوه کار L1 و L2، اجازه دهید اول در مورد آنچه پیچیدگی یک مدل را افزایش میدهد صحبت کنیم.
- تعداد کل ویژگیها
- وزن ویژگیها
تنظیم L1 با توجه به تعداد کل ویژگیها، پیچیدگی را کنترل میکند. مانند نیرویی عمل میکند که مقدار کمی از وزن هر تکرار را محدود میکند. بنابراین، برخی از وزنها در نهایت صفر میشوند.
تنظیم L2 به دلیل بزرگی وزن ویژگیها، پیچیدگی را کنترل میکند. مانند نیرویی عمل میکند که درصد کمی از وزن هر تکرار را حذف میکند. بنابراین، وزنها کاهش مییابند اما هرگز صفر نمیشوند.
در زیر یک مدل قابلقبولتر برای این مجموعه داده نشانداده شدهاست.

همچنین میتوانیم پیچیدگی مدل را با تنظیم هایپرپارامترها کاهش دهیم. هر الگوریتم پارامترهای فوق خود را دارد. در مورد یک مدل جنگل تصادفی، عمق درخت تاثیر زیادی بر پیچیدگی مدل دارد.
مدلهای جامع
مدلهای جامع شامل بسیاری از مدلهای کوچک (به عنوان مثال ضعیف). مدل کلی معمولا قویتر و دقیقتر از مدل منفرد است. همچنین ریسک بیش برازش با استفاده از مدلهای گروهی کاهش مییابد.
رایجترین مدلهای ترکیبی، جنگل تصادفی و شیب درختان تصمیمگیری تقویتشده هستند. آنها ترکیبی از چندین درخت تصمیمگیری هستند.
بیایید روی جنگل تصادفی تمرکز کنیم. این روش از تکنیکی به نام برچسب زدن برای کنار هم قرار دادن چندین درخت تصمیمگیری استفاده میکند. پیشبینی با جمعبندی پیشبینیهای درختهای تصمیمگیری فردی محاسبه میشود.
مدل جنگل تصادفی با استفاده از درختهای تصمیمگیری ناهمبسته، خطر بیش برازش را کاهش میدهد. آنها توسط بوت استرپینگ و تصادفی بودن ویژگی تولید میشوند.
بوت استرپینگ به معنی انتخاب تصادفی نمونهها (یعنی نقاط داده) از دادههای آموزشی با جایگزینی است. در نتیجه، هر درخت تصمیمگیری بر روی مجموعه داده متفاوتی آموزش داده میشود.
تصادفی بودن ویژگی با انتخاب تصادفی زیرمجموعهای از ویژگیها برای هر درخت تصمیمگیری به دست میآید. مجموعه داده شامل ۲۰ ویژگی است و ما به صورت تصادفی ۱۵ ویژگی را برای هر درخت انتخاب میکنیم. تعداد ویژگیهای انتخابشده را می توان با یک پارامتر کنترل کرد.
در پایان، ما چندین درخت تصمیمگیری داریم که بر روی یک نمونه بالقوه متفاوت از مجموعه داده اصلی قرار میگیرند. ما از تمرکز بیش از حد مدل کلی بر روی یک ویژگی خاص یا مجموعهای از ارزشها جلوگیری میکنیم. بنابراین خطر بیش برازش کاهش مییابد.
نتیجهگیری
برازش بیش از حد یک مساله جدی در یادگیری ماشینی است. حل آن قبل از حرکت رو به جلو با مدل ما از اهمیت حیاتی برخوردار است. من یک مدل کمتر دقیق را نسبت به یک مدل بیش برازش با دقت بالا ترجیح میدهم.
روشهای متعددی برای کاهش بیش برازش وجود دارد. ما ۳ مورد معمول مورد استفاده را پوشش دادهایم.
متشکرم که مطالعه کردید.
این متن با استفاده از ربات ترجمه مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
تعداد زیادی از مردم دوباره به کووید ۱۹ مبتلا میشوند، شواهد نشان میدهد ایمنی در برخی افراد به سرعت کاهش مییابد
مطلبی دیگر از این انتشارات
مطالعه ۸ مورد هیجانانگیز از کاربردهای یادگیری ماشینی در علوم زندگی و بیوتکنولوژی
مطلبی دیگر از این انتشارات
اتصال ویجتها به تصویرسازیها