سمیرا نامی ساعی
سمیرا نامی ساعی
خواندن ۴ دقیقه·۳ سال پیش

بایاس>کم برازش-واریانس>بیش برازش

موازنه واریانس و بایاس

در مدل‌های آماری و بخصوص الگوریتم‌های یادگیری ماشین، مسئله موازنه واریانس و بایاس (اریبی) مورد بحث قرار می‌گیرد. در اغلب «مدل‌های پیش‌بین» (Predictive Model)، وجود بایاس کوچک برای پارامترها منجر به واریانس بزرگ برای مدل خواهد شد. البته برعکس این حالت نیز وجود دارد، به این معنی که با کوچک کردن واریانس مدل، با مشکل بزرگ شدن بایاس یا اریبی پارامترها مواجه خواهیم شد.

مسئله اصلی آن است که در یک مدل مناسب، هم بایاس و هم واریانس باید حداقل ممکن باشند. ولی متاسفانه، کمینه‌سازی (Minimization) هر دو این شاخص‌ها به شکل توام، امکان‌پذیر نیست. چنین وضعیتی را «تناقض واریانس-اریبی» (Bias-Variance Dilemma) می‌نامند. در ادامه هر یک از خطاها را معرفی کرده و نحوه ایجاد تعادل واریانس و اریبی را بازگو خواهیم کرد.

خطای حاصل از بایاس و واریانس

یک مدل آماری را در نظر بگیرید. قرار است پارامترهای این مدل توسط نمونه تصادفی برآورد شوند. به منظور اندازه‌گیری خطای مدل، مجموعه داده‌های مربوط به نمونه تصادفی را به دو بخش تقسیم می‌کنیم. قسمت اول به منظور برآورد پارامترهای مدل مورد استفاده قرار می‌گیرد، به همین علت چنین مقادیری را «داده‌های آموزشی» (Training Set) نامیده و به واسطه آن‌ها، مدل را ایجاد می‌کنیم.

قسمت یا بخش دوم از نمونه تصادفی برای مشخص کردن خطای مدل به کار می‌رود زیرا قرار است این مدل به منظور پیش‌بینی مقادیر دیگری که در نمونه تصادفی وجود نداشته‌اند، به کار رود. به این ترتیب از دسته یا بخش دوم نمونه تصادفی برای محاسبه اختلاف مقادیر واقعی و نتایج حاصل برازش مدل استفاده می‌کنیم. متاسفانه از آنجایی که مدل از قبل از وجود این داده‌ها اطلاع نداشته و نتوانسته خود را برحسب آن‌ها وفق دهد، امکان کنترل این خطا وجود ندارد. برای این دسته از مقادیر نمونه از اصطلاح «داده‌های آزمایشی» (Test Set) استفاده می‌کنیم.

براساس این دو بخش از نمونه تصادفی، علاقمند به ایجاد مدلی هستیم که در هر دو حالت یعنی هنگام آموزش (Train) و آزمایش (Test)، خطای کمی داشته باشد. خطای حاصل از به کارگیری مدل روی داده‌های آموزشی، بایاس مدل گفته شده و از طرفی خطای مدل روی داده‌های آزمایشی، واریانس مدل در نظر گرفته می‌شود.

  • خطای بایاس: وجود فرضیه‌های مختلف روی مدل و الگوریتم یادگیری منجر به ایجاد خطای اریبی می‌شود. بزرگ بودن اریبی می‌تواند الگوریتم یا مدل آماری را از کشف روابط یبن ویژگی‌ها (Features) و متغیر پاسخ (Target Variable) باز دارد. اغلب بزرگ بودن خطای اریبی، منجر به «کم‌برازش» (Underfitting) می‌شود.
  • خطای واریانس: حساسیت زیاد مدل با تغییرات کوچک روی داده‌های آموزشی، نشانگر وجود واریانس زیاد است. این امر نشانگر آن است که اگر مدل آموزش داده شده را روی داده‌های آزمایشی به کارگیریم، نتایج حاصل با داده‌های واقعی فاصله زیادی خواهند داشت. متاسفانه افزایش واریانس در این حالت منجر به مدل‌بندی مقادیر نوفه (Noise) شده و به جای پیش‌بینی صحیح، دچار پیچیدگی و مشکل «بیش‌برازش» (Overfitting) می‌شود.

مشکلات استفاده از مدل‌های بایاس و با واریانس بزرگ

در علم داده (Data Science)، موازنه واریانس و بایاس (اریبی) به یک مسئله اصلی در «یادگیری نظارت شده» (Supervised Machine Learning) تبدیل شده است. در حالت ایده آل، مدلی را مناسب در نظر می‌گیریم که نه تنها در داده‌های آموزش دارای عملکرد مناسب باشد، بلکه به خوبی روی مجموعه مقادیر آزمایشی نیز تعمیم داده شود. متأسفانه انجام هر دو کار به طور هم زمان غیر ممکن است. روش‌های یادگیری با واریانس بالا، ممکن است بتوانند مدل مناسبی روی داده‌های آموزشی خود ایجاد کنند، اما هنگامی که چنین مدلی به منظور پیش‌بینی مقادیر براساس داده‌های آزمایشی مورد استفاده قرار می‌گیرد در ارائه مقادیر مناسب و با خطای کم برای متغیر پاسخ ناتوان خواهد بود. در مقابل، الگوریتم‌هایی که دارای بایاس زیاد هستند، معمولاً مدل‌های ساده‌تر و با پارامترهای کمتری ایجاد می‌کنند که مشکل بیش‌بردازش نداشته ولی متاسفانه از کم‌برازش رنج می‌برند.

مدل‌های با واریانس بزرگ (مثلا رگرسیون چند جمله‌ای هم‌مرتبه با تعداد مشاهدات)، که معمولاً پیچیده‌تر هستند، این امکان را می‌دهد تا داده‌های آموزشی به خوبی برازش شوند. با این وجود، ممکن است مشاهدات برازش شده دارای خطا یا نوفه باشند که متاسفانه مدل تحت تاثیر آن‌ها، برآوردها را با دقت انجام داده است. به این ترتیب پیش‌بینی‌ آن‌ها باعث افزودن پیچیدگی در مدل شده است. در حالیکه این امر از طرفی دقت برآوردها را هم برای داده‌های آزمایشی کمتر می‌کند. در مقابل، مدل‌هایی که دارای اریبی بزرگی هستند، نسبتاً ساده بوده (مثل مدل رگرسیون دو جمله‌ای یا حتی خطی) اما ممکن است واریانس کوچکتری را براساس مجموعه داده‌های آزمایشی ایجاد کنند.

منبع:

https://blog.faradars.org/%D9%85%D9%88%D8%A7%D8%B2%D9%86%D9%87-%D9%88%D8%A7%D8%B1%DB%8C%D8%A7%D9%86%D8%B3-%D9%88-%D8%A7%D8%B1%DB%8C%D8%A8%DB%8C/


بایاسواریانسبیش برازشکم برازش
دانشجوی کارشناسی ارشد هوش مصنوعی دانشگاه مالک اشتر
شاید از این پست‌ها خوشتان بیاید