در مدلهای آماری و بخصوص الگوریتمهای یادگیری ماشین، مسئله موازنه واریانس و بایاس (اریبی) مورد بحث قرار میگیرد. در اغلب «مدلهای پیشبین» (Predictive Model)، وجود بایاس کوچک برای پارامترها منجر به واریانس بزرگ برای مدل خواهد شد. البته برعکس این حالت نیز وجود دارد، به این معنی که با کوچک کردن واریانس مدل، با مشکل بزرگ شدن بایاس یا اریبی پارامترها مواجه خواهیم شد.
مسئله اصلی آن است که در یک مدل مناسب، هم بایاس و هم واریانس باید حداقل ممکن باشند. ولی متاسفانه، کمینهسازی (Minimization) هر دو این شاخصها به شکل توام، امکانپذیر نیست. چنین وضعیتی را «تناقض واریانس-اریبی» (Bias-Variance Dilemma) مینامند. در ادامه هر یک از خطاها را معرفی کرده و نحوه ایجاد تعادل واریانس و اریبی را بازگو خواهیم کرد.
یک مدل آماری را در نظر بگیرید. قرار است پارامترهای این مدل توسط نمونه تصادفی برآورد شوند. به منظور اندازهگیری خطای مدل، مجموعه دادههای مربوط به نمونه تصادفی را به دو بخش تقسیم میکنیم. قسمت اول به منظور برآورد پارامترهای مدل مورد استفاده قرار میگیرد، به همین علت چنین مقادیری را «دادههای آموزشی» (Training Set) نامیده و به واسطه آنها، مدل را ایجاد میکنیم.
قسمت یا بخش دوم از نمونه تصادفی برای مشخص کردن خطای مدل به کار میرود زیرا قرار است این مدل به منظور پیشبینی مقادیر دیگری که در نمونه تصادفی وجود نداشتهاند، به کار رود. به این ترتیب از دسته یا بخش دوم نمونه تصادفی برای محاسبه اختلاف مقادیر واقعی و نتایج حاصل برازش مدل استفاده میکنیم. متاسفانه از آنجایی که مدل از قبل از وجود این دادهها اطلاع نداشته و نتوانسته خود را برحسب آنها وفق دهد، امکان کنترل این خطا وجود ندارد. برای این دسته از مقادیر نمونه از اصطلاح «دادههای آزمایشی» (Test Set) استفاده میکنیم.
براساس این دو بخش از نمونه تصادفی، علاقمند به ایجاد مدلی هستیم که در هر دو حالت یعنی هنگام آموزش (Train) و آزمایش (Test)، خطای کمی داشته باشد. خطای حاصل از به کارگیری مدل روی دادههای آموزشی، بایاس مدل گفته شده و از طرفی خطای مدل روی دادههای آزمایشی، واریانس مدل در نظر گرفته میشود.
در علم داده (Data Science)، موازنه واریانس و بایاس (اریبی) به یک مسئله اصلی در «یادگیری نظارت شده» (Supervised Machine Learning) تبدیل شده است. در حالت ایده آل، مدلی را مناسب در نظر میگیریم که نه تنها در دادههای آموزش دارای عملکرد مناسب باشد، بلکه به خوبی روی مجموعه مقادیر آزمایشی نیز تعمیم داده شود. متأسفانه انجام هر دو کار به طور هم زمان غیر ممکن است. روشهای یادگیری با واریانس بالا، ممکن است بتوانند مدل مناسبی روی دادههای آموزشی خود ایجاد کنند، اما هنگامی که چنین مدلی به منظور پیشبینی مقادیر براساس دادههای آزمایشی مورد استفاده قرار میگیرد در ارائه مقادیر مناسب و با خطای کم برای متغیر پاسخ ناتوان خواهد بود. در مقابل، الگوریتمهایی که دارای بایاس زیاد هستند، معمولاً مدلهای سادهتر و با پارامترهای کمتری ایجاد میکنند که مشکل بیشبردازش نداشته ولی متاسفانه از کمبرازش رنج میبرند.
مدلهای با واریانس بزرگ (مثلا رگرسیون چند جملهای هممرتبه با تعداد مشاهدات)، که معمولاً پیچیدهتر هستند، این امکان را میدهد تا دادههای آموزشی به خوبی برازش شوند. با این وجود، ممکن است مشاهدات برازش شده دارای خطا یا نوفه باشند که متاسفانه مدل تحت تاثیر آنها، برآوردها را با دقت انجام داده است. به این ترتیب پیشبینی آنها باعث افزودن پیچیدگی در مدل شده است. در حالیکه این امر از طرفی دقت برآوردها را هم برای دادههای آزمایشی کمتر میکند. در مقابل، مدلهایی که دارای اریبی بزرگی هستند، نسبتاً ساده بوده (مثل مدل رگرسیون دو جملهای یا حتی خطی) اما ممکن است واریانس کوچکتری را براساس مجموعه دادههای آزمایشی ایجاد کنند.
منبع:
https://blog.faradars.org/%D9%85%D9%88%D8%A7%D8%B2%D9%86%D9%87-%D9%88%D8%A7%D8%B1%DB%8C%D8%A7%D9%86%D8%B3-%D9%88-%D8%A7%D8%B1%DB%8C%D8%A8%DB%8C/