واریانس به حساسیت الگوریتم شما نسبت به مجموعه خاصی از دادههای آموزشی اشاره دارد. مدل با واریانس زیاد، حساسیت زیادی نسبت به داده ها داشته بنابراین ارزیابی مدل برروی دیتای آموزش، نتیجه ی عالی اما بر روی دیتایی که تا بحال ندیده(test) احتمالا بد خواهد بود و این همان overfitting خواهد بود.
به عنوان مثالی در این زمینه، فرض کنید در حال مدل کردن آب و هوای فصل بهار هستیم. از آنجایی که در فصل بهار، آب و هوا شرایط پایداری نداردبنابراین واریانس دیتای ما بسیار زیاد خواهد بود. حال اگر در این مساله از مدلی با پیچیدگی زیاد برای پیش بینی استفاده کنیم، مدل داده ها را با این پراکندگی حفظ خواهد کرد و مسلما در پیش بینی ها برای تخمین دما و آب هوا در سالهای آینده عملکرد خوبی نخواهد داشت.
بایاس
بایاس اختلاف بین میانگین پیش بینی مدل ما و مقدار واقعی ای که ما در حال تلاش برای پیش بینی آن هستیم، می باشد. چنانچه بایاس مدل زیاد باشد، توجه مدل به داده های آموزشی کمتر شده و آموزش خوبی صورت نخواهد پذیرفت که همان underfitting خواهد بود.
به عنوان مثالی در این زمینه، استفاده از مدل خطی برای دیتاهایی با پیچیدگی زیاد و حساسیت بالا همچون بورس. از آنجا که در بازار سرمایه و بورس کوچکترین تغییراتی اثرات زیادی خواهند گذاشت، مدل های پیش بینی باید دقیقتر و با پیچیدگی و دقت بالاتری باشند بنابراین استفاده از مدل های خطی احتمالا underfiiting را به همراه خواهد داشت.
بنابراین، با هدف رسیدن به یک مدل مناسب، یعنی هم سادگی و هم پیچیدگی متعادل، می بایست یک trade_off یا تعادلی بین بایاس و واریانس برقرار کرد تا خطای کل را به حداقل برساند.