ابتدا به طور مختصر به چند مفاهیم پایه می پردازیم
اریب (Bias) معیاری برای نشان دادن میزان نزدیکی پارامتر جامعه به برآوردگر آن پارامتر است.بدلیل اینکه براساس هر نمونه تصادفی، برآوردگر مربوط به پارامتر مقدار متفاوتی خواهد داشت، انتظار داریم که با تکرار نمونهگیریها، متوسط مقدار برآوردگرهای حاصل، با پارامتر واقعی جامعه تقریبا برابر شود. در این حالت میزان اریبی برآوردگر (فاصله آن از مقدار واقعی پارامتر) باید با مقدار صفر برابر باشد. چنین برآوردگری را یک برآوردگر «نااریب» (Unbiased) میگویند. در حقیقت وجود چنین خاصیتی برآوردگرهای پارامتر را به دو کلاس برآوردگر اریب و نااریب تفکیک میکند.
وردایی یا واریانس (به انگلیسی: Variance)، در نظریه احتمالات و آمار، نوعی سنجش پراکندگی است. مقدار وردایی با میانگینگیری از مربع فاصله مقدار محتمل یا مشاهده شده با مقدار مورد انتظار محاسبه میشود. در مقایسه با میانگین میتوان گفت که میانگین مکان توزیع را نشان میدهد، در حالی که وردایی مقیاسی است که نشان میدهد که دادهها حول میانگین چگونه پخش شدهاند. وردایی کمتر بدین معنا است که انتظار میرود که اگر نمونهای از توزیع مزبور انتخاب شود مقدار آن به میانگین نزدیک باشد.
مفهوک Over-fitting به این موضوع اشاره دارد که مدل ما زیادی خوب آموزش دیده است اما قابل تعمیم نیست.این اتفاق زمانی ممکن است بیفتد که مجموعه داده خیلی کوچک یا تابع پایه بسیار پیچیده باشد و همچنین شامل داده های نویزی نیز باشد ( البته کوچک بودن نیز به تنهایی می تواند مشکل ساز باشد حتی بدون داده های نویزی ). به همین خاطر می گوییم ماشین نمی تواند با داده های جدید درست نتیجه گیری کند.
مفهوم کم برازش یا Under-fitting زمانی اتفاق میفتد که مدل بسیار ساده است و برای یادگیری مناسب نیست.
فرض کنید برای دانش آموزان یک مدرسه می خواهید لباس متناسب با آن ها را تهیه کنید. اگر شاخص را تمام دانش آموزان مدرسه در نظر بگیرید دارای واریانس زیادی هستید چون دانش آموزان یک مدرسه دارای مقاطع مختلفی بوده و هم چنین هر مقطع دارای دانش آموزان با جثه های متفاوت است. اگر مبنا را یک نوع از دانش آموزان مثلا با قد کوتاه یک مقطع در نظر بگیرید دارای بایاس بسیار کمی خواهید بود چون لباس تولیدی برای این دانش آموزان یکسان خواهد بود .
اگر واریانس زیاد باشد دچار بیش برازش می شویم به این علت که لباس تولیدی برای تمامی دانش آموزان به دلیل جثه بزرگ یکسری از دانش آموزان به دیگر دانش آموزان قابل تعمیم نبوده و نمی توانند آن را به تن کنند و اصطلاحا لباس برای یکسری بسیار گشاد خواهد بود.
اگر بایاس زیاد باشد، یعنی گستره ی تغییرات لباس دانش آموزان کم باشد برای یکسری از دانش آموزان تنها متناسب بوده و برای دیگر دانش آموزان بسیار تنگ خواهد بود