درک توازن بین بایاس و واریانس

منتشرشده در towardsdatascience
لینک مقاله اصلی: Understanding the Bias-Variance Tradeoff

هر زمان که در مورد پیش‌بینی مدل بحث می‌کنیم، درک خطاهای پیش‌بینی مهم است (بایاس و واریانس). یک موازنه بین توانایی یک مدل برای به حداقل رساندن بایاس و واریانس وجود دارد. دستیابی به درک صحیح از این خطاها نه تنها در ساختن مدل‌های دقیق، بلکه در اجتناب از اشتباه بیش برازش یا عدم تناسب نیز کمک می‌کنند.

پس بیایید با اصول شروع کنیم و ببینیم که آن‌ها چه تفاوتی در مدل‌های یادگیری ماشین ما ایجاد می‌کنند.

بایاس چیست؟

بایاس تفاوت بین پیش‌بینی میانگین مدل ما و مقدار درستی است که ما سعی داریم آن را پیش‌بینی کنیم. مدل با بایاس بالا توجه بسیار کمی به داده‌های آموزشی دارد و مدل را بیش از حد ساده می‌کند. این اتفاق همیشه منجر به خطای بالا در داده‌های آموزشی و تستی  می‌شود.

واریانس چیست؟

واریانس تغییرپذیری پیش‌بینی مدل برای یک نقطه داده مشخص یا مقداری است که به ما میزان گستردگی داده‌ها را می‌گوید. مدل با واریانس بالا توجه زیادی به داده‌های آموزشی می‌کند و برای داده‌هایی که قبلا ندیده است تعمیم ایجاد نمی‌کند. در نتیجه، چنین مدل‌هایی در داده‌های آموزشی بسیار خوب عمل می‌کنند اما نرخ خطای بالایی در داده‌های تست دارند.

از نظر ریاضی

فرض کنید متغیری که ما سعی در پیش‌بینی آن داریم Y و متغیر کمکی دیگر X باشند. ما فرض می‌کنیم که رابطه‌ای بین این دو وجود دارد به طوری که

Y = f (X) + e

که e عبارت خطا است و معمولا با میانگین ۰ توزیع می‌شود.

ما با استفاده از رگرسیون خطی یا هر تکنیک مدل‌سازی دیگری، یک مدل f به توان X از تابع X می‌سازیم.

بنابراین مربع خطای مورد انتظار در نقطه x برابر است با:

Err(x) را می‌توان به صورت زیر تجزیه کرد:

Err(x) مجموع بایاس به توان ۲، واریانس و خطای کاهش ناپذیر است.

خطای کاهش ناپذیر، خطایی است که نمی توان با ایجاد مدل‌های خوب آن را کاهش داد. این معیار میزان نویز در داده‌های ماست. در اینجا مسئله مهم درک این است که مهم نیست که ما چقدر مدل خود را خوب می‌سازیم، داده‌های ما مقدار مشخصی نویز یا خطای کاهش ناپذیر خواهند داشت که نمی توان آن‌ها را حذف کرد.

بایاس و واریانس با استفاده از دیاگرام چشم گاوی

در نمودار بالا، مرکز هدف مدلی است که مقادیر صحیح را به خوبی پیش‌بینی می‌کند. هرچه از نقطه مرکزی دور می‌شویم، پیش‌بینی‌مان بدتر و بدتر می‌شود. ما می‌توانیم فرآیند ساخت مدل خود را برای گرفتن ضربات جداگانه بر روی هدف تکرار کنیم.

در یادگیری تحت نظارت، عدم تناسب زمانی اتفاق می‌افتد که یک مدل قادر به درک الگوی اساسی داده‌ها نباشد. این مدل‌ها معمولا دارای بایاس بالا و واریانس پایین هستند. این اتفاق زمانی می‌افتد که ما مقدار داده بسیار کمتری برای ساخت یک مدل دقیق داریم یا زمانی که سعی می‌کنیم یک مدل خطی با داده‌های غیرخطی بسازیم. همچنین، این نوع مدل‌ها برای بدست آوردن الگوهای پیچیده در داده‌هایی مانند رگرسیون خطی و منطقی بسیار ساده هستند.

در یادگیری تحت نظارت، بیش برازش زمانی اتفاق می‌افتد که مدل ما نویز را همراه با الگوی اساسی در داده‌ها بگیرد. این موضوع زمانی اتفاق می‌افتد که ما مدل خود را بر روی مجموعه داده با نویز آموزش می‌دهیم. این مدل‌ها دارای بایاس پایین و واریانس بالا هستند. چنین مدل‌هایی بسیار پیچیده‌اند؛ مانند درخت‌های تصمیم‌گیری که مستعد بیش برازش هستند.

چرا واریانس و بایاس توازن دارند؟

اگر مدل ما بسیار ساده بوده و پارامترهای بسیار کمی داشته باشد، آنگاه ممکن است دارای بایاس بالا و واریانس پایین باشد. از سوی دیگر، اگر مدل ما دارای تعداد زیادی پارامتر باشد، واریانس بالا و بایاس پایین خواهد داشت. بنابراین ما نیاز داریم که تعادل درست / خوب را بدون بیش برازش و عدم تناسب داده‌ها پیدا کنیم.

پیچیدگی این موازنه، دلیل وجود یک موازنه بین بایاس و واریانس است. یک الگوریتم نمی‌تواند همزمان هم پیچیده‌تر و هم کم‌تر پیچیده باشد.

خطای کلی

برای ساخت یک مدل خوب، ما باید یک تعادل خوب بین بایاس و واریانس بیابیم به طوری که خطای کلی را به حداقل برساند.

یک تعادل بهینه بایاس و واریانس هرگز باعث بیش برازش یا عدم تناسب مدل نخواهد شد.

بنابراین درک بایاس و واریانس برای درک رفتار مدل‌های پیش‌بینی ضروری است.

این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.