من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
درک توازن بین بایاس و واریانس
منتشرشده در towardsdatascience
لینک مقاله اصلی: Understanding the Bias-Variance Tradeoff
هر زمان که در مورد پیشبینی مدل بحث میکنیم، درک خطاهای پیشبینی مهم است (بایاس و واریانس). یک موازنه بین توانایی یک مدل برای به حداقل رساندن بایاس و واریانس وجود دارد. دستیابی به درک صحیح از این خطاها نه تنها در ساختن مدلهای دقیق، بلکه در اجتناب از اشتباه بیش برازش یا عدم تناسب نیز کمک میکنند.
پس بیایید با اصول شروع کنیم و ببینیم که آنها چه تفاوتی در مدلهای یادگیری ماشین ما ایجاد میکنند.
بایاس چیست؟
بایاس تفاوت بین پیشبینی میانگین مدل ما و مقدار درستی است که ما سعی داریم آن را پیشبینی کنیم. مدل با بایاس بالا توجه بسیار کمی به دادههای آموزشی دارد و مدل را بیش از حد ساده میکند. این اتفاق همیشه منجر به خطای بالا در دادههای آموزشی و تستی میشود.
واریانس چیست؟
واریانس تغییرپذیری پیشبینی مدل برای یک نقطه داده مشخص یا مقداری است که به ما میزان گستردگی دادهها را میگوید. مدل با واریانس بالا توجه زیادی به دادههای آموزشی میکند و برای دادههایی که قبلا ندیده است تعمیم ایجاد نمیکند. در نتیجه، چنین مدلهایی در دادههای آموزشی بسیار خوب عمل میکنند اما نرخ خطای بالایی در دادههای تست دارند.
از نظر ریاضی
فرض کنید متغیری که ما سعی در پیشبینی آن داریم Y و متغیر کمکی دیگر X باشند. ما فرض میکنیم که رابطهای بین این دو وجود دارد به طوری که
Y = f (X) + e
که e عبارت خطا است و معمولا با میانگین ۰ توزیع میشود.
ما با استفاده از رگرسیون خطی یا هر تکنیک مدلسازی دیگری، یک مدل f به توان X از تابع X میسازیم.
بنابراین مربع خطای مورد انتظار در نقطه x برابر است با:
Err(x) را میتوان به صورت زیر تجزیه کرد:
Err(x) مجموع بایاس به توان ۲، واریانس و خطای کاهش ناپذیر است.
خطای کاهش ناپذیر، خطایی است که نمی توان با ایجاد مدلهای خوب آن را کاهش داد. این معیار میزان نویز در دادههای ماست. در اینجا مسئله مهم درک این است که مهم نیست که ما چقدر مدل خود را خوب میسازیم، دادههای ما مقدار مشخصی نویز یا خطای کاهش ناپذیر خواهند داشت که نمی توان آنها را حذف کرد.
بایاس و واریانس با استفاده از دیاگرام چشم گاوی
در نمودار بالا، مرکز هدف مدلی است که مقادیر صحیح را به خوبی پیشبینی میکند. هرچه از نقطه مرکزی دور میشویم، پیشبینیمان بدتر و بدتر میشود. ما میتوانیم فرآیند ساخت مدل خود را برای گرفتن ضربات جداگانه بر روی هدف تکرار کنیم.
در یادگیری تحت نظارت، عدم تناسب زمانی اتفاق میافتد که یک مدل قادر به درک الگوی اساسی دادهها نباشد. این مدلها معمولا دارای بایاس بالا و واریانس پایین هستند. این اتفاق زمانی میافتد که ما مقدار داده بسیار کمتری برای ساخت یک مدل دقیق داریم یا زمانی که سعی میکنیم یک مدل خطی با دادههای غیرخطی بسازیم. همچنین، این نوع مدلها برای بدست آوردن الگوهای پیچیده در دادههایی مانند رگرسیون خطی و منطقی بسیار ساده هستند.
در یادگیری تحت نظارت، بیش برازش زمانی اتفاق میافتد که مدل ما نویز را همراه با الگوی اساسی در دادهها بگیرد. این موضوع زمانی اتفاق میافتد که ما مدل خود را بر روی مجموعه داده با نویز آموزش میدهیم. این مدلها دارای بایاس پایین و واریانس بالا هستند. چنین مدلهایی بسیار پیچیدهاند؛ مانند درختهای تصمیمگیری که مستعد بیش برازش هستند.
چرا واریانس و بایاس توازن دارند؟
اگر مدل ما بسیار ساده بوده و پارامترهای بسیار کمی داشته باشد، آنگاه ممکن است دارای بایاس بالا و واریانس پایین باشد. از سوی دیگر، اگر مدل ما دارای تعداد زیادی پارامتر باشد، واریانس بالا و بایاس پایین خواهد داشت. بنابراین ما نیاز داریم که تعادل درست / خوب را بدون بیش برازش و عدم تناسب دادهها پیدا کنیم.
پیچیدگی این موازنه، دلیل وجود یک موازنه بین بایاس و واریانس است. یک الگوریتم نمیتواند همزمان هم پیچیدهتر و هم کمتر پیچیده باشد.
خطای کلی
برای ساخت یک مدل خوب، ما باید یک تعادل خوب بین بایاس و واریانس بیابیم به طوری که خطای کلی را به حداقل برساند.
یک تعادل بهینه بایاس و واریانس هرگز باعث بیش برازش یا عدم تناسب مدل نخواهد شد.
بنابراین درک بایاس و واریانس برای درک رفتار مدلهای پیشبینی ضروری است.
این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
رقیب کلابهاوس فیسبوک امروز در ایالاتمتحده شروع به کار کرد.
مطلبی دیگر از این انتشارات
مطالعه جدیدی نشان میدهد که برابری جنسیتی بیشتر میتواند امید به زندگی را افزایش دهد
مطلبی دیگر از این انتشارات
بهینهسازی استفاده از حافظه Pandas برای مجموعه دادههای بزرگ