خواندن ۱ دقیقه·۳ سال پیش

تکنیک‌های مدیریت دادگان نامتوازن در یادگیری ماشین!

یکی از چالش‌های اساسی در پروژه‌های علوم داده وجود دادگان نامتوازن (Imbalance) در کلاس متغیر هدف است. بعنوان مثال در مساله تشخیص تقلب ما با حجم بسیار کمی از رکوردهایی با برچسب تقلب مواجه هستیم. در حالی که حجم دادگانی با برچسب عادی یا غیرتقلب بسیار بیشتر است. این تفاوت حجم دادگان سبب بروز خطا یا بایاس در مدل‌های یادگیری ماشین میشود.

جهت مدیریت دادگان نامتوازن روش‌های متعددی توسعه داده شده است. که بصورت اجمالی با 10 متد زیر در مدیریت دادگان متوازن آشنا خواهید شد.

▪️ Random Under-Sampling

▪️ Random Over-Sampling

▪️ Random under-sampling with imblearn

▪️ Random over-sampling with imblearn

▪️ Under-sampling: Tomek links

▪️ Synthetic Minority Oversampling Technique (SMOTE)

▪️ NearMiss

▪️ Change the performance metric

▪️ Penalize Algorithms (Cost-Sensitive Training)

▪️ Change the algorithm

یادگیریماشینmllearning

winexbot_Dasna

شاید از این پست‌ها خوشتان بیاید