یکی از چالشهای اساسی در پروژههای علوم داده وجود دادگان نامتوازن (Imbalance) در کلاس متغیر هدف است. بعنوان مثال در مساله تشخیص تقلب ما با حجم بسیار کمی از رکوردهایی با برچسب تقلب مواجه هستیم. در حالی که حجم دادگانی با برچسب عادی یا غیرتقلب بسیار بیشتر است. این تفاوت حجم دادگان سبب بروز خطا یا بایاس در مدلهای یادگیری ماشین میشود.
جهت مدیریت دادگان نامتوازن روشهای متعددی توسعه داده شده است. که بصورت اجمالی با 10 متد زیر در مدیریت دادگان متوازن آشنا خواهید شد.
▪️ Random Under-Sampling
▪️ Random Over-Sampling
▪️ Random under-sampling with imblearn
▪️ Random over-sampling with imblearn
▪️ Under-sampling: Tomek links
▪️ Synthetic Minority Oversampling Technique (SMOTE)
▪️ NearMiss
▪️ Change the performance metric
▪️ Penalize Algorithms (Cost-Sensitive Training)
▪️ Change the algorithm