ویرگول
ورودثبت نام
مهدی محمدی
مهدی محمدی
مهدی محمدی
مهدی محمدی
خواندن ۱ دقیقه·۱ سال پیش

یادگیری ماشین: پاکسازی داده های عددی

به عنوان یک مهندس یادگیری ماشین شما زمان زیادی را صرف حذف نمونه های بد و تمیز کردن نمونه های قابل نجات خواهید کرد. حتی چند نمونه بد میتواند مجموعه داده را خراب کند.

دلایل شایع بد بودن یک مجموعه داده

  1. حذف مقادیر: مثلا فرد پر کننده فرم سن فرد را ثبت نکرده باشد
  2. مثال های تکراری: مثلا سرور دو بار یک فرم را آپلود کرده باشد
  3. مثال خارج از رنج بودن مقادیر ویژگی: مثلا فردی به طور تصادفی یک عدد اضافی تایپ کند
  4. برچسب های بد: مثلافردی به اشتباهی عکس یک درخت بلوط را به عنوان درخت افرا ثبت میکند

میتوان مثال های بد را با یک برنامه تنشخیص داد. به عنوان مثال مجموعه داده زیر ۶ مقدار تکراری دارد:

یا مثلا فرض کنید رنج دما برای یک ویژگی باید بین ۱۰ تا ۳۰ درجه باشد. ولی به طور تصادفی اتفاق میافتد که دما به طور موقتی در برابر خورشید باشد که باعث ایجاد یک نمونه پرت میشود:


ویژگی های یک داده عددی خوب

  1. به خوبی نام گذاری شده باشد
  2. درستی مقادیر چک شوند و موارد پرت حذف شوند. مثلا سن فرد ۲۲۵ سال باشد.
  3. مقادیر جادویی حذف شوند. مثلا استفاده از عدد -۱ برای ثبت عدم وجود مقدار در یک فیلد که باید برطرف شود. نمونه بد: watch_time_in_seconds: -1 نمونه خوب:

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False



داده‌های عددی: تبدیل‌های چندجمله‌ای



یادگیری ماشین
۲
۰
مهدی محمدی
مهدی محمدی
شاید از این پست‌ها خوشتان بیاید