به عنوان یک مهندس یادگیری ماشین شما زمان زیادی را صرف حذف نمونه های بد و تمیز کردن نمونه های قابل نجات خواهید کرد. حتی چند نمونه بد میتواند مجموعه داده را خراب کند.
دلایل شایع بد بودن یک مجموعه داده
میتوان مثال های بد را با یک برنامه تنشخیص داد. به عنوان مثال مجموعه داده زیر ۶ مقدار تکراری دارد:

یا مثلا فرض کنید رنج دما برای یک ویژگی باید بین ۱۰ تا ۳۰ درجه باشد. ولی به طور تصادفی اتفاق میافتد که دما به طور موقتی در برابر خورشید باشد که باعث ایجاد یک نمونه پرت میشود:

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True
watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False