دادههایی که نیاز به پاک سازی دارد به وسیله خطاهای موجود در آن تشخیص داده میشوند و دادهای که در آن خطا نباشد نیاز به پاک سازی ندارد اما بهتر است پیش از استفاده از داده موارد زیر که خطاهایی هستند امکان وقوع آنها در داده وجود دارد بررسی شود. هنگام پاک سازی داده این موارد مورد بررسی قرار میگیرند و در این مرحله به آنها رسیدگی میشود.
۱-مقادیر از دست رفته یا ناموجود
مقادیر از دست رفته، زمانی رخ میدهد که هیچ مقداری برای متغیر در یک مشاهده ذخیره نشده باشد. وجود دادههای ناقص، یک اتفاق رایج است و میتواند تاثیر قابلتوجهی بر نتایج حاصل از دادهها داشته باشد زیرا مقادیر از دست رفته موجب حذف ردیفهایی از داده میشود که در آنها این خطا وجود دارد. این عمل در اصل کوچک کردن حجم نمونه است و کوچک بودن حجم نمونه باعث تحلیلهای اریب و نادرست میشود. همچنین این خطا باعث بی ارزش شدن سایر اطلاعات آن ردیف میشود پس پیشگیری از این خطا بسیار ارزشمند است. جدول زیر بخشی از دادههای مربوط معاملات خودرو در آمریکا است. همانطور که مشاهده میکنید در ستونهای مختلف آن مقادیر از دست رفته مشاهده میشود.
از دلایل وقوع این خطا در مجموعه داده میتوان به خطا انسانی اشاره کرد؛ برای مثال کاربری که دادهها را در رایانه ذخیره میکند، بر اثر اشتباه مقدار مشاهده شدهای را وارد نمیکند یا شخص مقدار مورد نظر خود را مشاهده نمیکند مثل زمانی که شخص پرسشنامه توزیع کرده است و عدهای از افراد که پرسشنامه را دریافت کردهاند جواب بعضی از سوالها را نمیدهند در این مرحله شخص پرسشگر دادههایی ناقص در اختیار دارد.
برای رسیدگی به مقادیر از دست رفته میتوان از روشهای زیر استفاده کرد.