پاک سازی داده بخشی از آماده سازی داده جهت اعمالی مانند تهیه گزارش از دادهها، انجام تحلیلهای آماری و یادگیری ماشین است. پاک سازی داده فرایند رسیدگی به خطاهایی است که در انجام اعمالی از این قبیل اختلال ایجاد میکنند. با درنظر گرفتن این موضوع که روزانه حجم دادههایی که ذخیره میشود افزایش مییابد احتمال وقوع انواع خطاها در این دادهها بیشتر میشود همچنین احتمال وقوع این خطاها پس از ادغام چند مجموعه داده نیز وجود دارد. هدف این نوشته معرفی پاک سازی داده و روشهای انجام آن است که در ادامه به معرفی خطاهای موجود در دادههای نیازمند پاک سازی و روشهای برخورد با هر یک از آن خطاها میپردازیم و همچنین منابع به وجود آمدن این خطاها را در نوشته های بعدی مورد بررسی قرار میدهیم.
تمیز کردن داده به فرآیند تشخیص، اصلاح، تعویض یا حذف دادههایی از دادههای کثیف از یک مجموعه داده، جدول، یا پایگاهداده میگویند. داده کثیف به دادهی خامی گفته میشود که اگر تحلیلها به صورت مستقیم بر روی آن انجام گیرد امکان رخ دادن خطا وجود دارد یا داده مورد نظر آمادگی انجام تحلیل را ندارد. همچنین پاک سازی داده یک عمل اجتناب ناپذیر برای شروع یادگیری ماشین است زیرا پاک سازی داده صحت دادهها را بالا میبرد و در یادگیری ماشین وجود دادههای باکیفیتتر از ابداع الگوریتمهای پیچیدهتر ارزشمندتر است. پاک سازی داده به معنی ساده حذف کردن اطلاعات موجود نیست بلکه هدف از پاک سازی داده ایجاد فضای بیشتر برای ذخیره دادههای جدید است. پاک سازی داده یافتن راهی برای به حداکثر رساندن صحت دادههای در دسترس است.
داده هایی که نیاز به پاکسازی دارند از طریق خطاهای موجود در آنها شناسایی و اصلاح میشوند که این خطاها از قبیل موارد زیر میتوانند باشند.
در نوشته بعدی روش های برخورد با هر یک از این خطاها میپردازیم