والا خسروی
والا خسروی
خواندن ۲ دقیقه·۴ سال پیش

آشنایی با پاکسازی داده

پاک سازی داده بخشی از آماده سازی داده جهت اعمالی مانند تهیه گزارش از دادهها، انجام تحلیلهای آماری و یادگیری ماشین است. پاک سازی داده فرایند رسیدگی به خطاهایی است که در انجام اعمالی از این قبیل اختلال ایجاد میکنند. با درنظر گرفتن این موضوع که روزانه حجم دادههایی که ذخیره میشود افزایش مییابد احتمال وقوع انواع خطاها در این دادهها بیشتر میشود همچنین احتمال وقوع این خطاها پس از ادغام چند مجموعه داده نیز وجود دارد. هدف این نوشته معرفی پاک سازی داده و روشهای انجام آن است که در ادامه به معرفی خطاهای موجود در دادههای نیازمند پاک سازی و روشهای برخورد با هر یک از آن خطاها میپردازیم و همچنین منابع به وجود آمدن این خطاها را در نوشته های بعدی مورد بررسی قرار میدهیم.

پاکسازی داده چیست؟

تمیز کردن داده به فرآیند تشخیص، اصلاح، تعویض یا حذف دادههایی از دادههای کثیف از یک مجموعه داده، جدول، یا پایگاهداده میگویند. داده کثیف به دادهی خامی گفته میشود که اگر تحلیلها به صورت مستقیم بر روی آن انجام گیرد امکان رخ دادن خطا وجود دارد یا داده مورد نظر آمادگی انجام تحلیل را ندارد. همچنین پاک سازی داده یک عمل اجتناب ناپذیر برای شروع یادگیری ماشین است زیرا پاک سازی داده صحت دادهها را بالا میبرد و در یادگیری ماشین وجود دادههای باکیفیتتر از ابداع الگوریتمهای پیچیدهتر ارزشمندتر است. پاک سازی داده به معنی ساده حذف کردن اطلاعات موجود نیست بلکه هدف از پاک سازی داده ایجاد فضای بیشتر برای ذخیره دادههای جدید است. پاک سازی داده یافتن راهی برای به حداکثر رساندن صحت دادههای در دسترس است.

مزایای پاکسازی داده چیست؟

  • زمانی که داده مورد نظر ما از چندین مجموعه داده استخراج میشود خطاهای بزرگ و ناسازگاریهای اجتنابناپذیری در آن رخ میدهد که در پاک سازی داده به شناسایی و اصلاح یا حذف آن میپردازیم.
  • پاک سازی داده، داده را برای همه کارآمدتر میسازد، زیرا افراد با سرعت بیشتری به اطلاعات مورد نظر خود میرسند زیرا داده تمیز دارای وضوح بیشتری است. فرض کنید در یک سامانه چند گروه با یک مجموعه داده سر و کار دارند. اگر یک گروه وظیفه پاک سازی این داده را به عهده بگیرد باقی گروهها در استفاده از این داده میتوانند عملکرد سریعتر و بهتری داشته باشند.
  • پس از پاک سازی داده، صحت دادهها افزایش مییابد و میتوان تحلیلهای دقیقتر و بهتری ارائه داد. حتی میتوان گفت دادهای که به پاک سازی نیاز دارد آمادگی کافی را برای شروع تحلیلهای آماری را ندارد.
  • پس از پاک سازی داده حجم کمتری از حافظه به داده اختصاص مییابد زیرا در پاک سازی داده، دادههای فاقد ارزش از مجموعه داده حذف میشوند.

خطاهای موجود در دادههایی که نیاز به پاک سازی دارند

داده هایی که نیاز به پاکسازی دارند از طریق خطاهای موجود در آن‌ها شناسایی و اصلاح می‌شوند که این خطاها از قبیل موارد زیر می‌توانند باشند.

  • مقادیر از دست رفته یا ناموجود
  • ذخیره تکراری یک مشاهده
  • مقادیر فاقد ارزش
  • وجود کاراکترهای بی معنی
  • فرمت نادرست ستونها در داده
  • وجود داده‌های پرت
  • نگارش اشتباه کلمات
  • چند نگارشی بودن یک کلمه
  • ترتیب اشتباه
  • وجود داده های زیادی و بلااستفاده



در نوشته بعدی روش های برخورد با هر یک از این خطاها می‌پردازیم

آماریادگیری ماشینپاکسازی دادهداده کاویداده
دانشجو کارشناسی آمار شهید بهشتی بودم در حال حاضر دانشجو کارشناسی ارشد داده کاوی شهید بهشتی هستم و تجربه زیادی تو برنامه نویسی دارم.
شاید از این پست‌ها خوشتان بیاید