ویرگول
ورودثبت نام
والا خسروی
والا خسروی
خواندن ۲ دقیقه·۴ سال پیش

برخورد با مقادیر از دست رفته در پاکسازی داده

داده‌هایی که نیاز به پاک سازی دارد به وسیله خطا‌های موجود در آن تشخیص داده می‌شوند و داده‌ای که در آن خطا نباشد نیاز به پاک سازی ندارد اما بهتر است پیش از استفاده از داده موارد زیر که خطاهایی هستند امکان وقوع آن‌ها در داده وجود دارد بررسی شود. هنگام پاک سازی داده این موارد مورد بررسی قرار می‌گیرند و در این مرحله به آن‌ها رسیدگی می‌شود.

۱-مقادیر از دست رفته یا ناموجود

مقادیر از دست رفته، زمانی رخ می‌دهد که هیچ مقداری برای متغیر در یک مشاهده ذخیره نشده باشد. وجود داده‌های ناقص، یک اتفاق رایج است و می‌تواند تاثیر قابل‌توجهی بر نتایج حاصل از داده‌ها داشته باشد زیرا مقادیر از دست رفته موجب حذف ردیف‌هایی از داده می‌شود که در آن‌ها این خطا وجود دارد. این عمل در اصل کوچک کردن حجم نمونه است و کوچک بودن حجم نمونه باعث تحلیل‌های اریب و نادرست می‌شود. همچنین این خطا باعث بی ارزش شدن سایر اطلاعات آن ردیف می‌شود پس پیشگیری از این خطا بسیار ارزشمند است. جدول زیر بخشی از داده‌های مربوط معاملات خودرو در آمریکا است. همانطور که مشاهده می‌کنید در ستون‌های مختلف آن مقادیر از دست رفته مشاهده می‌شود.

از دلایل وقوع این خطا در مجموعه داده می‌توان به خطا انسانی اشاره کرد؛ برای مثال کاربری که داده‌ها را در رایانه ذخیره می‌کند، بر اثر اشتباه مقدار مشاهده شده‌ای را وارد نمی‌کند یا شخص مقدار مورد نظر خود را مشاهده نمی‌کند مثل زمانی که شخص پرسشنامه‌ توزیع کرده است و عده‌ای از افراد که پرسشنامه را دریافت کرده‌اند جواب بعضی از سوال‌ها را نمی‌دهند در این مرحله شخص پرسشگر داده‌هایی ناقص در اختیار دارد.

برای رسیدگی به مقادیر از دست رفته می‌توان از روش‌های زیر استفاده کرد.

  • ردیف‌های شامل مقادیر از دست رفته را از مجموعه داده خود حذف کنیم. این عمل موجب استفاده کمتر از حافظه می‌شود.
  • · اگر در مجموعه داده، داده‌های از دست رفته‌ در ستون‌های متغیرهایی باشند که اطلاعات چند ستون دیگر با آن ارتباط داشته باشند می‌توان از برآورد رگرسیونی برای جایگذاری داده‌های از دست رفته کمک گرفت.
  • · در برخورد با مقادیر از دست رفته در ستون‌هایی که از جنس متغیر‌ پیوسته هستند می توان میانگین ستون را به جای مقادیر ناموجود قرار داد.
  • در صورت امکان با استفاده از اطلاعات داده‌های مشابه به پر کردن مقادیر از دست رفته پرداخت.
دادهداده کاویآمارپاکسازی داده
دانشجو کارشناسی آمار شهید بهشتی بودم در حال حاضر دانشجو کارشناسی ارشد داده کاوی شهید بهشتی هستم و تجربه زیادی تو برنامه نویسی دارم.
شاید از این پست‌ها خوشتان بیاید