ابوالفضل وکیلی
ابوالفضل وکیلی
خواندن ۳ دقیقه·۵ سال پیش

بررسی تکنیک Data Cleaning در Pre Processing

قبل از انجام هر تحلیل اطلاعاتی ما نیازمند این هستیم که اون داده رو پیش پردازش کنیم.
اولین تکنیکی که بدین منظور استفاده می کنند، تکنیک Data Cleaning هست. در این تکنیک تحلیلگر میاد داده هایی که miss هستند رو با مقادیر منطقی پر می کنه و بررسی می کنه اگه داده ها نوز داشته باشند، اون ها رو هموار می کنه و کلا اگر ناسازگاری در داده مشاهده بشه برطرف می شه.

بخشی از این تکنیک رو با یک سناریو ساده بررسی می کنیم.
سناریو به این صورت هست که : فرض کنید شما معلمی هستید و از دانش آموزانتون امتحان گرفتید و قراره میانگین نمره کلاس رو محاسبه کنید.

اول دیتاست رو فرا می خونیم :

همچنین اینو هم می دونیم که بعضی از دانش آموزان نتونستند این امتحانو بدند، پس نمره ای براشون ثبت نشده و فیلد نمره براشون خالی هست. همونطور که در تصویر زیر مشاهده می کنید، فردی به اسم رضا نتونسته سر امتحان حاضر بشه.

نوع داده هر ستون رو بررسی می کنیم.

می بینیم که نام و نام خانوادگی و نمره، هر دو تاشون درست هستند. یعنی اگه مثلا نمره int بود، باید تبدیل به عدد اعشاری می کردیم. چون نمره 9.78 منطقا باید معنی داشته باشه!!!

می ریم اطلاعات عمومی رو در میاریم :

اگه بخواین میانگین نمره کلاس رو محاسبه کنید، با وجود داده های null بدون شک به خطا می خورید. پس باید برای این داده های null یه فکری کرد. راه کار هایی که فعلا داریم اینا هست :

1- منتظر بمونیم که این دانش آموزان بیان امتحان بدن.

2- همین جوری یک نمره ای براشون رد کنید. مثلا صفر

3- نمره نفر قبلش رو بذارید!!! (خیلی مسخره هست!!!)

4- نمره میانگین کلاس رو براشون بذارید. (خوش به حالشون می شه!!!)

5- کلا اونا رو حذف کنیم و در میانگین گیری کلاس شرکتشون ندیم.

بهترین کار اینکه صبر کنیم تا اون کسانی که امتحان نیومدن بیان و امتحا بدن اما اگه امتحان باید و باید یکبار برگزار بشه چاره ای نیست.

اگه از راه حل شماره دو استفاده کنید و نمره کسانی که امتحان نیومدن رو صفر در نظر بگیرید، نتیجه به میانگین کلاس صدمه می زنه. پس اگه بین این کلاس و کلاس های دیگه رقابت باشه، همه ی بچه های این کلاس ضرر می کنن!!!

معدل می شه :

رویکرد شماره سه رو توضیح نمی دم چون خیلی مضحک و مسخره هست!

رویکرد شماره چهار، میانگین نمرات کلاس رو براشون می ذاریم :

و این طوری میانگین نمرات کلاس خوبه :

اگه از راه حل شماره 5 استفاده کنیم :

در این صورت میانگین می شه :

خب در این قسمت سعی کردم بخش خیلی کوچکی از پیش پردازش داده ها رو به تصویر بکشم.
پیش پردازش داده هنوز تموم نشده و چند تا تکنیک دیگه هم داره که انشالله فرصت شد، در نوشته های بعدی می گم.

امیدوارم این نوشته براتون مفید بوده باشه

از همراهیتون صمیمانه سپاسگزارم ...

پایتونتحلیل اطلاعاتداده کاویpython
instagram : @a_vakily7
شاید از این پست‌ها خوشتان بیاید