پیش پردازش داده در داده کاوی


  • پیش پردازش در داده کاوی: پیش پردازش داده یک تکنیک داده کاوی است که برای تبدیل داده های خام در قالبی مفید و کارآمد استفاده می شود.

مراحل مربوط به پیش پردازش داده ها:

1. پاکسازی داده ها:

داده ها می توانند بخش های بی ربط و گم شده زیادی داشته باشند. برای رسیدگی به این قسمت، پاکسازی داده ها انجام می شود. این شامل مدیریت داده های از دست رفته، داده های نویز و غیره است.

  • (الف).داده های از دست رفته:

این وضعیت زمانی ایجاد می‌شود که برخی از داده‌ها در داده‌ها وجود نداشته باشد. می توان آن را به روش های
مختلف مدیریت کرد.

بعضی از آنها:

1.تاپل ها را نادیده بگیرید:

این رویکرد فقط زمانی مناسب است که مجموعه داده ای که در اختیار داریم بسیار بزرگ باشد و چندین مقدار
در یک تاپل وجود نداشته باشد.

2.مقادیر از دست رفته را پر کنید:

راه های مختلفی برای انجام این کار وجود دارد. شما می توانید انتخاب کنید که مقادیر از دست رفته را به صورت
دستی، با میانگین مشخصه یا محتمل ترین مقدار پر کنید.

  • (ب). داده های پر سر و صدا:

داده های پر سر و صدا یک داده بی معنی هستند که توسط ماشین ها قابل تفسیر نیستند. این داده ها می
توانند به دلیل جمع آوری داده های معیوب، خطاهای ورود داده ها و غیره تولید شوند. می توان آن را به روش
های زیر مدیریت کرد:

1.روش باینینگ:

این روش بر روی داده های مرتب شده به منظور صاف کردن آن کار می کند. کل داده ها به بخش هایی با
اندازه مساوی تقسیم می شوند و سپس روش های مختلفی برای تکمیل کار انجام می شود. هر بخش به طور
جداگانه مدیریت می شود. می توان تمام داده ها را در یک بخش با میانگین آن جایگزین کرد یا مقادیر مرزی را
می توان برای تکمیل کار مورد استفاده قرار داد.

2.پسرفت:

در اینجا داده ها را می توان با تطبیق آن با یک تابع رگرسیون صاف کرد. رگرسیون مورد استفاده ممکن است
خطی (دارای یک متغیر مستقل) یا چندگانه (دارای چندین متغیر مستقل) باشد.

3.خوشه بندی:

این رویکرد داده های مشابه را در یک خوشه گروه بندی می کند. نقاط پرت ممکن است شناسایی نشده باشند
یا خارج از خوشه ها قرار بگیرند.

2. تبدیل داده ها:

این مرحله به منظور تبدیل داده ها به اشکال مناسب برای فرآیند کاوی انجام می شود. این شامل راه های زیر است:

1.عادی سازی:

این به منظور مقیاس بندی مقادیر داده ها در یک محدوده مشخص انجام می شود (-1.0 تا 1.0 یا 0.0 تا 1.0)

2.انتخاب ویژگی:

در این استراتژی، ویژگی‌های جدید از مجموعه ویژگی‌های داده شده برای کمک به فرآیند استخراج ساخته
می‌شوند.

3.گسسته سازی:

این کار برای جایگزینی مقادیر خام صفت عددی توسط سطوح بازه ای یا سطوح مفهومی انجام می شود.

4.نسل سلسله مراتب مفهومی:

در اینجا ویژگی ها از سطح پایین تر به سطح بالاتر در سلسله مراتب تبدیل می شوند. به عنوان مثال - ویژگی
"شهر" را می توان به "کشور" تبدیل کرد.

3. کاهش داده ها:

از آنجایی که داده کاوی تکنیکی است که برای مدیریت حجم عظیمی از داده ها استفاده می شود. در حین کار با حجم عظیمی از داده ها، تجزیه و تحلیل در چنین مواردی سخت تر شد. برای خلاص شدن از شر این، از تکنیک کاهش داده استفاده می کنیم. هدف آن افزایش کارایی ذخیره سازی و کاهش هزینه های ذخیره سازی و تجزیه و تحلیل داده ها است.

مراحل مختلف کاهش داده ها عبارتند از:

1.تجمع مکعب داده:

عملیات تجمیع به داده ها برای ساخت مکعب داده اعمال می شود.

2.انتخاب زیر مجموعه ویژگی:

ویژگی های بسیار مرتبط باید استفاده شود، بقیه همه را می توان دور انداخت. برای انجام انتخاب صفت،
می‌توان از سطح معنی‌داری و p-مقدار صفت استفاده کرد. مشخصه‌ای که مقدار p بیشتر از سطح معنی‌داری
دارد را می‌توان کنار گذاشت.

3.کاهش تعداد:

این امکان ذخیره مدل داده ها را به جای کل داده ها فراهم می کند، به عنوان مثال: مدل های رگرسیون.

4.کاهش ابعاد:

این باعث کاهش اندازه داده ها با مکانیسم های رمزگذاری می شود. اگر پس از بازسازی از داده های فشرده،
بتوان داده های اصلی را بازیابی کرد، این کاهش را کاهش بدون تلفات و در غیر این صورت کاهش اتلافی می
نامند. دو روش موثر کاهش ابعاد عبارتند از: تبدیل موجک و PCA (تحلیل اجزای اصلی).



گردآورند:

  • حسین قربانی

با تشکر از استاد دکتر مریم حاجی اسمعیلی. دکترای علوم کامپیوتر از دانشگاه کینگستون لندن.

Dr. Maryam Hajiesmaeili

PhD of computer science from Kingston university of London

https://ir.linkedin.com/in/dr-maryam-hajiesmaeili-90930743



منابع:

https://www.techtarget.com/searchdatamanagement/definition/data-preprocessing
https://www.projectpro.io/article/data-preprocessing-techniques-and-steps/512
https://blog.faradars.org/data-preprocessing-in-data-mining/
https://www.geeksforgeeks.org/data-preprocessing-in-data-mining/?ref=leftbar-rightbar