مریم قهرمانی
مریم قهرمانی
خواندن ۱ دقیقه·۲ سال پیش

دردسرهای تفسیر غلط از موارد مبهم


چالش‌های preprocessing:

یکی از چالش هایی که در زمان پیش پردازش داده ها بهش برخوردم، ستونی در فایل اکسل بود که در اون قرار بود "تعداد کسب و کارهای مشابه در منطقه" به صورت عدد وارد شود(توسط افرادی که می خواستند کاری رو راه بیاندازن). خب طبیعتا چیزی که باید وارد میشد یک عدد بود از 0 تا n.

اما علاوه بر اعداد افراد زیادی بودن که (- و _ ) رو وارد کرده بودن. تفسیر من به عنوان یک فرد که خبره کسب و کار نیست این بود که علامت خط تیره احتمالا به معنای هیچ است و معادل همان 0 است، پس تمام – و _ ها را با 0 جایگزین کردم.

در ارائه کار، وقتی که یک فرد خبره کسب و کار کنار من حضور داشت با دیدن آمار زیاد عدد صفر به شدت تعجب کرد و گفت که امکان نداره این تعداد صفر وجود داشته باشه، من یادم اومد که چقدر علامت خط تیره رو با صفر جایگزین کردم. پرسیدم کسانی که علامت – رو وارد کردن، منظورشون چی بوده؟ گفت احتمالا چون عدد دقیقی نمی‌دونستن از این علامت استفاده کردن.

چیزی که از پیش پردازش این پروژه یاد گرفتم اینه که :

1) در مورد موارد مشکوک با خبره کسب و کار حتما در ارتباط باشم تا نتیجه کار درست باشه.

2) در مورد اصلاح این مورد با افراد مسئول در جمع آوری داده صحبت کنم تا این مشکل بیش از این نتایج رو تغییر نده، مثلا شاید بهتر بود در وارد کردن داده فقط وارد کردن عدد مجاز بود و یا گزینه نمی دانم هم جزو گزینه ها قرار داده میشد.


علم دادهdata analysisdata science
از کار با داده‌ها می‌نویسم و از تجربه‌ها و چالش‌هایم در زندگی کاری و غیر کاری
شاید از این پست‌ها خوشتان بیاید