سر کلاس داده کاوی بودم
استاد داشت راجب outlier ها یا همون داده های پرت صحبت میکرد و از سختی های شناساییشون و مشکلات کشف کردنشون و این که چقدر میتونن مشکل ایجاد کنن در مدل هایی که میخوایم استفاده کنیم میگفت
ولی یه نکته خیلی توش مهم بود، میدونید چی پیدا کردن این داده ها رو سخت میکرد؟ زیاد شدنشون
وقتی زیاد بودن خیلی نمیتونستی مرزی پیدا کنی که کدومشون پرتن کدومشون نیستن
حتی وقتی میخواستی حذفشون کنی ممکن بود داده های سالم و خوبت هم حذف بشن
این داده ها همیشه هم اشتباهی نبودن بعضی وقتا به خودشون میگفتن ما استثنایی هستیم، خاصیم، آسیم و ...
یه جورایی درست هم میگفتن خاص بودن ولی این خاص بودن الگو های مارو میریخت بهم و نمیزاشت داده های نرمالمون رو تشخیص بدیم و میانگینمونو برای پیش بینی خراب میکرد.
بزارید اول واستون بگم این لعنتیا دقیقا چیکار دارن میکنن
جدول بالا رو ببینید ردیف اولش داره یه سری داده نشونتون میده که در حالت عادی بین 1 تا 5 هستن همشون ولی در دنیای واقعی یه 400 لعنتی پریده وسط گفته ببینید من خاصم، من آسَم و ....
خب میدونید این چیکار کرده؟ میانگین مارو ریخته بهم، ینی وقتی به جامعه نگاه میکنی میگی خب ببین این جامعه مثلا به طور متوسط 59 هستن ولی در واقعیت همشون نهایتا 5 باشن
فکر کنید مثلا یکی بیاد بگه آقا این افراد به طور متوسط در این جامعه از 59 واحد حقوق شهروندی بهره مند هستند ولی ما که میدونیم اکثرمون بیشتر از 5 واحد نداشتیم هیچوقت
حالا که فهمیدیم این مدل داده ها چی هستن بهتر میدونیم که چرا باید وقتی میخوایم یه مدلی بسازیم که بتونه پیش بینی کنه رفتار جامعه رو، باید اینارو ازش حذف کنیم
استاد اینارو گفت و یه نکته گفت که منو خیلی به فکر فرو برد
گفت مشکل از اون جایی شروع میشه که تعداد اینا زیاد میشه، اون موقع دیگه شاید نتونیم به این داده ها بگیم یه ناهنجاری یا داده پرت و ممکنه یه داده نرمال در نظر بگیریمش
اتفاقی که ممکنه برای ارزش های اخلاقی و اجتماعی ما بیوفته
ممکنه یه روزی خودتو در حال دفاع کردن از یه ارزش اخلاقی ببینی که تا چند سال پیش یه ارزش بدیهی بود
مثل ادب، احترام به بزرگتر، اخلاق و ...
ولی یهو میبینی انقدر تعداد آدمایی که قبلا پرت حسابشون میکردیم زیاد شده که الان شاید حتی تو پرت حساب بشی
شاید ارزش ها پرت شده باشند .....
خب حالا یه سوال اگه بی ارزش ها نرمال شدن خاص بودن مشکل داره؟ ینی اگه آدمای ارزشمند جامعه داده پرت شناسایی شدن چی؟
وقتی عمیق تر بهش فکر کنیم میفهمیم یه موقع هایی ما به این آدم های پرت نیاز داریم
همون مواقعی که این آدما حقایق رو نپذیرفتن و ترجیح دادن پرت باشن
مسخره بشن
بهشون توهین بشه
انواع و اقسام برچسب ها روشون بخوره
ولی اونا ارزش ذاتی دارن
من نمیدونم امروزی که داری این متن رو میخونید میانگین اخلاقی جامعمون چنده، ولی یه چیزیو مطمئنم، اونم اینه که اگه اون آدمایی که در مرز نرمال ها و خاص ها هستن جهت دهی درستی نشن حتی در بهترین جوامع کم کم آدمای پرت و پلا ارزشمند میشن و ارزشمندا پرت ...