در این بخش که یک بخش از ویلاگ بنده در یوتیوب هست، می خواییم به این فکر کنیم که چطور ممکنه نادیده گرفتن یک بخش خیلی کوچک در داده ها اثرات جبران ناپذیری داشته باشه. شما نسخه کامل ویدئو رو می تونید در یوتیوب تماشا کنین و اگر از محتوای ویدئو خوشتون اومد، روی دکمه Subscribe بزنین تا از انتشار ویدئو های بعدی هم باخبر بشید :)
فرض کنید ما از مردان و زنان با پیشینه های مختلف در اطراف جهان درمورد سلامت فیزیکی و روانیشون سوالاتی پرسیدیم. این سوالات میتونه چیزایی مثل، قد، وزن، میزان و دفعات خوراک و همچنین سوالاتی مثل حس و حالشون در طول روز و تعداد دفعاتی که فکرهای منفی و حتی مواردی مثل خودکشی به ذهنشون میرسه باشه.
بعد از اینکه تمام داده هارو جمع کردیم ، نشستیم به بررسی اون ها. وقتی به تمام داده ها نگاه می کنیم می بینیم بخش هایی از داده ها خالی هستند. مثلا بعضی افراد به بعضی سوالات جواب ندادند یا اینکه کلا همه پاسخ نامه اونها خالی مونده.
این خالی بودن میتونه بخاطر گم شدن اون داده ها، حذف شدن پوشه ها در کامپیوتر پرسشگر ها یا حتی پاره یا خیس شدن پاسخ نامه ها باشه. در این صورت ما به راحتی میتونیم بگیم که عاقا اینارو ما میذاریم کنار چون هیچ چیز خاصی ازشون نمیفهمیم و اطلاعات کاملا به شکل رندم از دست رفتن.
خیلی افراد(مخصوصا مردان) اطلاعی از سایز دورشکم یا چربی دور کمرشون نداشتن و اصلا براشون چیز مهمی نبوده! پس کلا بیخیال این سوالات شدند و خیلی از جاهارو خالی گذاشتن. وقتی بیشتر نگاه می کنیم میبینیم این اتفاق برای خیلی از سوالات مربوط به سلامت روان هم افتاده. خیلی از مردان اهمیتی به اینکه چقدر حسشون خوبه یا چند دفعه در روز چه حسی کردن نمیدن، و درنتیجه کلا بیخیال جواب دادن به این سوالات شدن!
ماهم که به عنوان مشاهده کننده این روند، میگیم عاقا اصن مردا به این چیزا فکر نمی کنن! اون ها همیشه انقدر درگیر حفظ خانواده، کسب درآمد و مرد بودن هستند که براشون سلامت روان معنی ای نداره و اصلا به نکات منفی و خودکشی و این چیزا فکر نمی کنن!
حالا اگر ما یک سرچی در ویکیپدیا و سایت های معتبر آماری درمورد سلامت روان بزنیم، میبینیم که :
در تمام دنیا به غیر از یک تعداد محدودی کشور یا باید بهتر گفت "شهر"، تعداد مرد هایی که سالانه خوکوشی می کنند چندین برابر زن هاست. این یک اتفاق هست به نام پارادوکس جنسیتی خودکوشی. چرا پارادوکس؟
چون در تحقیق هایی که انجام میشه، همیشه این زن ها هستند که بیشتر نشانه های افسردگی و خودکشی رو در خودشون دارن. اونها هستند که بیشتر درمورد احساساتشون صحبت میکنند درصورتی که مردان همیشه مشغول مرد بودن و جلوگیری خودشون از ابراز احساسات هستند.
در این شکل از نبود داده، اصطلاحا میگیم Missing not at random داریم و به هیچ وجه نباید این داده های خالی رو نادیده بگیریم چون اون ها با ویژگی های دیگه مثل مرد بودن و همچنین خوشون یعنی سوالات مربوط به سلامت روان، در ارتباطند.
شاید این براتون مثل من خیلی عجیب باشه که بشنویم مرد ها بیشتر از زنها خودشون رو می کشند! درسته واقعا عجیبه چون همیشه اونهارو قوی و مسئول خانواده و خوشون فرض می کنیم و فراموش می کنیم که اونها هم احساساتی دارند و ممکنه همیشه قوی ترین فرد روی صحنه نباشند. خیلی وقت ها نباید خیلی راحت از کنار مسائل گذشت و اونهارو حل شده درنظر گرفت. خیلی از کسایی که وارد فیلد داده میشند تمرکز اصلیشون رو فقط روی درست کردن یک مدل پیش بینی کننده عالی میذارند(مثل خود من). اما همونطور که خیلی از حرفه ای های این حوزه میگن، اولین و مهمترین چیزی که ما باید روشون زمان بذاریم، خود داده ها و به اصطلاح preprocessing هست.
امیدوارم از متنی که خوندین لذت برده باشید :) خوشحال میشم نظرتون رو اینجا یا در یوتیوب بشنوم، پس حتما پیشنهاد انتقاد یا نظری درمورد خود متن یا ویدئو دارید باهام به اشتراک بذارید:)