Kian
Kian
خواندن ۳ دقیقه·۴ سال پیش

خطای پایه‌ای ولی بسیار رایج در کَژخوانی داده‌ها در دنیای علم

آیا فاصله‌گذاری اجتماعی در کاهش گسترش کرونا اثرگذاره؟ آیا شبکه‌ی 5G مایه‌ی سرطانه؟ برای هم‌کاران عزیز: آیا الگوریتم الف برای پیشنهاددهی به کاربر اثرگذارتر از الگوریتم ب عمل کرده؟ یک خطای مهم در پاسخ به این پرسش‌ها که شاید بدیهی ولی بسیار رایجه، موضوع این گفتاره.

پرسش‌هایی از این دست، به شکل داده-محور و معمولا با آزمون فرضیه (hypothesis testing) پاسخ داده می‌شن. به طور خلاصه، نخست یک فرضیه‌ی تُهی (null hypothesis) یا به قول خودمون «حالت default» تعریف می‌شه، مثلا فرض می‌شه «فاصله‌گذاری اجتماعی موثر نیست» یا «5G مایه‌ی سرطان نیست». سپس به داده‌های گردآوری شده نگاه می‌شه: آیا داده‌ها، برای رَد (reject) کردن فرضیه ما کافی‌اند؟

به عبارت دیگه: اگر فرضیه‌ی تُهی / فرض default درست بود، چه قدر احتمال داشت مشاهداتی که داریم در داده‌ها می‌بینیم رو ببینیم؟ آیا این احتمال به اندازه‌ی کافی کوچک (مثلا زیر ۱٪) هست؟ اگر چنین باشه، فرضیه‌ی تُهی رد می‌شه و نتیجه می‌گیریم که «فاصله‌گذاری اجتماعی اثرگذاره»، ساده و پوست‌کنده و بدون حرف و حدیث (اگر ایرادهای دیگرِ روش‌شناختی در اون پژوهش وجود نداشته باشه). خدا رو شکر. ولی اگر فرضیه‌ی تُهی رد نشه، هیچ حرفی در هیچ جهتی نمی‌تونیم بزنیم. یعنی شاید فاصله‌گذاری اثرگذار نیست، شاید هم اثرگذاره و حتی این اثرگذاری در داده‌های ما هم دیده می‌شه، ولی نتونستیم ثابت کنیم که احتمال تصادفی بودن این مشاهده به اندازه‌ی کافی کوچکه. احتمالا تا الان حدس زدید: هر چه اندازه‌ی داده‌های گردآوری شده بزرگ‌تر باشه، قوی‌تر می‌شه ثابت کرد که مشاهده‌ی ما حاصل تصادف نیست.

چیزی که شاید بدیهی باشه و در هر کلاس آمار و احتمالی آموخته می‌شه رو تکرار می‌کنم: اگر فرضیه‌ی تُهی رد نشد، معنی‌ش این نیست که فرضیه‌ی تُهی تایید می‌شه، بلکه معنی‌ش اینه که هیچ حرفی نمی‌تونیم بزنیم، چه در تایید و چه در رد فرضیه‌ی تُهی.

پرانتز: حتی بدون اشاره به آزمون فرضیه، تقریبا بدیهیه که «الف رد نشد» به معنی «الف تایید شد» نیست و به این مغالطه می‌گن «توسل به ناآگاهی» - جستجو کنید argument from ignorance. ولی وقتی واقعا پژوهش علمی توسط دانشمندان انجام شده و داده‌ای جمع شده و بررسی و برو بیایی انجام شده و «الف رد نشده» (مثلا الف = بی‌تاثیر بودن فاصله‌گذاری)، به خطا تصور می‌شه که اگر الف نادرست بود با این همه پژوهش و بررسی حتما رد می‌شد دیگه، پس لابد الف درسته. برای لو دادن این تَله، آزمون فرضیه رو مرور کردیم.

برگردیم به دنیای واقعی. در آغاز شیوع کرونا، پژوهش‌هایی بودند که نشون دادند «شاهدی برای اثرگذاریِ فاصله‌گذاری اجتماعی وجود نداره». شاید از دید گردآوری داده و روش‌شناختی هم کاملا درست بودند. ولی اگر حوصله نداریم جزییات اون مقاله‌های علمی رو بخونیم، از همین عبارت «شاهدی وجود نداره» می‌شه فهمید: فرضیه‌ی تُهی، فرض «فاصله‌گذاری اثرگذار نیست» بوده و این فرض رَد نشده.

ولی آیا این فرض تایید شده؟ نه. پس یعنی چی؟ یعنی هیچی. یعنی به جمع‌بندی نرسیدیم. یعنی به خودت بستگی داره که default رو چی بگیری - شاید بر اساس معیارهای دیگه ولی نه بر اساس این مطالعه و این داده‌ها. مثلا ممکنه کسی بگه فاصله‌گذاری اجتماعی هزینه‌ی زیادی داره و برای تحمیل این هزینه به جامعه نیاز به تایید محکمی برای اثرگذاریش داریم - یعنی بیان کنه چرا default رو بر «بی‌اثر بودن فاصله‌گذاری» می‌گیره. این سخن اتفاقا معتبره. ولی «فاصله‌گذاری اثرگذار نیست» یک سخن دیگه و بی‌پایه‌ست.

چند بار تا حالا جمله‌ی «مطالعات انجام شده و شاهدی وجود نداره که ...» رو شنیدید؟ احتمالا زیاد. احتمالا توسط سیاست‌گذاران یا مدیرانی که دارن تصمیماتشون رو علمی جلوه می‌دن، یا توسط خبرنگارانی که دارن از یک ایده حمایت/انتقاد (مثلا به شکل علمی) می‌کنن، یا حتی پزشکانی از درونِ خود جامعه‌ی علمی که می‌گن فلان کار (هرچند ساده و بی‌خطر) رو نکنید چون بی‌فایده‌ست.

اما چه طور می‌شه به شکل علمی و داده-محور تایید کرد که فلان چیز واقعا اثرگذار «نیست»؟ مثلا برای فلان تصمیم اجتماعی برای مردم، یا برای پیش بردن فلان پروژه با مخاطرات زیست‌محیطی، یا برای اثبات بی‌خطر بودن 5G (مساله‌ی به این مهمی) نیاز به چه تاییدی داریم؟ طبیعتا گزاره‌ی «هیچ شاهدی در دست نیست که 5G خطر داره»، بادِ هواست. پس تاییدِ لازم چیه؟ دست کم یکی از راه‌ها، آزمون برابریه. ولی در این گفتار وارد جزییاتش نمی‌شم و اینجا هست. برخی راه‌های دیگر هم در اینجا گفته شده و تخصص بنده هم نیست و به دادن ارجاع بسنده می‌کنم. شخصا نمی‌دونم چنین آزمونی در مورد 5G و سرطان انجام شده یا نه. احتمالا شده. اگر کسی خبر داره، لطف می‌کنه اگر معرفی کنه.

ولی توجه کنیم که نتیجه‌ی چنین مطالعه‌ای، صرفا «شاهدی وجود نداره»ی معروف نیست.

مغالطهآمارعلمی
فعال در مهندسی نرم‌افزار با اندکی تجربه از صنعت (عمدتا گوگل) و آکادمی (عمدتا اتلاف عمر). علاقمندم آموخته‌هامون رو رد و بدل کنیم.
شاید از این پست‌ها خوشتان بیاید