معمولا در اخباری که در آن دانشمندان اثر چیزی را بر چیز دیگر مطالعه کردهاند، عبارتی مداما استفاده میشود بی آنکه معنی واقعی آن را خیلی از ما بدانیم: «تاثیر یا اختلاف معنادار / تاثیر چشمگیر». سوال اینجاست که مگر میشود شاخصهای تاثیرگذار باشد اما تاثیر آن بیمعنی باشد؟ آیا واژهی «معنیدار» صرفا یک انتخاب ویراستاریست؟ در این جستار به زبان ساده معنای «معنادار بودن یک مشاهده از لحاظ آماری» را توضیح میدهیم.
حدس میزنم که یکی از دلایلی که ما برداشت درستی از واژهی «معنیدار» بودن نداریم، این است که این واژه از انگلیسی به خوبی ترجمه نشدهاست. این عبارت برگردانیست از statistical significance که به طور تحتالفضی ترجمه میشود به «قابل توجه بودن یک آمار» که طبیعتا با معنیدار بودن تفاوت معنایی دارد. شاید حتی بهتراست به جای هر دو واژه از واژهی جایگزین «غیر تصادفی» یا حتی «موجه» اشتباهد کنیم. اما اگر از این اشتباه رایج در ترجمه بگذریم، برای این که اهمیت این واژه را بهتر درک کنیم به این مثال از خبرگزاری ایسنا توجه کنید:
عنوان خبر در مورد این است که زنان بهتر از مردان توانایی تشخیص بیمار بودن یک فرد را از روی از روی صورت او دارند. جایی در این گزارش نوشته که: «پس از تحلیل ارزیابیهای شرکتکنندگان، پژوهشگران دریافتند فرضیه آنها درست بوده است؛ زنان بهطور میانگین نسبت به نشانههای بیماری در چهره حساستر بودند. این تفاوت کوچک بود، اما از نظر آماری معنادار بود و در سراسر مطالعه ثابت باقی ماند.»
نکته جالب این است که یک تفاوت میتواند کوچک و هم زمان از نظر آماری معنیدار باشد یا بزرگ و از نظر آماری تصادفی؛ و با این مقدمه برداشتی ساده از موجه بودن آماری را بیان میکنیم.
از نظر آماری پدیدهای قابل توجه است که نتوان به راحتی ادعا کرد مشاهدهی آن حاصل تصادف یا به عبارتی «خوششانسی»ست. مثلا فرض کنید کسی ادعا کند که خوردن چیپس سرکه نمکی در درمان کرونا تاثیرگذار است، و طی آزمایشی این ادعا را در روی چند بیمار کرونایی تست کند، و تمامی آن بیمارها از قضا بهبود پیدا کنند، آیا این ادعا درست است؟ به عبارتی از امروز شرکتهای تولید چپیس میتوانند بر روی بستههای سرکه نمکیشان بنویسند «موثر در درمان بیماری کرونا»؟ خیر اما چرا؟ چون به فرض صداقت در بیان مشاهده، هنوز این احتمال وجود دارد که آن چند نفری که با خوردن چیپس سرکه نمکی کرونایشان بهبود یافته بود بدون هیچگونه دخالتی هم همین سرنوشت را میداشتند و صرفا آزمایش کننده خوششانس بوده و تصادفا نمونهای از بیماران را پیدا کرده که خود به خود قرار بر بهبود داشتند. اما سوال اینجاست که چطور میان اثر یک دارو و اثر چیپس سرکهنمکی میتواند تمایز قائل شد؟ چطور میتوان به داروها و ادعای شفابخشی آنها اعتماد کرد؟
تست A/B. ادعایی را برای مثال فرض کنید. مثلا «خریدن نوشت افزار (دفتر و قلم) با کیفیتتر باعث افزایش نمرات دانشآموزان میشود.» چطور میتوان این ادعا را ثابت کرد؟ طبیعتا قدم اول این است که نمونهای از دانشآموزان را تصادفا (از میان مدرسههای مختلف طوری که عواملی مانند معلم، کیفیت کلاسها، محله و ... تاثیرگذار نباشد) انتخاب کنید و به دو گروه تقسیم کنید، به گروه اول نوشتافزار معمولی و به گروه دوم نوشتافزار با کیفیتتر بدهید و در آخر سال میانگین نمرات دو گروه را حساب کنید. فرض کنیم گروه اول میانگین ۱۵.۷ و گروه دوم میانگین ۱۷.۴ را کسب کردهاند؟

آیا میتوانید ادعا کنید که نوشتافزار بهتر و معدل بالاتر رابطهی مستقیم دارند؟ هنوز نه! چون مانند مثال چیپس سرکهنمکی و کرونا ممکن است که شما اتفاقی (از روی شانس) به نمونههایی برخوردهاید که مستقل از لوازمالتحریر بهتر، خودشان نمرات بالاتری کسب میکردند. به عبارت دقیقتر نمونهی تصادفی شما به نفع فرضیهی شما رفتار کرده است. این اصلا اتفاق عجیبی نیست کما این که شما اگر ده بار سکه بیاندازید الزاما تعداد یکسانی شیر یا خط نخواهید دید با این که احتمال هر دو رخداد شیر و خط یکسان است. بنابراین برای این که بتوانید ادعای خود را ادعایی معنا دار یا از دید آماری ادعایی چشمگیر نشان دهید، باید ثابت کنید که رابطهی میان لوازمالتحریر بهتر و نمرهی پایان سال دانشآموزان آنقدر قویاست که مشاهدهی آن ورای نمونههای تصادفی «شانسی»، اتفاقی بسیار رایج است.
زمانی که میگوییم دو پدیده با یکدیگر همبستگی معنیدار دارند، منظورمان این است که این پیوستگی ورای یک خوششانسی در گرفتن آمار است. به عبارت دقیقتر فقط پنج درصد احتمال دارد که ما فرض غلطی میداشتیم و صرفا از روی شانس نمونههای ما به گونهای برداشته شدهاند که فرضیهی ما ثابت شده باشد. برای مثال اگر یک شرکت دارویی ادعا کرد که داروی جدید کشف شده توسط این شرکت به طرز معنیداری در درمان یک بیماری موثر است، معنای این معنیدار بودن این است که: ابتدا شرکت دارویی دو دستهی تصادفی از افراد را به عنوان نمونهی درمانی انتخاب کرده، سپس به یکی از دو دسته داروی خود و به دستهی دیگر دارونما (چیزی شبیه دارو اما بدون مادهی موثر) را داده و پس از آن بررسی کرده که چند درصد از کدام از دو دسته بهبود پیدا کردهاند. «معنی دار بودن» یعنی که در آن آزمایش اولا آنقدر شرکت کننده حاضر بودند و دوما نتیجهی دارو بر یک دسته آنقدر متفاوت از دستهی دیگر بوده که میتوان گفت احتمال این که چنین تفاوتی میان دو دسته تصادفا و از سر شانس مشاهده شود چیزی کمتر از پنج درصد است.
اما سوال اینجاست که چگونه میتوان احتمال مشاهدهی چنین پدیدهای به صورت شانسی را اندازهگرفت؟ در جستار بعدی به این سوال پاسخ خواهم داد.