احتمالا جمله «این گزاره علمی است/نیست و با دادهها همخوانی دارد/ندارد» را بارها شنیدهاید در این نوشته قصد داریم قسمت سطحی از این جمله را در حیطه اقتصاد (و احتمالا علوم مشابه) آن چنان که متداول میباشد، خراش بدهیم. به طور کلی سوال توضیح مبسوط فرایند علمی از توان اینجانب خارج بوده و این نوشته «صرفا» متمرکز بر توضیح مفاهیم آماری «فاصله اطمینان» و «آزمون فرضیه» خواهد بود.
توزیع نمونهگیری
نوشته را از «توزیع نمونهگیری» شروع میکنیم. فرض کنید جامعهایی با اندازه 1000 موجود باشد قرار است با گرفتن نمونه از این جامعه در مورد یکی از پارامترهای جامعه استنتاجی صورت گیرد. به عنوان مثال میخواهیم تخمینی از متوسط قد جامعهی 1000 نفری داشته باشیم. یک نمونه 40 نفری میگیریم و متوسط قد آنها 160 سانتیمتر میباشد. آیا میتوان نتیجه گرفت که متوسط قد این جامعه 160 سانتیمتر میباشد؟ حال یک نمونه 40 تایی دیگر میگیریم متوسط 180 سانتیمتر بدست میآید. اگر باز نمونه دیگری گرفته شود باز عدد دیگری بدست میآید. کدام نمونه معیار است؟ با این وصف، حال میتوان این سوال را مطرح کرد که به چند طریق میتوان نمونههای 40 نفری از جامعه 1000 تایی گرفت؟ با استفاده از مفهوم ترکیب در آمار میتوان به این سوال پاسخ داد. تعداد حالات مثال فوق در تصویر زیر آورده شده است (عدد بسیار بزرگ بوده و من درکی از آن ندارم).
حالا فرض کنید همهی این حالات نمونهگیری شده است و میانگین همهی این نمونهها محاسبه شده است براساس قضیه حد مرکزی، توزیع میانگین این نمونهها نرمال خواهد بود. در تصویر زیر برای سادگی، عملیات فوق 1000 بار تکرار شده است.
قضیه حد مرکزی بیان میکند که اگر به تعداد زیاد از یک «توزیع دلخواه» نمونهبرداری (با تعداد کافی بزرگتر مساوی 30) کنیم توزیع میانگین نمونهها به سمت توزیع نرمال خواهد رفت.
پس تا الان متوجه شدیم که متغیری که با آن روبرو هستیم (میانگین نمونه) دارای توزیع نرمال میباشد. همچنین اگر از میانگین همهی نمونهها میانگین بگیریم به میانگین جامعه میرسیم. انحراف معیار میانگین این نمونهها نیز از تقسیم میانگین جامعه بر مجذور تعداد نمونه بدست میآید.
همچنین از ویژگیهای توزیع نرمال استاندارد میدانیم که در فاصله 1، 2 و 3 انحراف معیار از میانگین به ترتیب 68%، 95% و 99% از دادهها قرار دارند.
ساختن فاصله اطمینان
حال دوباره به این سوال برمیگردیم: "یک نمونه 40 نفری میگیریم و متوسط قد آنها 160 سانتیمتر میباشد. آیا میتوان نتیجه گرفت که متوسط قد این جامعه 160 سانتیمتر میباشد؟" به احتمال زیاد میانگین این نمونه دقیقا منطبق بر میانگین جامعه نیست، چاره چیست؟
جرزی نیمان به عنوان یکی از بنیانگذاران روش علمی نوین، در مقاله سال 1932 بیان میکند که بدون اینکه انتظار داشته باشیم که بدانیم ادعا در مورد جامعه درست است یا غلط، باید «قاعدهایی» داشته باشیم که «در بلندمدت» کمتر اشتباه کنیم. پیشنهاد نیمان این است که میزان فاصله آماره نمونه را با ادعا در مورد پارامتر را محاسبه کنیم و براساس این فاصله تصمیمگیری کنیم.
دقت داشته باشید که اساس آزمون فرضیه بر روی مفهوم فاصله اطمینان بنا شده است بنابراین توصیه میگردد بخش پیش رو با دقت بیشتری مورد توجه قرار گیرد.
برای اینکه معیاری داشته باشیم که بتوانیم میزان دوری و نزدیکی میانگین نمونه را از میانگین جامعه را سنجش کنیم از مفهومی به نام «فاصله اطمینان» استفاده میکنیم. طبق حالت قبل فرض کنید که همهی نمونههای ممکن از جامعه گرفته شده و میانگین هر کدام محاسبه شده، حال از هر طرف میانگین به اندازه 2 انحراف معیار حرکت میکنیم، با این کار بازهایی ایجاد میشود که به آن فاصله اطمینان گفته میشود (عدد 2 در اینجا مثال است).
با توجه به اینکه میدانیم توزیع میانگین نمونهها نرمال است (با اتکا به قضیه حد مرکزی)، حدود 95% از فاصلههای ایجاد شده، «میانگین جامعه» را در دل خود خواهند داشت و صرفا 5% از فاصلههای ایجاد شده، میانگین جامعه را پوشش نخواهند داد. در نموار فوق، هر خط افقی نشاندهنده یک نمونه خاص بوده و نقاط قرمز رنگ میانگین آن نمونه میباشد که در اطراف آن فاصله اطمینان ایجاد شده است. در واقع در توزیع فوق، 95% از میانگینهای نمونههای گرفته شده در فاصله 2 انحراف معیار از میانگین جامعه قرار میگیرند بنابراین وقتی برای هر کدام از از نمونهها فاصله اطمینان 2 انحراف معیاری ایجاد شود، میانگین جامعه را در دل خود خواهند داشت. به بیان دیگر نمونهایی که ما گرفتهایم (هر نمونهایی که گرفته شود) به احتمال 95% در فاصله 2 انحراف معیار از میانگین جامعه قرار دارد و فاصله اطمینانی که برای آن میسازیم میانگین جامعه را پوشش خواهد داد.
اگر فاصله را به 3 انحراف معیار افزایش دهیم حدود 99% از فاصله اطمینانهای ایجاد شده، میانگین جامعه را پوشش خواهند داد.
بدین ترتیب با «تفسیر» فاصله اطمینان نیز آشنا شدیم. دقت شود که جمله " ما 95% اطمینان داریم که میانگین جامعه در فاصله x1 تا x2قرار دارد" اشتباه میباشد. تکرار این نکته ضروری است که ما از میانگین جامعه بیاطلاع هستیم و صرفا با اتکا به توزیع نرمال میانگینها در حال محاسبه یک احتمال برای استنباط در مورد پارامتر میانگین جامعه هستیم.
همچنان که بیان شد ما با طی یک رویهایی مشخص توانستیم به نوعی به سوال اصلی پاسخ دهیم. در ادامه سعی میشود سوال و جواب فوق به شکل دیگری بیان شود.
آزمون فرضیه
فرایند آزمون فرضیه با 2 فرضیه شروع میشود: فرضیه صفر و فرضیه آلترناتیو.
فرضیه صفر
فرضیه صفر (معمولا) یعنی ادعایی که در حال حاضر وجود دارد یا اینکه پذیرفته شده است و پابرجاست مگر اینکه خلاف آن ثابت شود. در واقع فرضیه صفر هر چیزی میتواند باشد اما متداول این است که بگوییم هیچ اثری وجود ندارد. (اینکه کدام فرضیه به عنوان فرضیه صفر انتخاب شود معمولا به پژوهشگر و زمینه پژوهش مربوط میشود).
فرضیه آلترناتیو
ادعای جایگزین پژوهشگر میباشد.
فرض کنید فردی ادعا میکند که میانگین قد جامعه مد نظر ما 190 سانتیمتر میباشد. این ادعا را چطور آزمون کنیم؟ مطابق دانستههای بخش قبلی، یک نمونه از جامعه میگیریم و برای آن فاصله اطمینان 2 انحراف معیاری ایجاد میکنیم اگر میانگین ادعایی در داخل فاصله اطمینان این نمونه قرار بگیرد، به احتمال 95% شواهد و ادعا در یک جهت قرار دارند در واقع تفسیر بدین شکل میباشد که «بر پایه نمونهایی که ما گرفتیم، شواهدی در رد ادعا وجود ندارد». دوباره تکرار میشود که پژوهشگر در مورد میانگین جامعه هیچ اطلاعی ندارد و نمونهایی که گرفته است ممکن است هر کدام از خطهای سبز در نمودار فوق باشد. ولی از آنجا که میدانیم میانگین جامعه هر جا که باشد، 95% خطهای سبز آن را در دل خود خواهند داشت.
به طور کلی آزمون فرضیه فرایندی است که با استفاده از یک نمونه، احتمال وجود شواهد قوی علیه فرضیه صفر را محاسبه میکند. یا به بیان دیگر، شواهد علیه فرضیه صفر چقدر قوی میباشد؟
لازم است یک مرز مشخصی برای مفهوم «شواهد قوی» کشیده شود و حد آستانهایی آن مشخص شود. به این حد آستانهایی، مقدار بحرانی گفته میشود. در واقع با این حد آستانهایی تعیین میکنیم که چه زمان فرضیه صفر رد شود و چه زمانی رد نشود. همچنان که در مثال گفتیم حد آستانهایی ما در فاصله اطمینان، 2 انحراف معیار بود (آنچه که در دنیای علمی متداول میباشد اما بسته به پیشزمینه میتواند متفاوت باشد همچنان که معمولا در رشته فیزیک نسبت به بقیه بسیار متفاوت میباشد). یکی از مشکلات فاصله اطمینان این است که وابسته به واحد بوده و در هر بار استفاده برای واحدهای مختلف، باید محاسبات دوباره تکرار شود. برای جلوگیری از این مشکل، دادهها را استاندارد میکنیم تا به «توزیع نرمال استاندارد» میرسیم. برای این کار متغیری با عنوان «آماره آزمون» ایجاد میکنیم. فرمول آماره آزمون برای توزیع نرمال به شکل زیر میباشد:
منطق فرمول فوق، واضح و مشخص میباشد: میخواهیم ببینیم فاصله میانگین ادعایی از میانگین نمونه، چند انحراف معیار میباشد؟ در توزیع نرمال اگر بخواهیم بدانیم یک داده چقدر از ميانگين دور است کافی است نگاه کنیم چند انحراف معیار از میانگین فاصله دارد. آنچنان که قرارداد کردیم اگر این فاصله بیشتر از 2 انحراف معیار باشد «تفسیر میکنیم» که شواهد قوی در رد ادعا وجود دارد. قابل ذکر است که فاصله 2 انحراف معیار، از قبل توسط پژوهشگر انتخاب شده است و در اینجا صرفا میزان فاصله را با عدد 2 را بررسی میکنیم.
تکرار میشود که در فرمول فوق چون به پارامترهای جامعه دسترسی نداریم به جای σاز انحراف معیار نمونه گرفته شده استفاده میکنیم. همچنین µ همان میانگین ادعایی مورد نظر بوده (میانگین ادعایی در فرضیه صفر) و x̄نیز همان میانگین نمونه میباشد (اینکه در چه شرایطی از توزیع tاستفاده شود در اینجا مورد بحث نیست). اگر این آماره از عدد مطلق 2 بزرگتر باشد، یعنی فاصله اطمینان ایجاد شده، میانگین ادعایی جامعه را در برنمیگیرد.
طی فرمول فوق توزیع نرمال به نرمال استاندارد تبدیل میشود (با میانگین صفر و انحراف معیار 1) بنابراین عدد بدست آمده مستقیما فاصله ادعا از نمونه را به «تعداد انحراف معیار» بیان میکند. دقت کنید که ما صرفا مفهوم فاصله اطمینان را به سیستم جدید ترجمه کردیم و مفهوم همچنان همان مفهوم قبلی میباشد. تکرار میشود که ما بررسی میکنیم نمونه در دست چقدر از این ادعا فاصله دارد یعنی میخواهیم احتمال مشاهدهی نمونه مذکور در جامعه ادعایی چقدر است؟ اگر عدد مطلق آماره از عدد 2 کمتر باشد یعنی فاصله کمتر از 2 انحراف معیار میباشد و بنابر قرارداد، تفسیر میکنیم که شواهد قوی برای رد فرضیه صفر وجود ندارد.
به طور خلاصه ما در مورد عدد میانگین واقعی جامعه هیچ چیزی نمیدانیم «صرفا» با اتکا به نرمال بودن توزیع دادهها، میدانیم که فقط 5% از نمونهها، در فاصله بیشتر از 2 انحراف معیار از میانگین واقعی جامعه قرار دارند و اگر برای این 5% از دادهها فاصله اطمینان با 2 انحراف معیار درست کنیم، میانگین واقعی جامعه را شامل نخواهند شد.
حال یک قدم بیشتر جلو میرویم و به جای اینکه نتیجه را با یک عدد مطلق بیان کنیم آن را با یک احتمال بیان میکنیم بدین ترتیب وارد بحث p-value میشویم.
همچنان که بیان شد به جای اینکه بگوییم که عدد مطلق آماره آزمون عدد مثلا 2 است میتوانیم از یک عدد احتمال استفاده کنیم. گفته شد که در فاصله 2 انحراف معیار از میانگین جامعه، 95% از دادهها پراکنده شدهاند. بنابراین اعداد را به احتمال ترجمه میکنیم و به جای آماره 2، از سطح اطمینان 95% استفاده میکنیم به معنی دیگر صرفا 5% احتمال وجود دارد که نمونهایی که انتخاب کردیم دورتر از فاصله 2 انحراف معیار از میانگین باشد به این 5% p-value گفته میشود. حال فرض کنید که آماره آزمون یک نمونه معادل عدد 6 شود و از مقدار متعارف قراردادی یعنی عدد 2 بیشتر میباشد در این حالت میگوییم که احتمال مشاهده این نمونه از جامعهی ادعایی فرضیه صفر بسیار بعید میباشد و شواهد قوی علیه فرضیه صفر وجود دارد.
خطای نوع 1
حال اگر همین عدد آماره آزمون را به احتمال ترجمه کنیم عددی کمتر از 5% بدست میآید. به بیان دیگر در سیستم جدید میتوانیم بگوییم که p-value این آزمون کمتر از 5% میباشد. یعنی نمونه در فاصله بیشتر از 2 انحراف معیار از میانگین ادعایی فرضیه صفر قرار دارد. به بیان دیگر، ادعایی در مورد میانگین جامعه وجود دارد (فرضیه صفر)، نمونه گرفته شده از ادعای مذکور بسیار دور میباشد بنابراین فرضیه صفر را رد میکنیم. یا به تفسیری دیگر، نمونه در دست از جامعه مورد ادعا گرفته نشده است.
در تعریفی دیگر p-valueیعنی احتمال مشاهده نمونهایی با میانگین x̄ به شرط میانگین جامعه µ چقدر است؟ یا به بیان دقیقتر، احتمال مشاهده نمونه در دست با فرض صحیح بودن فرضیه صفر چقدر است؟ احتمال اینکه نمونه در دست چقدر میتواند از فرضیه صفر انحراف داشته باشد، را محاسبه میکند هرچقدر میزان این انحراف بیشتر باشد، مقدار p-valueکمتر میشود. میزان تطابقپذیری (دورافتادگی) نمونه در دست را با ادعای صحیح بودن فرضیه صفر اندازهگیری میکند و احتمال درست بودن فرضیه صفر را بررسی نمیکند. کمترین احتمالی که با آن میتوانیم فرضیه صفر را رد کنیم. قوت شواهد علیه فرضیه صفر را ارزیابی میکند.
ایده اصلی رد فرضیه در واقع این میباشد که ما هیچ وقت نمیتوانیم اثبات کنیم که یک گزارهایی صحیح است. بنابراین دنبال شواهدی برای صحیح نبودن آن میگردیم.
مفهوم p-value را در 3 مرحله میتوان خلاصه کرد:
1- فرض میکنیم فرضیه صفر صحیح است.
2- با استفاده از «آماره آزمون»، فاصله بین نمونه و فرضیه صفر را اندازهگیری میکنیم.
3- احتمال مشاهده نمونهایی که حداقل به اندازه «آماره آزمون» از فرضیه صفر فاصله داشته باشد؛ چقدر است؟
حال اگر p-valueیک آزمون کمتر از 5% باشد «طبق عرف»، فرضیه صفر را رد میکنیم. اما وقتی همهی احتمالات زیر 5% را رد میکنیم این احتمال وجود دارد که نمونه واقعا از جامعه مورد ادعا گرفته شده باشد ولی نمونه حدی باشد و توسط «عرف ما» رد شده است. به این خطا، «خطای نوع اول یا a» یا «احتمال رد فرضیه صحیح» گفته میشود.
قابل ذکر است که رد نشدن فرضیه صفر دلیل بر «صحیح» بودن آن نیست بلکه بدین معنی است که با شواهد موجود نتوانستیم آن را رد کنیم یا به بیان دیگر با این نمونه، شواهد قوی علیه فرض صفر وجود ندارد و هیچ معنی دیگری ندارد. همچنین رد شدن فرضیه صفر به معنی «غلط» بودن آن نیست و ممکن است ما مرتکب خطای نوع یک شده باشیم. از طرفی دیگر رد شدن فرضیه صفر (پایین بودن مقدار p-value) به معنی «صحیح» بودن فرضیه آلترناتیو نمیباشد بلکه بدین معنی است که احتمال مشاهده چنین نمونهایی از جامعه ادعایی در فرضیه صفر، بسیار پایین است. به احتمال زیاد این نمونه از جامعه ادعایی گرفته نشده است.
باید دقت کرد که با کم کردن احتمال خطای نوع یک، یعنی فاصله اطمینان را گسترش دادیم؛ در این صورت احتمال اینکه با ادعاهای پرت بیشتر روبرو شویم بیشتر میشود.
شکل زیر مثال دیگری میباشد که خطای نوع یک را نشان میدهد. فرض کنید از 2 جامعه با میانگین قد یکسان نمونهگیری شده است اما به صورت تصادفی، 2 نمونه مذکور با یکدیگر تفاوت زیادی دارند و باعث میشود که فرضیه یکسان بودن میانگین 2 جامعه رد بشود.
خطای نوع 2
نمونه در دست با ادعا (فرضیه صفر) همخوانی دارد ولی ادعا در مورد جامعه درست نمیباشد. یا به بیان دیگر «احتمال عدم رد فرض غلط». از نماد bبرای نمایش این خطا استفاده میشود.
باز شکل زیر مثال دیگری از خطای نوع 2 میباشد. میانگین واقعی قد 2 جامعه متفاوت از یکدیگر میباشد اما به صورت تصادفی، 2 نمونه مذکور با یکدیگر تفاوت زیادی ندارند و باعث میشود که فرضیه یکسان بودن میانگین 2 جامعه رد نشود.
جدول زیر به صورت خلاصه فرضیات و نحوه تصمیمگیری پژوهشگر در مورد آنها را نشان میدهد:
بعد از معرفی خطاها لازم است که در مورد قدرت آزمون صحبت کنیم. فرض کنید داروی جدیدی معرفی شده است و روی گروهی آزمایش انجام شده است و گروهی نیز بدون دارو رصد شدهاند، آیا نتیجه 2 گروه متفاوت از همدیگر است؟ آیا این دارو اثر واقعی روی بهبود بیماری داشته است؟ قدرت آزمون یعنی اگر اثر واقعی وجود داشته باشد، در چند درصد مواقع آن را درست تشخیص میدهیم؟
اگر اثر واقعی وجود داشته باشد (فرضیه صفر صحیح باشد): صرفا با خطای نوع یک روبرو هستیم.
اثر واقعی وجود نداشته باشد (فرضیه جایگزین صحیح باشد): صرفا با خطای نوع 2 روبرو هستیم.
اما موضوع این است که ما هیچ وقت نمیدانیم کدام فرضیه صحیح است!
در اینجا سوال مهمی پیش میآید: کدام خطا مهم است؟
جواب: به عهده پژوهشگر میباشد. به عنوان مثال یک پزشک اگر فردی که واقعا بیمار است را سالم تشخیص دهد احتمال مرگ بیمار وجود دارد. اما اگر فرد سالم را بیمار تشخیص دهد احتمالا عواقب آن شبیه حالت قبل نباشد. یا به عنوان مثال دیگر، محکوم کردن یک فرد بیگناه بدتر است یا آزاد کردن یک فرد گناهکار؟
با توضیحات فوق، آزمون فرضیه را یکبار دیگر بازتعریف میکنیم: آیا شواهد کافی در نمونه برای استنتاج ویژگیهای خاصی در مورد جامعه وجود دارد یا خیر؟
ذکر دوباره این نکته ضروری است که ما هیچ وقت نمیتوانیم پارامتر جامعه را مشاهده کنیم صرفا ميتوانيم فاصله بین «یک ادعا» و نمونه را بررسی (محاسبه) کنیم. اگر فاصله کم باشد یعنی شواهدی در رد ادعا نداریم (کم بودن فاصله به معنای تایید ادعا نیست). و اگر فاصله زیاد باشد شواهدی در رد ادعا داریم (البته باز به معنای واقعی نمیتوانیم رد کنیم). در هر دو حالت با خطاهایی (نوع یک و دو) روبرو هستیم که باز هم «هیچ وقت نمیتوانیم متوجه بشویم که کدام خطا رو مرتکب شدهایم» آیا اصلا خطایی مرتکب شدهایم را هم نمیدانیم.
حتی گزاره «شواهدی در رد ادعا وجود دارد و ندارد» هم به معنای واقعی صحیح نیستند. در واقع با قبول یک خطایی، این جمله معنی پیدا میکند.
در واقع در فرایند آزمون فرضیه ما در حال محاسبه یک احتمال هستیم (با اتکا به دانستن توزیع میانگین نمونهها و قضیه حد مرکزی) و دلالتی در مورد رد یا تایید ادعا وجود ندارد. فرض میشود جامعهایی با ادعای مذکور وجود دارد حالا احتمال اینکه نمونهایی فلان مقدار از این ادعا فاصله داشته باشد، چقدر است؟ اگر احتمال زياد باشد با ادعا همراه میشویم و اگر احتمال کم باشد وزن خاصی به ادعا نمیدهیم.
در مثال فوق ما در مورد پارامتر میانگین صحبت کردیم و به توزیع نمونهگیری نرمال رسیدیم اگر هدف از پژوهش، استنتاج در مورد ویژگی دیگری باشد ممکن است به توزیع دیگری برسیم ولی اصول و تفسیر موضوع همچنان بر روال فوق میباشد (به عنوان مثال توزیع نمونهگیری نسبت واریانس 2 جامعه نرمال توزیع F میباشد).
دقت کنید که فرایند آزمون فرضیه در مورد درست یا غلط بودن فرضیهها، خوب یا بد بودن آن، میزان محبوبیت آن یا اینکه آیا فرضیهها از یک باور ارزشی نشأت میگیرند یا خیر؛ هیچ صحبتی ندارد. این موضوع بدین معنی نمیباشد که «نتیجه تحقیق» عاری از قضاوت ارزشی میباشد! همانطور که گفته شد ممکن است منشا فرضیهها یک باور ارزشی باشد ولی فرایند آزمون فرضیه صرفا فاصله نمونه با آن فرضیه ارزشی را بررسی میکند.
همچنین دقت کنید که پشت هر انتخاب انسان؛ یک دستگاه اخلاقی و ارزشی قرار دارد. تا وقتی انسان با انتخاب روبرو است، دستگاه اخلاقی هم به ناچار همراهش میباشد.
یکی از انتخابهایی که در چند سال قبل به صورت عملی دیدهایم مواجهه با ویروس کرونا بود. داروی محدودی وجود دارد؛ افراد مسن در اولویت هستند یا جوانان؟
فرض کنید ادعا میشود که یک واحد درصد افزایش در نرخ مالیات باعث کاهش 3 واحد درصد نابرابری اجتماعی میشود. پژوهشگر صرفا فاصله ادعا و نمونه را بررسی میکند. وقتی سیاستمدار برمبنای نتیجه این تحقیق دست به انتخاب میزند، دستگاه اخلاقی خود را نمایان کرده است.
به طور کلی باید دقت شود که «فرایند آزمون فرضیه» با «انتخاب»، خلط نشود. عاری بودن فرایند آزمون فرضیه از دستگاه اخلاقی، دلیل بر عاری بودن انتخاب افراد یا سیاستمدار از قضاوت ارزشی نمیباشد.
در یک کلام؛ فرایند آزمون فرضیه به مثابه یک ترازو میباشد، نه بیشتر و نه کمتر.
پایان/