آزمون فرض چیست؟

شاید شما هم از آن دسته افرادی باشید که دوست دارید کسی فقط به شما نکات و اصطلاحات اصلی آمار را بگوید. در این مقاله سعی می‌کنیم اصلی‌ترین اصطلاحات آماری در مورد آزمون فرض را با زبانی ساده توضیح دهیم.

آمار چیست؟ می توان گفت آمار یک روش قدیمی برای جمع‌آوری داده‌های ما است. بله. این تعریف به لحاظ تکنیکی صد در صد تعریف درستی از آمار است. حال ببینیم که عناصر اصلی آمار چیست.

آمار علم تغییر در تصمیمات شماست

تصمیم‌گیری بر اساس حقایق (پارامترها) به اندازه کافی دشوار است؛ بعضی اوقات حتی حقایق لازم را نداریم. آن چه می‌دانیم (نمونه ما) با آنچه که دوست داریم بدانیم (جمعیت ما) متفاوت است. این به معنای عدم حتمیت (uncertainty) است.

آمار علم تغییر نگرش (تصمیم) در شرایط عدم حتمیت است. در این شرایط ذهن شما چگونه عمل خواهد کرد؟ بر اساس یک اقدام پیش فرض یا یک باور قبلی. اگر ذهن شما مانند یک تخته سنگ خالی باشد چطور؟

بیزی‌ها، باورهای شما را به روزرسانی می‌کنند

آمار بیزی مکتب فکری است که با داده‌­ها برای به روز کردن باورهای شما سروکار دارد. بیزی‌­ها دوست دارند نتایج را با استفاده از بازه­‌های باورپذیر گزارش دهند (دو عدد که به این صورت تفسیر می شود: "من معتقدم که جواب بین اینجا و اینجا قرار دارد").

فراوانی گرایانه ها (frequentist) اقدامات (actions) را تغییر می‌دهند

آمارهای فراوانی گرایانه با تغییر تصمیم شما در مورد اقدامات سروکار دارد. در مکتب فراوانی گرایانه تنها به مشاهدات و بسامد رخدادها استناد می‌­شود و بر حسب آن می­‌توان مسائل را حل کرد. شما لازم نیست که یک پیش فرض داشته باشید.

آزمون فرض

آزمون فرض در اوایل قرن هجدهم مطرح گردید و برای اولین بار در مقاله‌­ای از جان آربوت نات
(John Arbuthnot) مورد بحث قرار گرفت. آزمون فرض یک فرایند استنتاجی است که هدف آن برآورد پارامترهای جامعه‌­ای است که نمونه­‌ی مورد مطالعه از آن استخراج شده است. آزمون فرض (در آمار پارامتری و ناپارامتری) با صورت‌بندی کردن فرض‌­های آماری آغاز می‌­شود؛ به عبارت دیگر، در آزمون فرض یک ارزش معین در ذهن وجود دارد و فرض می­‌شود که این ارزش، پارامتر جامعه‌­ی مورد نظر را برآورد می‌­کند. سؤالی که در اینجا مطرح می­‌شود آن است که آیا ارزش یا مقداری که به کمک اطلاعات جمع­‌آوری شده از نمونه، برای پارامتر جامعه برآورد می­‌شود، درست است یا خیر. روش­‌های آماری عملی که در پاسخ به این سوال و در تصمیم­‌گیری به ما کمک می­‌کنند، آزمون­‌های معناداری (Test of Significance) نامیده می­‌شوند.

آزمون فرض­‌های آماری، آزمون پارامترهای جامعه هستند که به ویژگی­‌های توزیع­‌های جامعه مربوط می­‌شوند. در یک آزمایش، برای آزمون تأثیر داروی معینی در درمان بیماران مبتلا به ایدز، محقق به عنوان یک دانشمند، عمدتاً به اثرهای این دارو یا عدم استفاده‌­ی آن در نمونه‌­های خاصی از بیمارانی که در این آزمایش انتخاب شده‌­اند، علاقه­‌مند نیست. علاقه­‌ی اصلی او معطوف بیان قضاوت­‌های کلی درباره­‌ی کارایی این دارو، در زمانی است که در جامعه‌­ی معین و وسیعی از آزمودنی‌­ها به کار می‌­رود. او علاقه­‌مند است که استدلال خود را از جز به کل بیان کند و درصدد است که نتیجه‌­ی کار خود را فراسوی آزمایش حاضر گسترش دهد. هدف او، استنباط قیاسی (Inductive inference) است.

آزمون فرض با بیان فرض‌­های آماری آغاز می‌­شود. فرض آماری جمله یا عبارتی است که پیرامون ویژگی­‌های جامعه بیان می­‌شود و امکان دارد درست نباشد؛ ولی پژوهشگر صرفاً به خاطر برقرار کردن یک شرایط قابل آزمایش، آن را مطرح می­‌کند. به عبارت دیگر، فرض آماری یک بیان کمّی درباره­‌ی پارامتر جامعه است و اصولاً بدون داشتن فرض آماری، امکان انجام یک آزمون آماری دشوار است. فرض آماری به دو دسته تقسیم می‌شود:

· فرض صفر (null hypothesis)

· فرض مقابل (alternative hypothesis)

فرض صفر (null hypothesis)

فرض صفر (null hypothesis) تمام جهان را توصیف می‌­کند؛ جایی که اقدام پیش فرض مورد قبول است. به طور کلی فرض صفر قضیه یا پیشنهادی است که نوعی رابطه قطعی و دقیق را بیان می­‌کند. به عنوان مثال بیان می‌­دارد که همبستگی بین دو متغیر مساوی صفر است یا اینکه تفاوت در میانگین دو گروه در جامعه مساوی صفر (یا نوعی عدد معین) است.

فرض مقابل (alternative hypothesis)

فرض مقابل (alternative hypothesis)، همه جهان­‌های دیگر است. اقدام جایگزین در صورت رد فرض صفر با استفاده از داده‌ها انجام می‌شود. برای مثال: ما معمولاً با همدیگر به کلاس می رویم (عمل پیش فرض)؛ اگر معمولاً زیر پانزده دقیقه طول بکشد تا حاضر شوید (فرض صفر)؛ اما شواهد (داده­‌ها) می‌گویند که بیشتر طول می­‌کشد (فرض مقابل)، شما می­‌توانید تنهایی به کلاس بروید چون من از نمونه خارج شده‌ام (اقدام جایگزین).

آزمون معناداری شاخص‌­های آماری، در واقع همان آزمون فرض­ صفر است. در حقیقت، محقق مایل است که از بین دو راه حل، یکی را برگزیند. آیا می‌­توان تفاوت مشاهده‌شده را با سطح اطمینان معینی، به خطاهای نمونه­‌گیری نسبت داد؛ یا این که این نتیجه، غیر قابل انتظار است؛ و یا این که با سطح اطمینان معینی، نتیجه‌ی مقابل به دست می‌­آید، یعنی بین پارامترها تفاوت وجود دارد؟ این تصمیم­‌گیری مبتنی بر احتمال است. آزمون معناداری به طور ساده، روشی برای برآورد احتمال­‌ها است. این آزمون­‌ها متعدد هستند. بسیاری از این روش‌­ها برای برآورد احتمال­‌ها در موقعیت­‌های مختلف به کار گرفته می‌­شوند. صرف نظر از این روش‌های مختلف، نتیجه­‌ی نهایی همواره یکسان است و یک احتمال به دست می‌­آید. این احتمال برای تصمیم‌گیری درباره‌­ی پارامترها به کار می‌­رود که در حقیقت، تصمیم‌گیری درباره‌ی نتایجی است که می‌­توان آن‌ها را از روی داده‌­ها استنباط کرد.

مراحل منطقی مورد استفاده در کاربرد آزمون­ فرض، به شرح زیر هستند:

1) فرض­ صفر را تنظیم کنید؛ یعنی، یک فرض­ آزمایشی را در نظر بگیرید که مبیّن عدم تأثیر متغیر مورد آزمایش باشد.

2) داده­‌های تجربی (empirical data) را بررسی کنید. هنگامی که این فرض به دو میانگین مربوط می­شود، تفاوت بین دو میانگین را بررسی نمایید.

3) این سؤال مطرح می­‌شود که احتمال به دست آوردن تفاوتی برابر یا بزرگتر، چقدر است؟

4) هرگاه این احتمال اندک باشد، این نتیجه­‌ی مشاهده شده که بر اساس فرض­ صفر تا اندازه­‌ی زیادی نامحتمل است، به رد فرض­ صفر منجر می­‌شود.

رد فرض­ صفر، به این معنا است که تفاوت مشاهده شده را نمی‌­توان به طور منطقی، بر اساس خطای نمونه‌گیری تبیین کرد و احتمالاً می‌­توان آن را به متغیر آزمایشی مورد نظر نسبت داد. بنابراین، می­‌توان گفت که این نتیجه معنادار است. هرگاه، این احتمال ناچیز نباشد و نتوان نتیجه‌­ی مشاهده‌شده را کاملاً نامحتمل در نظر گرفت، آنگاه خطای نمونه‌گیری می­‌تواند این تفاوت مشاهده‌شده را تبیین کند. بنابراین، نمی‌­توان با اطمینان قضاوت کرد که این تفاوت از متغیر آزمایشی مورد استفاده، ناشی شده است.

در آزمون هر فرض­ آماری، لازم است که فرض مقابل را نیز تنظیم کنیم. هرگاه فرض­ صفر رد شود، فرض­ مقابل پذیرفته می­‌شود.

آزمون فرض به طور خلاصه: «آیا شواهدی که داریم باعث می‌­شود فرض صفر مسخره به نظر برسد؟» تمام آزمایشات فرض درمورد سوال است: آیا شواهد ما باعث می­‌شود این فرض صفر مسخره به نظر برسد؟ رد فرض صفر یعنی اینکه ما چیزی استنباط کرده­‌ایم و باید تصمیم خود را تغییر دهیم. رد نکردن آن (قبول فرض صفر) بدان معنی است که ما چیز جدیدی استنباط نکرده‌ایم، مثلاً پیاده‌روی در جنگل و ندیدن هیچ انسانی، اثبات نمی‌کند که هیچ انسانی در کره زمین وجود ندارد. این بدان معناست که ما درباره وجود انسان­‌ها چیز جدیدی استنباط نکردیم. آیا شما از اینکه هیچ چیزی استنباط نکرده‌اید ناراحت می‌شوید؟ ناراحت نشوید؛ زیرا شما یک قانون دوست داشتنی دارید: شما دقیقاً می‌دانید چه اقدامی باید انجام دهید. اگر چیزی استنباط نکردید هیچ دلیلی وجود ندارد که تغییر نظر دهید، بنابراین می‌توانید به صورت پیش فرض عمل کنید.

بنابراین چگونه می‌توانیم بفهمیم که آیا چیز جدیدی استنباط کرده‌ایم یا خیر. برای به دست آوردن جواب می‌توانیم به مقدار احتمال (p-value) یا یک بازه اطمینان (confidence interval) نگاه کنیم.

مقدار احتمال (p-value) در جدول تناوبی: عنصر تعجب است

پی مقدار می‌گوید: «اگر من در دنیایی زندگی می­‌کنم که باید آن اقدام پیش‌فرض را انجام دهم نتایج من چقدر مورد انتظار است؟» هرچه مقدار p پایین‌تر باشد، داده‌ها و شواهد بیشتری وجود دارد که «خیلی جالب به نظر می رسد، شاید شما باید تصمیم خود را تغییر دهید!»

بنابراین p-value يعني احتمال مشاهده رخـداد بـه دسـت آمـده در صـورت برقراري فرض صفر (H0) و همانطور كه خودتان به اين نتيجه رسيده‌­ايد، هر چه مقدار p-value كمتر باشد احتمال برقـراري فرض صفر كمتر می‌شود. برای انجام آزمون، p-value را با آستانه‌ای به نام سطح معناداری (significance level) مقایسه کنید. بـه طـور قـراردادي سطح معناداری 05/0 به كار برده مي‌­شود و مقادير كمتر از آن به اين صورت تفسير می‌­شود كـه مـشاهده مـا از لحاظ آماری معنادار (Significant) بوده است. در واقع میزان ریسک پذیری‌­ای که می‌خواهید تحمل کنید را نشان می­‌دهد. یعنی حداکثر احتمال شما برای رد اقدام پیش فرض. اگر سطح معناداری صفر باشد یعنی شما نباید پیش فرض خود را رد کنید. قلم‌تان را زمین بگذارید. هیچ داده‌ای را تحلیل نکنید، فقط اقدام پیش فرض خود را انجام دهید.

بازه اطمينان (Interval Confidence) و نحوه تفسير نتایج مطالعه توسط آن

وقتي براي بار اول مسير منزل تا محل كارتـان را مـی‌­رويـد و متوجـه مـي­‌شـويد 30 دقيقـه در راه بوده‌­ايد، ممكن است حدس بزنيد فردا نيز با فرض يكسان بـودن آب و هـوا بـين 15 تـا 45 دقيقـه در راه باشيد. اگر در كل هفته 30 دقيقه در راه بوده باشيد ممكن است تخمين شما براي روزهاي آينـده دقيـق­‌تـر (مثلاً بين 25 تا 35 دقيقه) شود، در حالي كه اگر در روزهـاي مختلـف 30 ،10 ،15 ،50 ،35 دقيقـه در راه بوده باشيد مدت زماني را كه پيش‌بيني خواهيد كرد بازه پهن‌تري (مثلاً بين 10 دقيقه تا 1 ساعت!) خواهد بود. این بازه‌­ها در واقع همان بازه اطمينان (CI) هستند! يعني بازه‌­اي از اعداد كه شما بـا اطمينـان خاصـي (مـثلاً 90 درصد، 95 درصد يـا 99 درصد مقداري را پيش‌بيني مي‌­كنيد). درحقیقت فاصله اطمینان راهی برای گزارش نتایج آزمون فرض شما است. برای استفاده از آن بررسی کنید که آیا با فرض صفر شما همپوشانی دارد یا خیر. اگر همپوشانی داشته باشد یعنی چیزی استنباط نشده است. اگر همپوشانی نداشته باشد نظر خود را تغییر دهید. فقط در صورتی که فاصله اطمینان با فرض صفر شما همپوشانی نداشته باشد نظر خود را تغییر دهید.

در حالی که معنای یک فاصله اطمینان به لحاظ تکنیکی کمی عجیب است، دو مزیت نیز دارد که تحلیلگران در توصیف داده هایشان از آنها استفاده می‌کنند:

(1) بهترین حدس همیشه در آنجاست و (2) وقتی اطلاعات بیشتری وجود دارد باریک تر است. توجه داشته باشید که توضیح هر دو یعنی فاصله اطمینان و p-value آسان نیست. بنابراین انتظار تعاریف مختصر و مفید نداشته باشید. آنها راه­هایی برای خلاصه کردن نتایج آزمون هستند. مفهوم چیست؟ اگر شما آنطور که من توضیح داده­‌ام آزمایش خود را انجام دهید، ریاضی تضمین می‌­کند که خطر اشتباه شما در سطح معناداری که انتخاب کرده­‌اید محدود می‌شود.

ریاضیات به هرآنچه که در مورد ساختن یک مدل از جهان فرضیات صفر است می‌پردازد. به این نحو p-value را بدست می‌آورید.

اگر مدل فرض صفر به شما داده‌­ای مشابه با داده‌های واقعی نمی‌­دهد، بنابراین p-value شما پایین خواهد بود که منجر به رد شدن فرض صفر شما می‌شود ... تصمیم خود را تغییر دهید!

تمام این فرمول‌ها، این احتمالات (probabilities) و توزیع‌­ها (distributions) برای چیست؟ آن‌ها به ما این امکان را می‌دهند که قوانین حاکم بر عالم فرض صفر را بیان کنیم؛ بنابراین می‌توانیم تشخیص دهیم که آیا آن شرایط به نوعی مشابه شرایط واقعی است یا نه. اگر اینطور باشد یعنی شما چیزی استنباط نکرده‌اید. p-value و بازه اطمینان راه‌­هایی برای خلاصه کردن هستند به این معنی که نیازی به توصیف و تفسیرهای طولانی و پیچیده در مورد شرایط نیست. آنها پایان را نشان می‌دهند: از آن‌­ها استفاده کنید برای اینکه بفهمید آیا اقدام پیش فرض انجام دهید یا خیر.

آیا ما تکالیفمان را انجام داده ایم؟ این همان قدرت اندازه گیری است

صبر کنید؛ آیا ما تکالیفمان را انجام دادیم تا مطمئن شویم که در واقع شواهد و داده‌های کافی برای تغییر تصمیم‌مان جمع کرده­‌ایم؟ این همان مفهوم قدرت اندازه‌گیری است. هر چقدر قدرت بیشتری داشته باشید فرصت بیشتری نیز برای تغییر دارید. قدرت یعنی احتمال انجام اقدام پیش فرض به طور صحیح. هنگامی که چیزی استنباط نکردیم و به آنچه انجام می‌­دادیم ادامه دهیم، با قدرت بیشتر درک بهتری نسبت به روندمان خواهیم داشت. حداقل ما تکالیف خود را انجام داده‌ام. اگر قدرت کمی داشتیم یا اصلا قدرت نداشتیم یعنی ما تقریباً می‌دانستیم که نمی‌­خواهیم نظر خود را تغییر دهیم. همچنین ممکن است نیازی به تحلیل داده‌ها هم نداشته باشید.

قبل از شروع به کار از آنالیز قدرت استفاده کنید تا مطمئن شوید داده­‌های کافی دارید

آنالیز قدرت (power analysis) روشی است برای اینکه بفهمید چقدر قدرت برای یک مقدار مشخص از داده مورد انتظار است که از آن برای برنامه ریزی مطالعات قبل از شروع استفاده می‌شود.

عدم حتمیت به معنای آن است که نتیجه نادرست به دست می‌آید حتی اگر بهترین ریاضیات دنیا را داشته باشید

آمار چه چیزی نیست؟ جادویی که حتمیت (certainty) را از عدم حتمیت (uncertainty) می‌سازد. هیچ جادویی وجود ندارد که بتواند این کار را انجام دهد. خطاها وجود دارند. در آمار فراوانی گرایانه دو نوع خطا رخ می دهد. خطای نوع I عمل پیش فرض شما را رد می­‌کند. خطای نوع IIعمل پیش فرض شما را رد نمی‌کند. حدس بزنید که کدام اشتباه بدتر است. نوع اول؟ بله.

خطای نوع I تصمیم شما را تغییر می‌­دهد هنگامیکه نباید این تغییر رخ بدهد.

خطای نوع II تصمیم شما را تغییر نمی­‌دهد هنگامیکه باید این تغییر رخ بدهد (نیاز هست که تغییر اتفاق افتد).

این موقعیت را می­توان به صورت زیر نمایش داد:

هنگامی که H­1 را می‌­پذیریم و H­1 درست است، تصمیم اتخاذ شده، صحیح است. چنانچه H0 را بپذیریم و H0 درست باشد، باز هم تصمیم درستی اتخاذ شده است. پذیرش H1 هنگامی که H0 درست است و پذیرش H0 هنگامی که H1 درست است، هر دو خطا هستند. در این دو حالت، محقق تصمیم نادرستی اتخاذ کرده است.

خطای نوع I مانند محکوم کردن یک فرد بی گناه است و خطای نوع II مانند عدم محکومیت فرد مجرم است. احتمال رخ دادن این دو نوع خطا در توازن قرار دارند (آسانتر بودن محكومیت یک فرد مجرم باعث می شود كه محكوم كردن یك فرد بی گناه نیز آسان تر شود) مگر اینكه شواهد بیشتری (داده ها!) به دست آورید. در این صورت هر دو خطا كمتر می شوند و همه چیز بهتر می‌شود. به همین دلیل است که آماردانان می‌خواهند که داده‌های بیشتر و بیشتری داشته باشید! وقتی اطلاعات بیشتری دارید همه چیز بهتر می­‌شود.

داده های بیشتر به معنای محافظت بیشتر در برابر نتیجه گیری نادرست است

توان آزمون

توان یک آزمون آماری برابر است با احتمال رد H0 هنگامی که این فرض واقعاً غلط است. به عبارت دیگر، توان آزمون، احتمال درست بودن H1 است، در صورتی که واقعاً نیز چنین باشد.

در یک محاکمه با هیات منصفه، این وضعیت با این احتمال قابل مقایسه است که گناهکار بودن متهم ثابت می­شود، در حالی که واقعاً گناهکار است. مفهوم توان آزمون در سطح نظریه، برای قضاوت­‌های زیادی به کار می‌­رود که در زندگی روزمره بیان می­‌شوند، اگرچه صرف تجربه می‌­تواند برآوردهای ذهنی و احتمالاً نادرستی از ارزش‌­های مربوط به توان­ آن‌ها را به دست دهد. در پژوهش­های آزمایشی عملی، به خصوص در طرح آزمایش‌ها، مفهوم توان آزمون اهمیت زیادی دارد.

آزمون مقایسه‌های چندگانه (multiple comparisons) چیست؟ اگر قصد دارید چندین سؤال از یک مجموعه داده بپرسید باید آزمایش خود را به صورت متنوع و منظم انجام دهید. اگر بارها و بارها مظنونان بی‌گناه را محاکمه کنید در نهایت به طور تصادفی جرمی پیدا خواهید کرد. اصطلاح آماری معنی دار (statistically significant) به معنای این نیست که اتفاق دیدنی مهمی رخ داده است. این به این معنی است که ما تصمیم خود را تغییر داده­ایم. شاید نادرست باشد. نفرین بر عدم قطعیت!

وقت خود را با جواب دادن به سوال اشتباه تلف نکنید. آمار را به صورت هوشمندانه به کار برید (و فقط در صورت لزوم).

خطای نوع III چیست؟ این یک نوع شوخی آماری است: این به معنای رد فرض صفر اشتباه است. به عبارت دیگر استفاده از تمام ریاضیات و محاسبات مناسب برای پاسخ به سوال اشتباه.

یک راه حل برای پرسش و پاسخ به سوال اشتباه را می توان در هوش تصمیم گیری (decision intelligence) یافت؛ یک شاخه جدید که از علم داده برای حل مشکلات کسب و کار و ایجاد تصمیمات بهینه استفاده می‌کند. با تسلط بر هوش تصمیم گیری خطای نوع III و تحلیل های بی فایده را کاهش خواهید داد.

به طور خلاصه آمار علم تغییر تصمیم شماست. دو مکتب فکری وجود دارد. یکی از محبوب ترین‌­ها یعنی آمار فراوانی گرایانه بیشتر درمورد رد کردن اقدام پیش فرض است. آمار بیزی یعنی یک نظریه قبلی وجود دارد و آن نظریه با استفاده از داده ها بروز می شود. اگر ذهن شما قبل از شروع کار کاملا خالی است، از داده هایتان استفاده کرده و فقط به خودتان اعتماد کنید.