مرجع تخصصی آمار ایران
آزمون فرض چیست؟
شاید شما هم از آن دسته افرادی باشید که دوست دارید کسی فقط به شما نکات و اصطلاحات اصلی آمار را بگوید. در این مقاله سعی میکنیم اصلیترین اصطلاحات آماری در مورد آزمون فرض را با زبانی ساده توضیح دهیم.
آمار چیست؟ می توان گفت آمار یک روش قدیمی برای جمعآوری دادههای ما است. بله. این تعریف به لحاظ تکنیکی صد در صد تعریف درستی از آمار است. حال ببینیم که عناصر اصلی آمار چیست.
آمار علم تغییر در تصمیمات شماست
تصمیمگیری بر اساس حقایق (پارامترها) به اندازه کافی دشوار است؛ بعضی اوقات حتی حقایق لازم را نداریم. آن چه میدانیم (نمونه ما) با آنچه که دوست داریم بدانیم (جمعیت ما) متفاوت است. این به معنای عدم حتمیت (uncertainty) است.
آمار علم تغییر نگرش (تصمیم) در شرایط عدم حتمیت است. در این شرایط ذهن شما چگونه عمل خواهد کرد؟ بر اساس یک اقدام پیش فرض یا یک باور قبلی. اگر ذهن شما مانند یک تخته سنگ خالی باشد چطور؟
بیزیها، باورهای شما را به روزرسانی میکنند
آمار بیزی مکتب فکری است که با دادهها برای به روز کردن باورهای شما سروکار دارد. بیزیها دوست دارند نتایج را با استفاده از بازههای باورپذیر گزارش دهند (دو عدد که به این صورت تفسیر می شود: "من معتقدم که جواب بین اینجا و اینجا قرار دارد").
فراوانی گرایانه ها (frequentist) اقدامات (actions) را تغییر میدهند
آمارهای فراوانی گرایانه با تغییر تصمیم شما در مورد اقدامات سروکار دارد. در مکتب فراوانی گرایانه تنها به مشاهدات و بسامد رخدادها استناد میشود و بر حسب آن میتوان مسائل را حل کرد. شما لازم نیست که یک پیش فرض داشته باشید.
آزمون فرض
آزمون فرض در اوایل قرن هجدهم مطرح گردید و برای اولین بار در مقالهای از جان آربوت نات
(John Arbuthnot) مورد بحث قرار گرفت. آزمون فرض یک فرایند استنتاجی است که هدف آن برآورد پارامترهای جامعهای است که نمونهی مورد مطالعه از آن استخراج شده است. آزمون فرض (در آمار پارامتری و ناپارامتری) با صورتبندی کردن فرضهای آماری آغاز میشود؛ به عبارت دیگر، در آزمون فرض یک ارزش معین در ذهن وجود دارد و فرض میشود که این ارزش، پارامتر جامعهی مورد نظر را برآورد میکند. سؤالی که در اینجا مطرح میشود آن است که آیا ارزش یا مقداری که به کمک اطلاعات جمعآوری شده از نمونه، برای پارامتر جامعه برآورد میشود، درست است یا خیر. روشهای آماری عملی که در پاسخ به این سوال و در تصمیمگیری به ما کمک میکنند، آزمونهای معناداری (Test of Significance) نامیده میشوند.
آزمون فرضهای آماری، آزمون پارامترهای جامعه هستند که به ویژگیهای توزیعهای جامعه مربوط میشوند. در یک آزمایش، برای آزمون تأثیر داروی معینی در درمان بیماران مبتلا به ایدز، محقق به عنوان یک دانشمند، عمدتاً به اثرهای این دارو یا عدم استفادهی آن در نمونههای خاصی از بیمارانی که در این آزمایش انتخاب شدهاند، علاقهمند نیست. علاقهی اصلی او معطوف بیان قضاوتهای کلی دربارهی کارایی این دارو، در زمانی است که در جامعهی معین و وسیعی از آزمودنیها به کار میرود. او علاقهمند است که استدلال خود را از جز به کل بیان کند و درصدد است که نتیجهی کار خود را فراسوی آزمایش حاضر گسترش دهد. هدف او، استنباط قیاسی (Inductive inference) است.
آزمون فرض با بیان فرضهای آماری آغاز میشود. فرض آماری جمله یا عبارتی است که پیرامون ویژگیهای جامعه بیان میشود و امکان دارد درست نباشد؛ ولی پژوهشگر صرفاً به خاطر برقرار کردن یک شرایط قابل آزمایش، آن را مطرح میکند. به عبارت دیگر، فرض آماری یک بیان کمّی دربارهی پارامتر جامعه است و اصولاً بدون داشتن فرض آماری، امکان انجام یک آزمون آماری دشوار است. فرض آماری به دو دسته تقسیم میشود:
· فرض صفر (null hypothesis)
· فرض مقابل (alternative hypothesis)
فرض صفر (null hypothesis)
فرض صفر (null hypothesis) تمام جهان را توصیف میکند؛ جایی که اقدام پیش فرض مورد قبول است. به طور کلی فرض صفر قضیه یا پیشنهادی است که نوعی رابطه قطعی و دقیق را بیان میکند. به عنوان مثال بیان میدارد که همبستگی بین دو متغیر مساوی صفر است یا اینکه تفاوت در میانگین دو گروه در جامعه مساوی صفر (یا نوعی عدد معین) است.
فرض مقابل (alternative hypothesis)
فرض مقابل (alternative hypothesis)، همه جهانهای دیگر است. اقدام جایگزین در صورت رد فرض صفر با استفاده از دادهها انجام میشود. برای مثال: ما معمولاً با همدیگر به کلاس می رویم (عمل پیش فرض)؛ اگر معمولاً زیر پانزده دقیقه طول بکشد تا حاضر شوید (فرض صفر)؛ اما شواهد (دادهها) میگویند که بیشتر طول میکشد (فرض مقابل)، شما میتوانید تنهایی به کلاس بروید چون من از نمونه خارج شدهام (اقدام جایگزین).
آزمون معناداری شاخصهای آماری، در واقع همان آزمون فرض صفر است. در حقیقت، محقق مایل است که از بین دو راه حل، یکی را برگزیند. آیا میتوان تفاوت مشاهدهشده را با سطح اطمینان معینی، به خطاهای نمونهگیری نسبت داد؛ یا این که این نتیجه، غیر قابل انتظار است؛ و یا این که با سطح اطمینان معینی، نتیجهی مقابل به دست میآید، یعنی بین پارامترها تفاوت وجود دارد؟ این تصمیمگیری مبتنی بر احتمال است. آزمون معناداری به طور ساده، روشی برای برآورد احتمالها است. این آزمونها متعدد هستند. بسیاری از این روشها برای برآورد احتمالها در موقعیتهای مختلف به کار گرفته میشوند. صرف نظر از این روشهای مختلف، نتیجهی نهایی همواره یکسان است و یک احتمال به دست میآید. این احتمال برای تصمیمگیری دربارهی پارامترها به کار میرود که در حقیقت، تصمیمگیری دربارهی نتایجی است که میتوان آنها را از روی دادهها استنباط کرد.
مراحل منطقی مورد استفاده در کاربرد آزمون فرض، به شرح زیر هستند:
1) فرض صفر را تنظیم کنید؛ یعنی، یک فرض آزمایشی را در نظر بگیرید که مبیّن عدم تأثیر متغیر مورد آزمایش باشد.
2) دادههای تجربی (empirical data) را بررسی کنید. هنگامی که این فرض به دو میانگین مربوط میشود، تفاوت بین دو میانگین را بررسی نمایید.
3) این سؤال مطرح میشود که احتمال به دست آوردن تفاوتی برابر یا بزرگتر، چقدر است؟
4) هرگاه این احتمال اندک باشد، این نتیجهی مشاهده شده که بر اساس فرض صفر تا اندازهی زیادی نامحتمل است، به رد فرض صفر منجر میشود.
رد فرض صفر، به این معنا است که تفاوت مشاهده شده را نمیتوان به طور منطقی، بر اساس خطای نمونهگیری تبیین کرد و احتمالاً میتوان آن را به متغیر آزمایشی مورد نظر نسبت داد. بنابراین، میتوان گفت که این نتیجه معنادار است. هرگاه، این احتمال ناچیز نباشد و نتوان نتیجهی مشاهدهشده را کاملاً نامحتمل در نظر گرفت، آنگاه خطای نمونهگیری میتواند این تفاوت مشاهدهشده را تبیین کند. بنابراین، نمیتوان با اطمینان قضاوت کرد که این تفاوت از متغیر آزمایشی مورد استفاده، ناشی شده است.
در آزمون هر فرض آماری، لازم است که فرض مقابل را نیز تنظیم کنیم. هرگاه فرض صفر رد شود، فرض مقابل پذیرفته میشود.
آزمون فرض به طور خلاصه: «آیا شواهدی که داریم باعث میشود فرض صفر مسخره به نظر برسد؟» تمام آزمایشات فرض درمورد سوال است: آیا شواهد ما باعث میشود این فرض صفر مسخره به نظر برسد؟ رد فرض صفر یعنی اینکه ما چیزی استنباط کردهایم و باید تصمیم خود را تغییر دهیم. رد نکردن آن (قبول فرض صفر) بدان معنی است که ما چیز جدیدی استنباط نکردهایم، مثلاً پیادهروی در جنگل و ندیدن هیچ انسانی، اثبات نمیکند که هیچ انسانی در کره زمین وجود ندارد. این بدان معناست که ما درباره وجود انسانها چیز جدیدی استنباط نکردیم. آیا شما از اینکه هیچ چیزی استنباط نکردهاید ناراحت میشوید؟ ناراحت نشوید؛ زیرا شما یک قانون دوست داشتنی دارید: شما دقیقاً میدانید چه اقدامی باید انجام دهید. اگر چیزی استنباط نکردید هیچ دلیلی وجود ندارد که تغییر نظر دهید، بنابراین میتوانید به صورت پیش فرض عمل کنید.
بنابراین چگونه میتوانیم بفهمیم که آیا چیز جدیدی استنباط کردهایم یا خیر. برای به دست آوردن جواب میتوانیم به مقدار احتمال (p-value) یا یک بازه اطمینان (confidence interval) نگاه کنیم.
مقدار احتمال (p-value) در جدول تناوبی: عنصر تعجب است
پی مقدار میگوید: «اگر من در دنیایی زندگی میکنم که باید آن اقدام پیشفرض را انجام دهم نتایج من چقدر مورد انتظار است؟» هرچه مقدار p پایینتر باشد، دادهها و شواهد بیشتری وجود دارد که «خیلی جالب به نظر می رسد، شاید شما باید تصمیم خود را تغییر دهید!»
بنابراین p-value يعني احتمال مشاهده رخـداد بـه دسـت آمـده در صـورت برقراري فرض صفر (H0) و همانطور كه خودتان به اين نتيجه رسيدهايد، هر چه مقدار p-value كمتر باشد احتمال برقـراري فرض صفر كمتر میشود. برای انجام آزمون، p-value را با آستانهای به نام سطح معناداری (significance level) مقایسه کنید. بـه طـور قـراردادي سطح معناداری 05/0 به كار برده ميشود و مقادير كمتر از آن به اين صورت تفسير میشود كـه مـشاهده مـا از لحاظ آماری معنادار (Significant) بوده است. در واقع میزان ریسک پذیریای که میخواهید تحمل کنید را نشان میدهد. یعنی حداکثر احتمال شما برای رد اقدام پیش فرض. اگر سطح معناداری صفر باشد یعنی شما نباید پیش فرض خود را رد کنید. قلمتان را زمین بگذارید. هیچ دادهای را تحلیل نکنید، فقط اقدام پیش فرض خود را انجام دهید.
بازه اطمينان (Interval Confidence) و نحوه تفسير نتایج مطالعه توسط آن
وقتي براي بار اول مسير منزل تا محل كارتـان را مـیرويـد و متوجـه مـيشـويد 30 دقيقـه در راه بودهايد، ممكن است حدس بزنيد فردا نيز با فرض يكسان بـودن آب و هـوا بـين 15 تـا 45 دقيقـه در راه باشيد. اگر در كل هفته 30 دقيقه در راه بوده باشيد ممكن است تخمين شما براي روزهاي آينـده دقيـقتـر (مثلاً بين 25 تا 35 دقيقه) شود، در حالي كه اگر در روزهـاي مختلـف 30 ،10 ،15 ،50 ،35 دقيقـه در راه بوده باشيد مدت زماني را كه پيشبيني خواهيد كرد بازه پهنتري (مثلاً بين 10 دقيقه تا 1 ساعت!) خواهد بود. این بازهها در واقع همان بازه اطمينان (CI) هستند! يعني بازهاي از اعداد كه شما بـا اطمينـان خاصـي (مـثلاً 90 درصد، 95 درصد يـا 99 درصد مقداري را پيشبيني ميكنيد). درحقیقت فاصله اطمینان راهی برای گزارش نتایج آزمون فرض شما است. برای استفاده از آن بررسی کنید که آیا با فرض صفر شما همپوشانی دارد یا خیر. اگر همپوشانی داشته باشد یعنی چیزی استنباط نشده است. اگر همپوشانی نداشته باشد نظر خود را تغییر دهید. فقط در صورتی که فاصله اطمینان با فرض صفر شما همپوشانی نداشته باشد نظر خود را تغییر دهید.
در حالی که معنای یک فاصله اطمینان به لحاظ تکنیکی کمی عجیب است، دو مزیت نیز دارد که تحلیلگران در توصیف داده هایشان از آنها استفاده میکنند:
(1) بهترین حدس همیشه در آنجاست و (2) وقتی اطلاعات بیشتری وجود دارد باریک تر است. توجه داشته باشید که توضیح هر دو یعنی فاصله اطمینان و p-value آسان نیست. بنابراین انتظار تعاریف مختصر و مفید نداشته باشید. آنها راههایی برای خلاصه کردن نتایج آزمون هستند. مفهوم چیست؟ اگر شما آنطور که من توضیح دادهام آزمایش خود را انجام دهید، ریاضی تضمین میکند که خطر اشتباه شما در سطح معناداری که انتخاب کردهاید محدود میشود.
ریاضیات به هرآنچه که در مورد ساختن یک مدل از جهان فرضیات صفر است میپردازد. به این نحو p-value را بدست میآورید.
اگر مدل فرض صفر به شما دادهای مشابه با دادههای واقعی نمیدهد، بنابراین p-value شما پایین خواهد بود که منجر به رد شدن فرض صفر شما میشود ... تصمیم خود را تغییر دهید!
تمام این فرمولها، این احتمالات (probabilities) و توزیعها (distributions) برای چیست؟ آنها به ما این امکان را میدهند که قوانین حاکم بر عالم فرض صفر را بیان کنیم؛ بنابراین میتوانیم تشخیص دهیم که آیا آن شرایط به نوعی مشابه شرایط واقعی است یا نه. اگر اینطور باشد یعنی شما چیزی استنباط نکردهاید. p-value و بازه اطمینان راههایی برای خلاصه کردن هستند به این معنی که نیازی به توصیف و تفسیرهای طولانی و پیچیده در مورد شرایط نیست. آنها پایان را نشان میدهند: از آنها استفاده کنید برای اینکه بفهمید آیا اقدام پیش فرض انجام دهید یا خیر.
آیا ما تکالیفمان را انجام داده ایم؟ این همان قدرت اندازه گیری است
صبر کنید؛ آیا ما تکالیفمان را انجام دادیم تا مطمئن شویم که در واقع شواهد و دادههای کافی برای تغییر تصمیممان جمع کردهایم؟ این همان مفهوم قدرت اندازهگیری است. هر چقدر قدرت بیشتری داشته باشید فرصت بیشتری نیز برای تغییر دارید. قدرت یعنی احتمال انجام اقدام پیش فرض به طور صحیح. هنگامی که چیزی استنباط نکردیم و به آنچه انجام میدادیم ادامه دهیم، با قدرت بیشتر درک بهتری نسبت به روندمان خواهیم داشت. حداقل ما تکالیف خود را انجام دادهام. اگر قدرت کمی داشتیم یا اصلا قدرت نداشتیم یعنی ما تقریباً میدانستیم که نمیخواهیم نظر خود را تغییر دهیم. همچنین ممکن است نیازی به تحلیل دادهها هم نداشته باشید.
قبل از شروع به کار از آنالیز قدرت استفاده کنید تا مطمئن شوید دادههای کافی دارید
آنالیز قدرت (power analysis) روشی است برای اینکه بفهمید چقدر قدرت برای یک مقدار مشخص از داده مورد انتظار است که از آن برای برنامه ریزی مطالعات قبل از شروع استفاده میشود.
عدم حتمیت به معنای آن است که نتیجه نادرست به دست میآید حتی اگر بهترین ریاضیات دنیا را داشته باشید
آمار چه چیزی نیست؟ جادویی که حتمیت (certainty) را از عدم حتمیت (uncertainty) میسازد. هیچ جادویی وجود ندارد که بتواند این کار را انجام دهد. خطاها وجود دارند. در آمار فراوانی گرایانه دو نوع خطا رخ می دهد. خطای نوع I عمل پیش فرض شما را رد میکند. خطای نوع IIعمل پیش فرض شما را رد نمیکند. حدس بزنید که کدام اشتباه بدتر است. نوع اول؟ بله.
خطای نوع I تصمیم شما را تغییر میدهد هنگامیکه نباید این تغییر رخ بدهد.
خطای نوع II تصمیم شما را تغییر نمیدهد هنگامیکه باید این تغییر رخ بدهد (نیاز هست که تغییر اتفاق افتد).
این موقعیت را میتوان به صورت زیر نمایش داد:
هنگامی که H1 را میپذیریم و H1 درست است، تصمیم اتخاذ شده، صحیح است. چنانچه H0 را بپذیریم و H0 درست باشد، باز هم تصمیم درستی اتخاذ شده است. پذیرش H1 هنگامی که H0 درست است و پذیرش H0 هنگامی که H1 درست است، هر دو خطا هستند. در این دو حالت، محقق تصمیم نادرستی اتخاذ کرده است.
خطای نوع I مانند محکوم کردن یک فرد بی گناه است و خطای نوع II مانند عدم محکومیت فرد مجرم است. احتمال رخ دادن این دو نوع خطا در توازن قرار دارند (آسانتر بودن محكومیت یک فرد مجرم باعث می شود كه محكوم كردن یك فرد بی گناه نیز آسان تر شود) مگر اینكه شواهد بیشتری (داده ها!) به دست آورید. در این صورت هر دو خطا كمتر می شوند و همه چیز بهتر میشود. به همین دلیل است که آماردانان میخواهند که دادههای بیشتر و بیشتری داشته باشید! وقتی اطلاعات بیشتری دارید همه چیز بهتر میشود.
داده های بیشتر به معنای محافظت بیشتر در برابر نتیجه گیری نادرست است
توان آزمون
توان یک آزمون آماری برابر است با احتمال رد H0 هنگامی که این فرض واقعاً غلط است. به عبارت دیگر، توان آزمون، احتمال درست بودن H1 است، در صورتی که واقعاً نیز چنین باشد.
در یک محاکمه با هیات منصفه، این وضعیت با این احتمال قابل مقایسه است که گناهکار بودن متهم ثابت میشود، در حالی که واقعاً گناهکار است. مفهوم توان آزمون در سطح نظریه، برای قضاوتهای زیادی به کار میرود که در زندگی روزمره بیان میشوند، اگرچه صرف تجربه میتواند برآوردهای ذهنی و احتمالاً نادرستی از ارزشهای مربوط به توان آنها را به دست دهد. در پژوهشهای آزمایشی عملی، به خصوص در طرح آزمایشها، مفهوم توان آزمون اهمیت زیادی دارد.
آزمون مقایسههای چندگانه (multiple comparisons) چیست؟ اگر قصد دارید چندین سؤال از یک مجموعه داده بپرسید باید آزمایش خود را به صورت متنوع و منظم انجام دهید. اگر بارها و بارها مظنونان بیگناه را محاکمه کنید در نهایت به طور تصادفی جرمی پیدا خواهید کرد. اصطلاح آماری معنی دار (statistically significant) به معنای این نیست که اتفاق دیدنی مهمی رخ داده است. این به این معنی است که ما تصمیم خود را تغییر دادهایم. شاید نادرست باشد. نفرین بر عدم قطعیت!
وقت خود را با جواب دادن به سوال اشتباه تلف نکنید. آمار را به صورت هوشمندانه به کار برید (و فقط در صورت لزوم).
خطای نوع III چیست؟ این یک نوع شوخی آماری است: این به معنای رد فرض صفر اشتباه است. به عبارت دیگر استفاده از تمام ریاضیات و محاسبات مناسب برای پاسخ به سوال اشتباه.
یک راه حل برای پرسش و پاسخ به سوال اشتباه را می توان در هوش تصمیم گیری (decision intelligence) یافت؛ یک شاخه جدید که از علم داده برای حل مشکلات کسب و کار و ایجاد تصمیمات بهینه استفاده میکند. با تسلط بر هوش تصمیم گیری خطای نوع III و تحلیل های بی فایده را کاهش خواهید داد.
به طور خلاصه آمار علم تغییر تصمیم شماست. دو مکتب فکری وجود دارد. یکی از محبوب ترینها یعنی آمار فراوانی گرایانه بیشتر درمورد رد کردن اقدام پیش فرض است. آمار بیزی یعنی یک نظریه قبلی وجود دارد و آن نظریه با استفاده از داده ها بروز می شود. اگر ذهن شما قبل از شروع کار کاملا خالی است، از داده هایتان استفاده کرده و فقط به خودتان اعتماد کنید.
مطلبی دیگر از این انتشارات
مسیرهای شغلی در علم داده
مطلبی دیگر از این انتشارات
توزیع نرمال و توزیع تی (توزیع t)
مطلبی دیگر از این انتشارات
شاخص های مرکزی و پراکندگی