هانیه مهدوی
هانیه مهدوی
خواندن ۹ دقیقه·۲ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه بیست‌ودوم - آزمون فرض و آزمون Z

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


تست‌های آماری یکی از جدی‌ترین موضوعاتی هست که در آمار وجود داره و در طی این جلسه و تعدادی از جلسات آینده قراره به بررسی این موضوع بپردازیم.

آزمون فرض

فرض کنید یک شرکت داروسازی وجود داره و یک دارویی رو ساخته و دارو رو هم تست کرده، ولی نمی‌دونیم هنوز بهش مجوز فروش دارو رو بدیم یا نه. نتایج تست دارو توسط شرکت هم به شرح زیره:

به 50 بیمار داروی ساخته شده داده شده و 50 بیمار یک دارو بی‌اثر. در نتیجه، از گروه اول 35 نفر بهبود یافتن و از گروه دوم 20 نفر.

حالا چطور بفهمیم که داروی ساخته شده موثر هست یا نه؟

اگر به جای نتایج به دست اومده، از گروه اول 34 نفر و از گروه دوم 21 نفر بهبود پیدا می‌کردن چی؟ اگر به جای این تعداد، از گروه اول 30 نفر و از گروه دوم 25 نفر حالشون خوب میشد چطور؟ چطور باید مرز رو تعیین کنیم؟

بعنوان یک مثال دیگه، فرض کنید دو تا شرکت تاکسی اینترنتی داریم و ادعا شده که شرکت X از شرکت Y قیمت‌های گرون‌تری داره. میایم از توزیع قیمت در هر دو شرکت نمونه می‌گیریم و می‌بینیم که توزیع‌هاشون خیلی شبیه هم هستن و فقط کمی اختلاف دارن:

نمونه‌هایی که گرفتیم متفاوت بوده. نمونه‌هایی که از توزیع آبی گرفته شده خیلی حول میانگین بوده در حالیکه نمونه‌هایی که از توزیع نارنجی گرفته شده خیلی پراکنده‌تر بوده از همه جای توزیع. اما در نهایت میانگین دو توزیع خیلی بهم نزدیکه. آیا صرفاً با همین اختلاف ناچیزی که بین دو میانگین وجود داره میشه ادعای ارائه شده رو پذیرفت؟ یا باید اصلاً معیار ارزیابی‌مون به صورت دیگه‌ای باشه؟

قراره تو این قسمت درس به این سوالات پاسخ بدیم.

وقتی که در مورد آزمون فرض صحبت می‌کنیم نیاز داریم که تعدادی فرض داشته باشیم. دو تا فرض در نظر می‌گیریم:

فرض پوچ ← Null Hypothesis ← H0 فرض مقابل ← Alternative Hypothesis ← H1

فرض پوچ داره میگه هیچ تفاوتی بین دو جمعیت وجود نداره. به عبارتی دیگه، هر جمعیت یک توزیعی داره و این توزیع جمعیت‌ها و پارامترهاشون باهم تفاوتی ندارن.

فرض مقابل دقیقاً برعکس فرض پوچه و میگه بین دو جمعیت تفاوت وجود داره.

تابعی هم داریم که بهش آماره یا Test Statistics گفته میشه و می‌تونه شبیه میانگین باشه یا شبیه میانگین تقسیم بر انحراف معیار یا هر تابع دیگه‌ای.

در ادامه باید یک سری ترشلد بر اساس یک میزانی از confidence هم تعریف کنیم.

برای مثال همون دو شرکت تاکسی رانی رو در نظر بگیرید. فرض کنید داده‌های 1000 تا سفر رو بهمون بدن و بعد بررسی کردن ببینیم میانگین قیمت در هر دو شرکت یکسان بوده. با این تعداد داده نه میشه ادعا کرد که توزیع‌هاشون یکسان بوده نه میشه ادعا کرد توزیع‌‌هاشون فرق داشته. تعداد داده‌ها به 100 هزارتا هم برسه باز فرقی نداره.
ولی یک راهی وجود داره. می‌تونیم بیایم confidence تعریف کنیم. مثلاً سطح اطمینان رو 95 درصد در نظر بگیریم و بگیم که اگر آماره‌ای که داریم از این سطح اطمینان بالاتر رفت، با احتمال 95 درصد مطمئن هستیم که فرض صفر رد میشه.
یعنی چی این حرف؟ فرض کنید ترشلد رو 7 در نظر بگیریم. حالا اگر بین قیمت سفرهای دو شرکت 7 هزار تومن اختلاف وجود داشته باشه، 95 درصد مطمئن هستیم که باید فرض صفر رد بشه. یعنی دیگه دو شرکت توزیع یکسانی ندارن و یکی داره گرون‌تر قیمت رو محاسبه می‌کنه.

حالا چطور باید آماره رو تعریف کنیم؟ چطور باید از روی confidence داده شده ترشلد رو به دست بیاریم؟ در ادامه این جلسه به این سوالات پاسخ می‌دیم.

مثال زیر رو در نظر بگیرید:

فرض کنید علی به جای 4 سکه، یک سکه داشته باشه و قراره ببینیم آیا واقعاً سکه‌ای که داره fair هست یا نه؟

خب، میایم دو تا فرض در نظر می‌گیریم. فرض صفر میگه احتمال شیر یا خط اومدن یکسانه و فرض یک میگه احتمال شیر یا خط اومدن یکسان نیست:

حالا چطور میشه آزمایشی رو طراحی کرد که فهمید علی راست میگه یا نه؟

می‌تونیم سکه رو 100 بار پرتاب کنیم و آماره رو تعداد دفعاتی که سکه رو میاد در نظر بگیریم. اگه تعداد دفعاتی که سکه رو میاد برابر با 50 باشه از 100 بار نمی‌تونیم فرض صفر رو رد کنیم. این تعداد دفعاتِ رو اومدن رو چند باید در نظر بگیریم تا بتونیم فرض صفر رو رد کنیم؟

فرض کنید اگر ما 95 درصد مطمئن بشیم که سکه علی تقلبی بوده، اون موقع دادگاه علی رو محکوم میکنه.

تا اینجا همه چیز شامل فرض‌ها، آماره و confidence مشخص شده و تنها چیزی که مونده ترشلده که بهمون میگه تعداد دفعاتی که سکه رو میاد چقدر باشه تا فرض صفر رو بتونیم رد کنیم.

اگر ادعای علی درست باشه و سکه fair باشه، میتونیم بریم سراغ توزیع برنولی و میانگین و واریانس رو برای 100 بار پرتاب سکه حساب می‌کنیم.

آماره رو می‌تونیم به صورت زیر حساب کنیم:

و اگر فرض صفر برقرار باشه هر یک باری که سکه رو پرتاب می‌کنیم، میانگین و واریانس به صورت زیر میشه:

حالا اگر سکه رو 100 بار بندازیم میانگین و واریانس 100 تا سکه به صورت زیر محاسبه میشه:

برای ادامه حل می‌تونیم از قضیه حد مرکزی استفاده کنیم. قراره تعداد دفعات خیلی زیادی سکه رو 100 بار بندازیم و چون این متغیرهای تصادفی مستقل از هم هستن و قراره باهم جمعشون کنیم می‌دونیم که در نهایت به یک توزیع نرمال باید میل کنن:

حالا ما تونستیم یک متغیر تصادفی X رو پیدا کنیم که از توزیع نرمال با میانگین 50 و واریانس 25 میاد.

در ادامه میایم این متغیر تصادفی رو نرمال استاندارد می‌کنیم و اسم متغیر تصادفی جدید رو Z میذاریم:

چون متغیر Z از توزیع نرمال میاد می‌تونیم بیایم از یک تست آماری به نام z-test استفاده کنیم. دلیل نام‌گذاری این تست هم اینکه همیشه اسم متغیر نرمال استاندارد رو Z در نظر گرفتیم.

حالا، فرض کنید که فرض صفر برقرار باشه. یعنی احتمال رو اومدن سکه برابر با 1/2 باشه. Z با احتمال 95 درصد بین چه بازه‌ای قرار می‌گیره؟

توزیع نرمال زیر رو در نظر بگیرید. مساحتی که هاشور خورده مساحت مد نظر ماست. باید بیایم مقدار تابع وارون Phi در نقطه یک منهای 0.025 رو محاسبه کنیم تا بتونیم اول و آخر بازه رو محاسبه کنیم.

بعد از انجام محاسبات به کمک R بازه رو برای Z به دست میاریم و سپس X رو تنها می‌کنیم و در نهایت داریم:

بازه نهایی که به دست اومده چی داره میگه؟ داره میگه میایم سکه رو 100 بار میندازیم اگه تعداد دفعاتی که سکه رو میاد از 41 بیشتر باشه و از 49 کمتر باشه نمی‌تونیم فرض صفر رو رد کنیم ولی اگر تعداد دفعاتی که سکه رو میاد از 41 کمتر باشه یا از 49 بیشتر بشه، می‌تونیم با احتمال 95 درصد فرض صفر رو رد کنیم.

حالا یه سوالی. آیا ممکنه دچار خطا بشیم؟ یعنی مثلاً سکه‌ای که داریم واقعاً fair بوده باشه، ولی ما بیایم و به اشتباه فرض صفر رو رد کنیم. آیا چنین چیزی ممکنه؟

بله چنین چیزی محتمله. وقتی میایم confidence رو 95 درصد در نظر می‌گیریم، به این معنی هست که با احتمال 5 درصد داریم فرض صفر رو رد می‌کنیم در حالیکه می‌تونه برقرار باشه.

انواع خطا

به صورت کلی دو نوع خطا داریم که بهشون خطای نوع اول و خطای نوع دوم گفته میشه. در ادامه بیشتر توضیح میدیم.

برگردیم به مثال تاکسی اینترنتی. فرض کنید داریم میسنجیم که آیا قیمت شرکت X از شرکت Y متفاوت هست یا نه. جدول زیر رو در نظر بگیرید:

در واقعیت یا فرض H0 تایید میشه یا رد میشه. در نتیجه تست هم یا فرض H0 تایید میشه یا رد میشه. در حالتی که فرض H0 در واقعیت و نتیجه تست رد بشن یا تایید بشن خطایی نداریم. در دو حالت خطا رخ میده.

حالت اول که بهش خطای نوع یک هم گفته میشه وقتی هست که در واقعیت فرض H0 تایید میشده اما در نتیجه تست فرض H0 رد شده و مقدارش با آلفا مشخص میشه. تو مثال تاکسی رانی به این صورته که در واقعیت قیمت‌های دو شرکت هیچ تفاوتی نداشته اما ما به اشتباه اومدیم گفتیم تفاوت دارن.

حالت دوم که بهش خطای نوع دو هم گفته میشه وقتی هست که در واقعیت فرض H0 رد میشده اما در نتیجه تست فرض H0 تایید شده و مقدارش با بتا مشخص میشه. تو مثال تاکسی رانی به این صورته که در واقعیت قیمت‌های دو شرکت متفاوت بوده اما ما به اشتباه اومدیم گفتیم تفاوتی ندارن.

برای اینکه مفهوم خطای نوع یک و خطای نوع دو بهتر در ذهن بمونه تصویر زیر رو ببینید:

جدولی که بالاتر ارائه شد رو میشه به صورت زیر تکمیل‌تر کرد:

از مفاهیم TN و FN و FP و TP در مباحث یادگیری ماشین خیلی استفاده میشه. برای مثال دو تا مفهوم sensitivity و specificity در یادگیری ماشین وجود داره که در تشخیص افراد بیمار و غیر بیمار کاربرد دارن و به صورت زیر تعریف میشن:

حساسیت یا sensitivity به این معنیه که از بین افرادی که مراجعه کردن و واقعاً بیمار بودن اگر یک نفر بیمار باشه، چقدر احتمال داره که به درستی تشخیص بدیم بیمار بوده.

مفهوم specificity هم به این معنی هست که از بین افرادی که مراجعه کردن و واقعاً سالم بودن اگر یک نفر سالم باشه، چقدر احتمال داره که به درستی تشخیص بدیم سالم بوده.

جمع‌بندی مطالب ارائه شده

فهمیدیم که چرا اصلاً نیاز داریم تست آماری داشته باشیم و با تست Z اشنا شدیم.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه بیستم‌و‌یکم)

جزوه جلسه بعدی (جلسه بیست‌وسوم)

من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید