منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
تستهای آماری یکی از جدیترین موضوعاتی هست که در آمار وجود داره و در طی این جلسه و تعدادی از جلسات آینده قراره به بررسی این موضوع بپردازیم.
فرض کنید یک شرکت داروسازی وجود داره و یک دارویی رو ساخته و دارو رو هم تست کرده، ولی نمیدونیم هنوز بهش مجوز فروش دارو رو بدیم یا نه. نتایج تست دارو توسط شرکت هم به شرح زیره:
به 50 بیمار داروی ساخته شده داده شده و 50 بیمار یک دارو بیاثر. در نتیجه، از گروه اول 35 نفر بهبود یافتن و از گروه دوم 20 نفر.
حالا چطور بفهمیم که داروی ساخته شده موثر هست یا نه؟
اگر به جای نتایج به دست اومده، از گروه اول 34 نفر و از گروه دوم 21 نفر بهبود پیدا میکردن چی؟ اگر به جای این تعداد، از گروه اول 30 نفر و از گروه دوم 25 نفر حالشون خوب میشد چطور؟ چطور باید مرز رو تعیین کنیم؟
بعنوان یک مثال دیگه، فرض کنید دو تا شرکت تاکسی اینترنتی داریم و ادعا شده که شرکت X از شرکت Y قیمتهای گرونتری داره. میایم از توزیع قیمت در هر دو شرکت نمونه میگیریم و میبینیم که توزیعهاشون خیلی شبیه هم هستن و فقط کمی اختلاف دارن:
نمونههایی که گرفتیم متفاوت بوده. نمونههایی که از توزیع آبی گرفته شده خیلی حول میانگین بوده در حالیکه نمونههایی که از توزیع نارنجی گرفته شده خیلی پراکندهتر بوده از همه جای توزیع. اما در نهایت میانگین دو توزیع خیلی بهم نزدیکه. آیا صرفاً با همین اختلاف ناچیزی که بین دو میانگین وجود داره میشه ادعای ارائه شده رو پذیرفت؟ یا باید اصلاً معیار ارزیابیمون به صورت دیگهای باشه؟
قراره تو این قسمت درس به این سوالات پاسخ بدیم.
وقتی که در مورد آزمون فرض صحبت میکنیم نیاز داریم که تعدادی فرض داشته باشیم. دو تا فرض در نظر میگیریم:
فرض پوچ ← Null Hypothesis ← H0 فرض مقابل ← Alternative Hypothesis ← H1
فرض پوچ داره میگه هیچ تفاوتی بین دو جمعیت وجود نداره. به عبارتی دیگه، هر جمعیت یک توزیعی داره و این توزیع جمعیتها و پارامترهاشون باهم تفاوتی ندارن.
فرض مقابل دقیقاً برعکس فرض پوچه و میگه بین دو جمعیت تفاوت وجود داره.
تابعی هم داریم که بهش آماره یا Test Statistics گفته میشه و میتونه شبیه میانگین باشه یا شبیه میانگین تقسیم بر انحراف معیار یا هر تابع دیگهای.
در ادامه باید یک سری ترشلد بر اساس یک میزانی از confidence هم تعریف کنیم.
برای مثال همون دو شرکت تاکسی رانی رو در نظر بگیرید. فرض کنید دادههای 1000 تا سفر رو بهمون بدن و بعد بررسی کردن ببینیم میانگین قیمت در هر دو شرکت یکسان بوده. با این تعداد داده نه میشه ادعا کرد که توزیعهاشون یکسان بوده نه میشه ادعا کرد توزیعهاشون فرق داشته. تعداد دادهها به 100 هزارتا هم برسه باز فرقی نداره.
ولی یک راهی وجود داره. میتونیم بیایم confidence تعریف کنیم. مثلاً سطح اطمینان رو 95 درصد در نظر بگیریم و بگیم که اگر آمارهای که داریم از این سطح اطمینان بالاتر رفت، با احتمال 95 درصد مطمئن هستیم که فرض صفر رد میشه.
یعنی چی این حرف؟ فرض کنید ترشلد رو 7 در نظر بگیریم. حالا اگر بین قیمت سفرهای دو شرکت 7 هزار تومن اختلاف وجود داشته باشه، 95 درصد مطمئن هستیم که باید فرض صفر رد بشه. یعنی دیگه دو شرکت توزیع یکسانی ندارن و یکی داره گرونتر قیمت رو محاسبه میکنه.
حالا چطور باید آماره رو تعریف کنیم؟ چطور باید از روی confidence داده شده ترشلد رو به دست بیاریم؟ در ادامه این جلسه به این سوالات پاسخ میدیم.
مثال زیر رو در نظر بگیرید:
فرض کنید علی به جای 4 سکه، یک سکه داشته باشه و قراره ببینیم آیا واقعاً سکهای که داره fair هست یا نه؟
خب، میایم دو تا فرض در نظر میگیریم. فرض صفر میگه احتمال شیر یا خط اومدن یکسانه و فرض یک میگه احتمال شیر یا خط اومدن یکسان نیست:
حالا چطور میشه آزمایشی رو طراحی کرد که فهمید علی راست میگه یا نه؟
میتونیم سکه رو 100 بار پرتاب کنیم و آماره رو تعداد دفعاتی که سکه رو میاد در نظر بگیریم. اگه تعداد دفعاتی که سکه رو میاد برابر با 50 باشه از 100 بار نمیتونیم فرض صفر رو رد کنیم. این تعداد دفعاتِ رو اومدن رو چند باید در نظر بگیریم تا بتونیم فرض صفر رو رد کنیم؟
فرض کنید اگر ما 95 درصد مطمئن بشیم که سکه علی تقلبی بوده، اون موقع دادگاه علی رو محکوم میکنه.
تا اینجا همه چیز شامل فرضها، آماره و confidence مشخص شده و تنها چیزی که مونده ترشلده که بهمون میگه تعداد دفعاتی که سکه رو میاد چقدر باشه تا فرض صفر رو بتونیم رد کنیم.
اگر ادعای علی درست باشه و سکه fair باشه، میتونیم بریم سراغ توزیع برنولی و میانگین و واریانس رو برای 100 بار پرتاب سکه حساب میکنیم.
آماره رو میتونیم به صورت زیر حساب کنیم:
و اگر فرض صفر برقرار باشه هر یک باری که سکه رو پرتاب میکنیم، میانگین و واریانس به صورت زیر میشه:
حالا اگر سکه رو 100 بار بندازیم میانگین و واریانس 100 تا سکه به صورت زیر محاسبه میشه:
برای ادامه حل میتونیم از قضیه حد مرکزی استفاده کنیم. قراره تعداد دفعات خیلی زیادی سکه رو 100 بار بندازیم و چون این متغیرهای تصادفی مستقل از هم هستن و قراره باهم جمعشون کنیم میدونیم که در نهایت به یک توزیع نرمال باید میل کنن:
حالا ما تونستیم یک متغیر تصادفی X رو پیدا کنیم که از توزیع نرمال با میانگین 50 و واریانس 25 میاد.
در ادامه میایم این متغیر تصادفی رو نرمال استاندارد میکنیم و اسم متغیر تصادفی جدید رو Z میذاریم:
چون متغیر Z از توزیع نرمال میاد میتونیم بیایم از یک تست آماری به نام z-test استفاده کنیم. دلیل نامگذاری این تست هم اینکه همیشه اسم متغیر نرمال استاندارد رو Z در نظر گرفتیم.
حالا، فرض کنید که فرض صفر برقرار باشه. یعنی احتمال رو اومدن سکه برابر با 1/2 باشه. Z با احتمال 95 درصد بین چه بازهای قرار میگیره؟
توزیع نرمال زیر رو در نظر بگیرید. مساحتی که هاشور خورده مساحت مد نظر ماست. باید بیایم مقدار تابع وارون Phi در نقطه یک منهای 0.025 رو محاسبه کنیم تا بتونیم اول و آخر بازه رو محاسبه کنیم.
بعد از انجام محاسبات به کمک R بازه رو برای Z به دست میاریم و سپس X رو تنها میکنیم و در نهایت داریم:
بازه نهایی که به دست اومده چی داره میگه؟ داره میگه میایم سکه رو 100 بار میندازیم اگه تعداد دفعاتی که سکه رو میاد از 41 بیشتر باشه و از 49 کمتر باشه نمیتونیم فرض صفر رو رد کنیم ولی اگر تعداد دفعاتی که سکه رو میاد از 41 کمتر باشه یا از 49 بیشتر بشه، میتونیم با احتمال 95 درصد فرض صفر رو رد کنیم.
حالا یه سوالی. آیا ممکنه دچار خطا بشیم؟ یعنی مثلاً سکهای که داریم واقعاً fair بوده باشه، ولی ما بیایم و به اشتباه فرض صفر رو رد کنیم. آیا چنین چیزی ممکنه؟
بله چنین چیزی محتمله. وقتی میایم confidence رو 95 درصد در نظر میگیریم، به این معنی هست که با احتمال 5 درصد داریم فرض صفر رو رد میکنیم در حالیکه میتونه برقرار باشه.
به صورت کلی دو نوع خطا داریم که بهشون خطای نوع اول و خطای نوع دوم گفته میشه. در ادامه بیشتر توضیح میدیم.
برگردیم به مثال تاکسی اینترنتی. فرض کنید داریم میسنجیم که آیا قیمت شرکت X از شرکت Y متفاوت هست یا نه. جدول زیر رو در نظر بگیرید:
در واقعیت یا فرض H0 تایید میشه یا رد میشه. در نتیجه تست هم یا فرض H0 تایید میشه یا رد میشه. در حالتی که فرض H0 در واقعیت و نتیجه تست رد بشن یا تایید بشن خطایی نداریم. در دو حالت خطا رخ میده.
حالت اول که بهش خطای نوع یک هم گفته میشه وقتی هست که در واقعیت فرض H0 تایید میشده اما در نتیجه تست فرض H0 رد شده و مقدارش با آلفا مشخص میشه. تو مثال تاکسی رانی به این صورته که در واقعیت قیمتهای دو شرکت هیچ تفاوتی نداشته اما ما به اشتباه اومدیم گفتیم تفاوت دارن.
حالت دوم که بهش خطای نوع دو هم گفته میشه وقتی هست که در واقعیت فرض H0 رد میشده اما در نتیجه تست فرض H0 تایید شده و مقدارش با بتا مشخص میشه. تو مثال تاکسی رانی به این صورته که در واقعیت قیمتهای دو شرکت متفاوت بوده اما ما به اشتباه اومدیم گفتیم تفاوتی ندارن.
برای اینکه مفهوم خطای نوع یک و خطای نوع دو بهتر در ذهن بمونه تصویر زیر رو ببینید:
جدولی که بالاتر ارائه شد رو میشه به صورت زیر تکمیلتر کرد:
از مفاهیم TN و FN و FP و TP در مباحث یادگیری ماشین خیلی استفاده میشه. برای مثال دو تا مفهوم sensitivity و specificity در یادگیری ماشین وجود داره که در تشخیص افراد بیمار و غیر بیمار کاربرد دارن و به صورت زیر تعریف میشن:
حساسیت یا sensitivity به این معنیه که از بین افرادی که مراجعه کردن و واقعاً بیمار بودن اگر یک نفر بیمار باشه، چقدر احتمال داره که به درستی تشخیص بدیم بیمار بوده.
مفهوم specificity هم به این معنی هست که از بین افرادی که مراجعه کردن و واقعاً سالم بودن اگر یک نفر سالم باشه، چقدر احتمال داره که به درستی تشخیص بدیم سالم بوده.
فهمیدیم که چرا اصلاً نیاز داریم تست آماری داشته باشیم و با تست Z اشنا شدیم.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.
صفحه گیتهاب مرتبط با این دوره