منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
از دو جلسه گذشته بحث آزمون فرض رو در آمار شروع کردیم و با تست Z و تست فیشر آشنا شدیم. تو این جلسه قراره با دو تست آماری دیگه آشنا بشیم و جزییات مربوط بهش رو ببینیم.
تست مربع کای و تست T هر دو از مهمترین از موضوعات در آمار هستن و اگر کسی این دو مفهوم رو در آمار بلد نباشه، انگار کلاً آمار بلد نیست!
حالا در ادامه اول میریم سراغ بررسی تست مربع کای و جزییات مربوط بهش، سپس آزمون T رو مورد بررسی قرار خواهیم داد.
مربع کای یک توزیع هست که به صورت X^2 مشخص میشه. فرض کنید یک متغیر تصادفی X1 داریم که از توزیع نرمال استاندارد تبعیت میکنه. در این صورت، توزیع X1^2 از توزیع مربع کای با پارامتر 1 تبعیت میکنه. به این پارامتر درجه آزادی یا degree of freedom گفته میشه. اگر n متغیر مستقل داشته باشیم که از توزیع نرمال استاندارد تبعیت کنن، در این صورت X2^2 + X1^2 از توزیع مربع کای با درجه آزادی 2 تبعیت میکنه. به صورت کلی تمام مواردی که گفتیم رو اگر به ریاضی بنویسیم داریم:
توزیع مربع کای توابع CDF و PDF پیچیدهای داره که نیاز به حفظ کردن ندارن. اما اگر بیایم تابع چگالی توزیع مربع کای رو به ازای درجه آزادیهای 1 تا 4 به کمک R رسم کنیم نمودارش به صورت زیر میشه:
نمودار قرمز توزیع مربع کای با درجه آزادی 1 هست و نمودار بنفش توزیع مربع کای با درجه آزادی 4 رو داره نشون میده.
حالا اصلاً این توزیع به چه دردی میخوره؟
چند سال پیش، آقای پیرسون اومد از توزیع مربع کای استفاده کرد جهت اینکه یک تست آماری از توش در بیاره. در ادامه با جزییات این تست بیشتر آشنا میشیم.
فرض کنید تعدادی نمونه داریم و 5 تا دسته که هر نمونه میتونه فقط در یکی از دستهها قرار بگیره و احتمال قرار گرفتن نمونهها در هر دسته هم با یک احتمالی از P1 تا P5 مشخص میشه:
حالا اگر در کل m تا نمونه داشته باشیم، انتظار داریم بعد از توزیع نمونهها در هر دسته تو هر دسته به تعداد mPi تا نمونه ببینیم و به هر کدوم از این mPi ها expected گفته میشه، یعنی مقادیری که انتظار داریم در هر دسته ببینیم:
حالا اگر بریم یک نمونهگیری انجام بدیم و در هر دسته نمونههارو توزیع کنیم، یک مقداری رو مشاهده خواهیم کرد که به اون مقادیر observed گفته میشه:
پیرسون اومد با توجه به چیزایی که تا الان گفتیم، رابطه زیر رو اثبات کرد:
تو رابطه بالا k تعداد دستههارو مشخص میکنه. پیرسون اومد گفت که اگر شرط H0 برقرار باشه (یعنی مقادیر مشاهده شده با مقادیر مورد انتظار تفاوت چشمگیری نداشته باشن)، در اون صورت رابطه بالا از یک توزیع مربع کای با درجه آزادی k-1 تبعیت میکنه.
اگه فرمول بالا رو برای مثالی که زدیم و 5 دسته داشت بنویسیم داریم:
در ادامه یک مثال رو با هم بررسی خواهیم کرد.
فرض کنید سه تا فروشنده کیف وجود دارن. یک نفر میاد ادعا میکنه که 70 درصد افراد جامعه کیفهاشونو از فروشنده اول، 20 درصد از فروشنده دوم و 10 درصد از فروشنده سوم خریداری میکنن. قراره بیایم درستی این ادعا رو بررسی کنیم.
فرض کنید اومدیم از افراد جامعه نمونهگیری کردیم و 1000 تا سمپل گرفتیم. دیدیم که 650 نفر از فروشنده اول خریداری کردن، 230 نفر از فروشنده دوم و 120 نفر هم از فروشنده سوم.
مقادیری که از نمونه گرفتیم برابر با مقادیر observed هست.
برای محاسبه مقادیر expected هم باید بیایم تعداد نمونههارو در احتمال هر دسته ضرب کنیم. برای فروشنده اول داریم 700، برای فروشنده دوم داریم 200 و برای فروشنده سوم داریم 100.
یک آماره هم نیاز داریم که برابر هست با فرمول پیرسون و برای این مثال مقدار 12.07براش به دست میاد.
تا به اینجا اگر تمام چیزهایی که گفتیم رو با R بنویسیم داریم:
حالا، چون تعداد دستهها سه تاست درجه آزادی مربع کای برابر میشه با 2 که نمودارش به صورت زیر رسم میشه (رنگ زرد):
در جلسه گذشته با مفهوم p-value آشنا شدیم. اینجا p-value برابر با چه عددی هست؟ چون عددی که برای آماره به دست اومده برابر هست با 12.07، مقدار p-value هم برابر میشه با عدد 12 و مقادیر سختتر از 12. اگر بخوایم رو نمودار p-value رو مشخص کنیم داریم (با خط زرشکی مشخص شده):
اگر مقدار دقیقش رو هم محاسبه کنیم داریم:
حالا، اومدیم مقدار p-value رو هم دقیق حساب کردیم و برابر شد با 0.002. این به این معنی هست که در صورت برقرار بودن فرض H0 فقط 0.2 درصد احتمال وجود داشته که به صورت رندوم چنین مشاهدهای رخ بده (یعنی 70 درصد از فروشنده اول خرید کنن، 20 درصد از فروشنده دوم و 10 درصد از فروشنده سوم).
حالا چون 0.002 از 0.05 (مقدار خطای نوع اول) کوچیکتر هست، فرض H0 رد میشه و میتونیم اعلام بکنیم که ادعای فرد نادرسته.
اگر نمونهای که از جامعه میگرفتیم به صورت زیر میبود:
و میومدیم همه مراحل رو برای این مقادیر نمونه پیش میبریم، مقدار p-value برابر میشد با 0.35. تو این حالت چون 0.35 از 0.05 بزرگتر هست، نمیتونیم فرض صفر رو رد کنیم و ادعای فرد درست بوده.
این مثالی که دیدیم یکی از کاربردهای توزیع مربع کای رو نشون میده. در ادامه کاربرد دیگهای از این توزیع رو بررسی خواهیم کرد.
در جلسه گذشته با آزمون فیشر آشنا شدیم و در مثالی که در مورد داروها زدیم دیدیم که چطور میشه یک جدول 2 در 2 تشکیل داد و فرض H0 و H1 رو براش نوشت. در آزمون مربع کای، میتونیم جدول 2 در 2 رو به تعداد بیشتری سطر و ستون تعمیم بدیم و فرض H0 و H1 رو بنویسیم. مثلاً فرض کنید میخوایم بررسی کنیم که آیا سطح فشار خون به قومیت بستگی داره یا خیر. میشه جدولی رو به صورت جدول زیر تشکیل داد:
و فرض H0 رو معادل گرفت با مستقل بودن سطرها و ستونها از هم. به عبارتی دیگه یعنی قومیت در فشار خون هیچ اثری ندارد و به همین ترتیب بقیه محاسبات رو پیش برد و در نهایت دید که آیا فرض صفر رد میشه یا خیر. در ادامه این مثال رو با جزییات بیشتری بررسی خواهیم کرد.
یک نکتهای در رابطه با تست فیشر و تست مربع کای وجود داره. اگر جدولی که تشکیل میدیم 2 در 2 باشه و اعدادش کوچیک باشن، تست فیشر تست بهتری هست. اما اگر جدول 2 در 2 باشه یا تعداد بیشتری سطر و ستون داشته باشه و اعداد جدول هم اعداد بزرگی باشن، تست مربع کای گزینه بهتری هست.
برگردیم به مثال فشار خون.
اول از همه بیایم جمع حاشیهای رو برای هر سطر و ستون محاسبه کنیم. داریم:
اگر همه نمونههارو هم جمع بزنیم عدد 530 به دست میاد.
مقادیری که داخل جدول هستن مقادیر observed هستن. برای محاسبه اعداد expectation باید به شیوه دیگهای عمل کنیم.
اگر فقط اعداد جمع حاشیهای رو بهمون داده بودن، انتظار داشتیم که با توجه به تعداد کل نمونهها در هر سلول چه عددی رو ببینیم؟
به ازای هر سلول باید بیایم عدد جمع حاشیهای سطرش رو در ستونش ضرب کنیم و بعد بر 530 تقسیم کنیم. مثلاً برای سلول اول از سمت چپ بالا داریم:
cell 1 = (90 * 160) / 560 = 27
به همین ترتیب اگر برای همه سلولها محاسبات رو انجام بدیم، خواهیم داشت:
حالا میایم مقدار آماره رو محاسبه میکنیم:
تو این مثال مقدار آماره برابر میشه با 5.16.
یک نکتهای هم اینجا وجود داره. برای محاسبه درجه آزادی تو مواقعی که جدول داریم به صورت زیر باید عمل کنیم:
تو این مثال چون جدول 3 در 3 داریم، درجه آزادی برابر هست با 2 * 2 = 4.
در ادامه میایم مقدار p-value رو محاسبه میکنیم و برابر هست با 0.27. این مقدار برای p-value به این معنی هست که انگار هیچ تفاوتی بین قومیتها و سطح فشار خون وجود نداره و نمیتونیم فرض صفر رو رد کنیم.
فرض کنید مقادیر برای قوم ترک به صورت زیر تغییر کنه و داشته باشیم:
10 و 180 و 90 به جای 50 و 200 و 30.
تو این حالت اگر بیایم همه محاسبات رو انجام بدیم، در نهایت برای p-value خواهیم داشت:
تو این حالت چون مقدار p-value خیلی کوچیک شده، بنابراین میشه فرض H0 رو رد کرد و این ادعا رو پذیرفت که سطح فشار خون به قومیت ارتباط داره.
تا اینجا با تست مربع کای آشنا شدیم و چند تا مثال ازش دیدیم. در ادامه قراره با یک تست آماری دیگه با عنوان t-test آشنابشیم.
هرجایی که بحث مقایسه بیاد وسط، میشه از t-test استفاده کرد. فرض کنید بهمون گفتن میانگین طول عمر کالای A از میانگین طول عمر کالای B طولانیتره. میخوایم بیایم ببینیم آیا واقعاً اینطوره یا صرفاً بخاطر نمونهگیریای که داشتیم این اختلاف در طول عمر به وجود اومده.
فرض کنید سمپلهایی که از هر دو کالا گرفتیم به صورت زیر بوده. کالای A با رنگ نارنجی و کالای B با رنگ آبی مشخص شده:
حالا هدف t-test اینکه بیاد میانگین نمونههارو در دو دسته بسنجه و در نهایت بهمون بگه آیا این نمونهها از توزیعهای یکسانی اومدن یا توزیع متفاوت داشتن. به عبارتی دیگه، آیا میانگین واقعی توزیع طول عمر نمونههای کالای A و میانگین واقعی توزیع طول عمر نمونههای کالای B یکسان بودن یا با هم تفاوت داشتن؟ در ظاهر وقتی بیایم میانگین طول عمر نمونههارو بگیریم و اونهارو مقایسه کنیم به این نتیجه میرسیم که میانگین نمونه طول عمر کالای A از میانگین نمونه طول عمر کالای B بیشتر بوده. اما با t-test میخوایم ببینیم در توزیع واقعی هم چنین چیزی صادق هست یا خیر.
پس تا اینجا با یکی از اهداف t-test آشنا شدیم:
فرض کنید توزیع واقعی دو کالا به صورت زیر باشه:
وقتی میایم به صورت تصادفی از هر دو توزیع نمونه میگیریم هر حالتی ممکنه رخ بده و سمپلها از هر جای غیر صفر توزیعها میتونن بیان. مثلاً نمونه گرفتیم و به صورت زیر شده:
با وجود اینکه توزیع نارنجی و آبی تفاوت چندانی ندارن باهم و خیلی بهم شبیهن، اما بخاطر نمونههای رندومی که گرفتیم باعث شده که میانگین نمونهها خیلی باهم اختلاف داشته باشن. این اختلاف بین میانگینها فقط بخاطر تفاوت در نمونهگیری حاصل شده و اصلاً اختلاف معناداری نیست.
با t-test این رو میسنجیم که آیا اختلاف به دست اومده بین میانگینها معنیدار هست یا خیر.
فردی به اسم ویلیام گاست اومده آمارهای رو ارائه داده که در t-test ازش استفاده میکنیم و از توزیعی تبعیت میکنه که اسمش T هست.
اگر ما میخواستیم برای همین مثالی که زدیم یک آماره طراحی کنیم باید چه مواردی رو لحاظ میکردیم؟
باید دنبال اختلاف میانگین بیشتر و اختلاف واریانس کمتر بین نمونهها در دو دسته میبودیم تا میتونستیم با اطمینان بیشتری بگیم که توزیع نمونههای دسته اول با توزیع نمونههای دسته دوم تفاوت معناداری دارن.
فرض کنید میایم با توجه به توضیحاتی که دادیم یک متغیری با عنوان t رو به صورت زیر تعریف میکنیم:
متغیر Z از یک توزیع نرمال استاندارد میاد. متغیر V شبیه واریانس هست و از توزیع مربع کای با درجه آزادی n تبعیت میکنه (چون اگر بیایم n تا متغیر تصادفی از توزیع نرمال رو به توان 2 برسونیم و جمع کنیم در واقع یک توزیع مربع کای با درجه n داریم) و n هم برابر هست با اندازه نمونهها. اگر متغیر t رو به صورت بالا تعریف کنیم، میتونیم مطمئن باشیم که t از توزیع T تبعیت میکنه.
حالا اصلاً چجوری میشه از مواردی که تا اینجا باهاشون آشنا شدیم در عمل استفاده کنیم؟
یک حالت از t-test وجود داره که بهش تک نمونه گفته میشه. تو این حالت یک سری داده داریم و فرض H0 تو این حالت میگه که دادههای نمونه از توزیعی با میانگین µ اومدن. به عبارتی دیگه، بهمون در ورودی یک سری نمونه و میانگین µ رو میدن و ازمون میخوان این رو بررسی کنیم که آیا نمونهها از میانگین µ تبعیت میکنن یا نه. متغیر t تو این حالت به صورت زیر تعریف میشه:
تو رابطه بالا Xبار میانگین نمونههاست و µ0 میانگینی هست که بهمون دادن. S برابر هست با تخمینی که برای واریانس داریم و n هم تعداد نمونههارو مشخص میکنه.
اگر بخوایم توزیع T رو با درجه آزادی 1 تا 4 بسازیم به چه صورت میشه؟ در ادامه این رو با R پیادهسازی خواهیم کرد.
متغیر ss برابر با تعداد نمونههاست و 1000 در نظر گرفته شده و متغیر Xi متغیری هست از توزیع مربع کای با درجه آزادی i و مقدار i از 1 هست تا 4. اگر بیایم نمودار توزیع T رو برای درجه آزادیهای 1 تا 4 بکشیم به صورت زیر میشه:
در نگاه اول توزیع Tخیلی شبیه توزیع نرماله ولی تفاوتهایی باهاش داره. اگر نمودار توزیع نرمال رو هم به نمودارهای بالا اضافه کنیم به صورت زیر در میاد:
هرچقدر درجه آزادی توزیع T رو بیشتر کنیم باعث میشه شباهت بیشتری به توزیع نرمال پیدا کنه. مثلاً تو تصویر زیر نمودار توزیع T با درجه آزادی 30 و نمودار توزیع نرمال آورده شده:
فرض کنید یک پیتزا فروشی هست که میگه به طور متوسط در عرض نیم ساعت سفارشات رو به مقصد میرسونه. حالا برای اینکه بفهمیم این ادعا درست هست یا نه میایم چند بار ازش پیتزا سفارش میدیم و مدت زمان رسیدن هر سفارش رو به دقیقه محاسبه میکنیم که به صورت زیر شده:
اول از همه میایم آماره رو طبق فرمول t-test در حالت تک متغیره مینویسیم:
مقدار آماره هم برابر هست با 8.79. در گام بعدی باید بیایم مقدار p-value رو محاسبه کنیم:
در نهایت تو این مثال مقدار p-value برابر با عدد خیلی کوچیکی (0.0000000055) میشه که باعث میشه فرض H0 رد بشه و ادعای پیتزا فروش نادرست باشه. چون اگر میانگین زمان دلیوری پیتزا 30 دقیقه باشه، احتمال اینکه اعداد نمونه به دست اومده رو بتونیم ببینیم برابر هست با مقدار p-value که خیلی احتمال کوچیکی هست و نزدیک به صفره.
تا اینجا آماره t-test رو تو حالت تک متغیره دیدیم. برای حالت دو متغیره آماره t-test به صورت زیر میشه:
تو این حالت دو گروه داده داریم و فرض H0 میگه که این دو گروه داده از توزیعهایی با میانگین یکسان اومدن. درجه آزادی تو این حالت به صورت زیر محاسبه میشه:
doff = 2n - 2
حالا فرض کنید دو سری سمپل داریم که به صورت زیر هست:
و اگر آماره رو طبق چیزی که بالاتر تعریف کردیم بنویسیم براش داریم:
مقدار آماره هم برابر میشه با منفی 1.89. اگر هم مقدار p-value رو محاسبه کنیم این مقدار برابر میشه با 0.07 و چون از 0.05 بیشتر هست نمیتونیم فرض H0 رو رد کنیم.
در نهایت، اگر میخواید از t-test استفاده کنید حواستون به نکات زیر باشه:
با تست مربع کای و t-test آشنا شدیم و فهمیدیم که چه کاربردی دارن و چند مثال ازشون دیدیم. به شدت پیشنهاد میکنم که حتماً حتماً ویدیو این جلسه رو یک بار ببینید، تا مطالب به خوبی براتون جا بیفته.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.
صفحه گیتهاب مرتبط با این دوره