هانیه مهدوی
هانیه مهدوی
خواندن ۱۴ دقیقه·۱ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه بیست‌وچهارم - آزمون مربع کای و آزمون T

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


از دو جلسه گذشته بحث آزمون فرض رو در آمار شروع کردیم و با تست Z و تست فیشر آشنا شدیم. تو این جلسه قراره با دو تست آماری دیگه آشنا بشیم و جزییات مربوط بهش رو ببینیم.

تست مربع کای و تست T هر دو از مهم‌ترین از موضوعات در آمار هستن و اگر کسی این دو مفهوم رو در آمار بلد نباشه، انگار کلاً آمار بلد نیست!

حالا در ادامه اول میریم سراغ بررسی تست مربع کای و جزییات مربوط بهش، سپس آزمون T رو مورد بررسی قرار خواهیم داد.

تست مربع کای یا Chi-squared

مربع کای یک توزیع هست که به صورت X^2 مشخص میشه. فرض کنید یک متغیر تصادفی X1 داریم که از توزیع نرمال استاندارد تبعیت می‌کنه. در این صورت، توزیع X1^2 از توزیع مربع کای با پارامتر 1 تبعیت می‌کنه. به این پارامتر درجه آزادی یا degree of freedom گفته میشه. اگر n متغیر مستقل داشته باشیم که از توزیع نرمال استاندارد تبعیت کنن، در این صورت X2^2 + X1^2 از توزیع مربع کای با درجه آزادی 2 تبعیت می‌کنه. به صورت کلی تمام مواردی که گفتیم رو اگر به ریاضی بنویسیم داریم:

توزیع مربع کای توابع CDF و PDF پیچیده‌ای داره که نیاز به حفظ کردن ندارن. اما اگر بیایم تابع چگالی توزیع مربع کای رو به ازای درجه آزادی‌های 1 تا 4 به کمک R رسم کنیم نمودارش به صورت زیر میشه:

نمودار قرمز توزیع مربع کای با درجه آزادی 1 هست و نمودار بنفش توزیع مربع کای با درجه آزادی 4 رو داره نشون میده.

حالا اصلاً این توزیع به چه دردی می‌خوره؟

چند سال پیش، آقای پیرسون اومد از توزیع مربع کای استفاده کرد جهت اینکه یک تست آماری از توش در بیاره. در ادامه با جزییات این تست بیشتر آشنا میشیم.

فرض کنید تعدادی نمونه داریم و 5 تا دسته که هر نمونه می‌تونه فقط در یکی از دسته‌ها قرار بگیره و احتمال قرار گرفتن نمونه‌ها در هر دسته هم با یک احتمالی از P1 تا P5 مشخص میشه:

حالا اگر در کل m تا نمونه داشته باشیم، انتظار داریم بعد از توزیع نمونه‌ها در هر دسته تو هر دسته به تعداد mPi تا نمونه ببینیم و به هر کدوم از این mPi ها expected گفته میشه، یعنی مقادیری که انتظار داریم در هر دسته ببینیم:


حالا اگر بریم یک نمونه‌گیری انجام بدیم و در هر دسته نمونه‌هارو توزیع کنیم، یک مقداری رو مشاهده خواهیم کرد که به اون مقادیر observed گفته میشه:

پیرسون اومد با توجه به چیزایی که تا الان گفتیم، رابطه زیر رو اثبات کرد:

تو رابطه بالا k تعداد دسته‌هارو مشخص می‎کنه. پیرسون اومد گفت که اگر شرط H0 برقرار باشه (یعنی مقادیر مشاهده شده با مقادیر مورد انتظار تفاوت چشم‌گیری نداشته باشن)، در اون صورت رابطه بالا از یک توزیع مربع کای با درجه آزادی k-1 تبعیت می‌کنه.

اگه فرمول بالا رو برای مثالی که زدیم و 5 دسته داشت بنویسیم داریم:

در ادامه یک مثال رو با هم بررسی خواهیم کرد.

فرض کنید سه تا فروشنده کیف وجود دارن. یک نفر میاد ادعا میکنه که 70 درصد افراد جامعه کیف‌هاشونو از فروشنده اول، 20 درصد از فروشنده دوم و 10 درصد از فروشنده سوم خریداری می‌کنن. قراره بیایم درستی این ادعا رو بررسی کنیم.

فرض کنید اومدیم از افراد جامعه نمونه‌گیری کردیم و 1000 تا سمپل گرفتیم. دیدیم که 650 نفر از فروشنده اول خریداری کردن، 230 نفر از فروشنده دوم و 120 نفر هم از فروشنده سوم.

مقادیری که از نمونه گرفتیم برابر با مقادیر observed هست.

برای محاسبه مقادیر expected هم باید بیایم تعداد نمونه‌هارو در احتمال هر دسته ضرب کنیم. برای فروشنده اول داریم 700، برای فروشنده دوم داریم 200 و برای فروشنده سوم داریم 100.

یک آماره هم نیاز داریم که برابر هست با فرمول پیرسون و برای این مثال مقدار 12.07براش به دست میاد.

تا به اینجا اگر تمام چیزهایی که گفتیم رو با R بنویسیم داریم:

حالا، چون تعداد دسته‌ها سه تاست درجه آزادی مربع کای برابر میشه با 2 که نمودارش به صورت زیر رسم میشه (رنگ زرد):

در جلسه گذشته با مفهوم p-value آشنا شدیم. اینجا p-value برابر با چه عددی هست؟ چون عددی که برای آماره به دست اومده برابر هست با 12.07، مقدار p-value هم برابر میشه با عدد 12 و مقادیر سخت‌تر از 12. اگر بخوایم رو نمودار p-value رو مشخص کنیم داریم (با خط زرشکی مشخص شده):

اگر مقدار دقیقش رو هم محاسبه کنیم داریم:

حالا، اومدیم مقدار p-value رو هم دقیق حساب کردیم و برابر شد با 0.002. این به این معنی هست که در صورت برقرار بودن فرض H0 فقط 0.2 درصد احتمال وجود داشته که به صورت رندوم چنین مشاهده‌ای رخ بده (یعنی 70 درصد از فروشنده اول خرید کنن، 20 درصد از فروشنده دوم و 10 درصد از فروشنده سوم).

حالا چون 0.002 از 0.05 (مقدار خطای نوع اول) کوچیک‌تر هست، فرض H0 رد میشه و می‌تونیم اعلام بکنیم که ادعای فرد نادرسته.

اگر نمونه‌ای که از جامعه می‌گرفتیم به صورت زیر می‌بود:

  • 680 نفر از فروشنده اول خرید کردن
  • 210 نفر از فروشنده دوم خرید کردن
  • 110 نفر از فروشنده سوم خرید کردن

و میومدیم همه مراحل رو برای این مقادیر نمونه پیش می‌بریم، مقدار p-value برابر میشد با 0.35. تو این حالت چون 0.35 از 0.05 بزرگ‌تر هست، نمی‌تونیم فرض صفر رو رد کنیم و ادعای فرد درست بوده.

این مثالی که دیدیم یکی از کاربردهای توزیع مربع کای رو نشون میده. در ادامه کاربرد دیگه‌ای از این توزیع رو بررسی خواهیم کرد.

جدول وقوع

در جلسه گذشته با آزمون فیشر آشنا شدیم و در مثالی که در مورد داروها زدیم دیدیم که چطور میشه یک جدول 2 در 2 تشکیل داد و فرض H0 و H1 رو براش نوشت. در آزمون مربع کای، می‌تونیم جدول 2 در 2 رو به تعداد بیشتری سطر و ستون تعمیم بدیم و فرض H0 و H1 رو بنویسیم. مثلاً فرض کنید می‌خوایم بررسی کنیم که آیا سطح فشار خون به قومیت بستگی داره یا خیر. میشه جدولی رو به صورت جدول زیر تشکیل داد:

و فرض H0 رو معادل گرفت با مستقل بودن سطرها و ستون‌ها از هم. به عبارتی دیگه یعنی قومیت در فشار خون هیچ اثری ندارد و به همین ترتیب بقیه محاسبات رو پیش برد و در نهایت دید که آیا فرض صفر رد میشه یا خیر. در ادامه این مثال رو با جزییات بیشتری بررسی خواهیم کرد.

یک نکته‌ای در رابطه با تست فیشر و تست مربع کای وجود داره. اگر جدولی که تشکیل میدیم 2 در 2 باشه و اعدادش کوچیک باشن، تست فیشر تست بهتری هست. اما اگر جدول 2 در 2 باشه یا تعداد بیشتری سطر و ستون داشته باشه و اعداد جدول هم اعداد بزرگی باشن، تست مربع کای گزینه بهتری هست.

برگردیم به مثال فشار خون.

اول از همه بیایم جمع حاشیه‌ای رو برای هر سطر و ستون محاسبه کنیم. داریم:

اگر همه نمونه‌هارو هم جمع بزنیم عدد 530 به دست میاد.

مقادیری که داخل جدول هستن مقادیر observed هستن. برای محاسبه اعداد expectation باید به شیوه دیگه‌ای عمل کنیم.

اگر فقط اعداد جمع حاشیه‌ای رو بهمون داده بودن، انتظار داشتیم که با توجه به تعداد کل نمونه‌ها در هر سلول چه عددی رو ببینیم؟

به ازای هر سلول باید بیایم عدد جمع حاشیه‌ای سطرش رو در ستونش ضرب کنیم و بعد بر 530 تقسیم کنیم. مثلاً برای سلول اول از سمت چپ بالا داریم:

cell 1 = (90 * 160) / 560 = 27

به همین ترتیب اگر برای همه سلول‌ها محاسبات رو انجام بدیم، خواهیم داشت:

حالا میایم مقدار آماره رو محاسبه می‌کنیم:

تو این مثال مقدار آماره برابر میشه با 5.16.

یک نکته‌ای هم اینجا وجود داره. برای محاسبه درجه آزادی تو مواقعی که جدول داریم به صورت زیر باید عمل کنیم:

تو این مثال چون جدول 3 در 3 داریم، درجه آزادی برابر هست با 2 * 2 = 4.

در ادامه میایم مقدار p-value رو محاسبه می‌کنیم و برابر هست با 0.27. این مقدار برای p-value به این معنی هست که انگار هیچ تفاوتی بین قومیت‌ها و سطح فشار خون وجود نداره و نمی‌تونیم فرض صفر رو رد کنیم.

فرض کنید مقادیر برای قوم ترک به صورت زیر تغییر کنه و داشته باشیم:

10 و 180 و 90 به جای 50 و 200 و 30.

تو این حالت اگر بیایم همه محاسبات رو انجام بدیم، در نهایت برای p-value خواهیم داشت:

تو این حالت چون مقدار p-value خیلی کوچیک شده، بنابراین میشه فرض H0 رو رد کرد و این ادعا رو پذیرفت که سطح فشار خون به قومیت ارتباط داره.

تا اینجا با تست مربع کای آشنا شدیم و چند تا مثال ازش دیدیم. در ادامه قراره با یک تست آماری دیگه با عنوان t-test آشنابشیم.

تست T یا t-test

هرجایی که بحث مقایسه بیاد وسط، میشه از t-test استفاده کرد. فرض کنید بهمون گفتن میانگین طول عمر کالای A از میانگین طول عمر کالای B طولانی‌تره. می‌خوایم بیایم ببینیم آیا واقعاً اینطوره یا صرفاً بخاطر نمونه‌گیری‌ای که داشتیم این اختلاف در طول عمر به وجود اومده.

فرض کنید سمپل‌هایی که از هر دو کالا گرفتیم به صورت زیر بوده. کالای A با رنگ نارنجی و کالای B با رنگ آبی مشخص شده:

حالا هدف t-test اینکه بیاد میانگین نمونه‌هارو در دو دسته بسنجه و در نهایت بهمون بگه آیا این نمونه‌ها از توزیع‌های یکسانی اومدن یا توزیع متفاوت داشتن. به عبارتی دیگه، آیا میانگین‌ واقعی توزیع طول عمر نمونه‌های کالای A و میانگین واقعی توزیع طول عمر نمونه‌های کالای B یکسان بودن یا با هم تفاوت داشتن؟ در ظاهر وقتی بیایم میانگین طول عمر نمونه‌هارو بگیریم و اون‌هارو مقایسه کنیم به این نتیجه می‌رسیم که میانگین نمونه طول عمر کالای A از میانگین نمونه طول عمر کالای B بیشتر بوده. اما با t-test می‌خوایم ببینیم در توزیع واقعی هم چنین چیزی صادق هست یا خیر.

پس تا اینجا با یکی از اهداف t-test آشنا شدیم:

  • دو دسته نمونه داریم. آیا نمونه‌های هر دسته از توزیع‌هایی با میانگین یکسان آمده‌اند یا خیر؟

فرض کنید توزیع واقعی دو کالا به صورت زیر باشه:

وقتی میایم به صورت تصادفی از هر دو توزیع نمونه می‌گیریم هر حالتی ممکنه رخ بده و سمپل‌ها از هر جای غیر صفر توزیع‌ها می‌تونن بیان. مثلاً نمونه گرفتیم و به صورت زیر شده:

با وجود اینکه توزیع نارنجی و آبی تفاوت چندانی ندارن باهم و خیلی بهم شبیهن، اما بخاطر نمونه‌های رندومی که گرفتیم باعث شده که میانگین نمونه‌ها خیلی باهم اختلاف داشته باشن. این اختلاف بین میانگین‌ها فقط بخاطر تفاوت در نمونه‌گیری حاصل شده و اصلاً اختلاف معناداری نیست.

با t-test این رو می‌سنجیم که آیا اختلاف به دست اومده بین میانگین‌ها معنی‌دار هست یا خیر.

فردی به اسم ویلیام گاست اومده آماره‌ای رو ارائه داده که در t-test ازش استفاده می‌کنیم و از توزیعی تبعیت می‌کنه که اسمش T هست.

اگر ما می‌خواستیم برای همین مثالی که زدیم یک آماره طراحی کنیم باید چه مواردی رو لحاظ می‌کردیم؟

باید دنبال اختلاف میانگین بیشتر و اختلاف واریانس کمتر بین نمونه‌ها در دو دسته می‌بودیم تا می‌تونستیم با اطمینان بیشتری بگیم که توزیع نمونه‌های دسته اول با توزیع نمونه‌های دسته دوم تفاوت معناداری دارن.

فرض کنید میایم با توجه به توضیحاتی که دادیم یک متغیری با عنوان t رو به صورت زیر تعریف می‌کنیم:

متغیر Z از یک توزیع نرمال استاندارد میاد. متغیر V شبیه واریانس هست و از توزیع مربع کای با درجه آزادی n تبعیت می‌کنه (چون اگر بیایم n تا متغیر تصادفی از توزیع نرمال رو به توان 2 برسونیم و جمع کنیم در واقع یک توزیع مربع کای با درجه n داریم) و n هم برابر هست با اندازه نمونه‌ها. اگر متغیر t رو به صورت بالا تعریف کنیم، می‌تونیم مطمئن باشیم که t از توزیع T تبعیت می‌کنه.

حالا اصلاً چجوری میشه از مواردی که تا اینجا باهاشون آشنا شدیم در عمل استفاده کنیم؟

یک حالت از t-test وجود داره که بهش تک نمونه گفته میشه. تو این حالت یک سری داده داریم و فرض H0 تو این حالت میگه که داده‌های نمونه از توزیعی با میانگین µ اومدن. به عبارتی دیگه، بهمون در ورودی یک سری نمونه و میانگین µ رو میدن و ازمون میخوان این رو بررسی کنیم که آیا نمونه‌ها از میانگین µ تبعیت می‌کنن یا نه. متغیر t تو این حالت به صورت زیر تعریف میشه:

تو رابطه بالا Xبار میانگین نمونه‌هاست و µ0 میانگینی هست که بهمون دادن. S برابر هست با تخمینی که برای واریانس داریم و n هم تعداد نمونه‌هارو مشخص می‌کنه.

اگر بخوایم توزیع T رو با درجه آزادی 1 تا 4 بسازیم به چه صورت میشه؟ در ادامه این رو با R پیاده‌سازی خواهیم کرد.

متغیر ss برابر با تعداد نمونه‌هاست و 1000 در نظر گرفته شده و متغیر Xi متغیری هست از توزیع مربع کای با درجه آزادی i و مقدار i از 1 هست تا 4. اگر بیایم نمودار توزیع T رو برای درجه آزادی‌های 1 تا 4 بکشیم به صورت زیر میشه:

در نگاه اول توزیع Tخیلی شبیه توزیع نرماله ولی تفاوت‌هایی باهاش داره. اگر نمودار توزیع نرمال رو هم به نمودارهای بالا اضافه کنیم به صورت زیر در میاد:

هرچقدر درجه آزادی توزیع T رو بیشتر کنیم باعث میشه شباهت بیشتری به توزیع نرمال پیدا کنه. مثلاً تو تصویر زیر نمودار توزیع T با درجه آزادی 30 و نمودار توزیع نرمال آورده شده:

فرض کنید یک پیتزا فروشی هست که میگه به طور متوسط در عرض نیم ساعت سفارشات رو به مقصد میرسونه. حالا برای اینکه بفهمیم این ادعا درست هست یا نه میایم چند بار ازش پیتزا سفارش میدیم و مدت زمان رسیدن هر سفارش رو به دقیقه محاسبه می‌کنیم که به صورت زیر شده:

اول از همه میایم آماره رو طبق فرمول t-test در حالت تک متغیره مینویسیم:

مقدار آماره هم برابر هست با 8.79. در گام بعدی باید بیایم مقدار p-value رو محاسبه کنیم:

در نهایت تو این مثال مقدار p-value برابر با عدد خیلی کوچیکی (0.0000000055) میشه که باعث میشه فرض H0 رد بشه و ادعای پیتزا فروش نادرست باشه. چون اگر میانگین زمان دلیوری پیتزا 30 دقیقه باشه، احتمال اینکه اعداد نمونه به دست اومده رو بتونیم ببینیم برابر هست با مقدار p-value که خیلی احتمال کوچیکی هست و نزدیک به صفره.

تا اینجا آماره t-test رو تو حالت تک متغیره دیدیم. برای حالت دو متغیره آماره t-test به صورت زیر میشه:

تو این حالت دو گروه داده داریم و فرض H0 میگه که این دو گروه داده از توزیع‌هایی با میانگین یکسان اومدن. درجه آزادی تو این حالت به صورت زیر محاسبه میشه:

doff = 2n - 2

حالا فرض کنید دو سری سمپل داریم که به صورت زیر هست:

و اگر آماره رو طبق چیزی که بالاتر تعریف کردیم بنویسیم براش داریم:

مقدار آماره هم برابر میشه با منفی 1.89. اگر هم مقدار p-value رو محاسبه کنیم این مقدار برابر میشه با 0.07 و چون از 0.05 بیشتر هست نمی‌تونیم فرض H0 رو رد کنیم.

در نهایت، اگر می‌خواید از t-test استفاده کنید حواستون به نکات زیر باشه:

  • تو t-test فرض بر این هست که میانگین نمونه‌ها (نه خود نمونه‌ها) از توزیع نرمال بیان. این به این معنی هست که اگر 100 بار بیایم نمونه بگیریم و میانگین نمونه‌هارو هر دفعه حساب کنیم و این میانگین‌هارو پلات کنیم از یک توزیع نرمال باید اومده باشن.
  • تو حالتی هم که قراره از t-test دو متغیره استفاده کنیم، فرض بر این هست که توزیع واقعی نمونه‌ها در دو دسته باهم یکسان هستن و اگر تفاوتی بین دو دسته نمونه وجود داره، صرفاً تفاوت میانگین‌هاشون باشه. از اونجایی که واریانس توزیع واقعی نمونه‌هارو نداریم، می‌تونیم بیایم واریانس نمونه‌هارو حساب کنیم و اگر تفاوت زیادی ندیدیم از t-test استفاده کنیم.

جمع‌بندی مطالب ارائه شده

با تست مربع کای و t-test آشنا شدیم و فهمیدیم که چه کاربردی دارن و چند مثال ازشون دیدیم. به شدت پیشنهاد می‌کنم که حتماً حتماً ویدیو این جلسه رو یک بار ببینید، تا مطالب به خوبی براتون جا بیفته.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه بیست‌وسوم)

جزوه جلسه بعدی (جلسه بیست‌وپنجم)

من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید