منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
تا به این جلسه مباحثی که داشتیم در خصوص احتمال بوده و از این جلسه به بعد قراره در مورد آمار صحبت کنیم.
در قالب یک مثال قراره این موضوع رو بررسی کنیم. فرض کنید یه سطل داریم که تعدادی سنگریزه سفید و سیاه توشه. دو تا حالت داریم:
تو حالت اول میخوایم از کل به جز برسیم. تو حالت دوم میخوایم از جز به کل برسیم.
حالا، یه مثال دیگه.
فرض کنید بهمون یه توزیعی رو دادن و گفتن که داره توزیع قد آدمهارو نشون میده. حالا چقدر احتمال داره که قد یک آدمی بین 170 تا 180 سانت باشه؟ اینجا بحث احتمالات مطرحه. قراره از کل به جز برسیم.
ولی یه وقتی هست، مثلاً بهمون میگن که رفتیم قد 10 نفر رو به دست آوردیم، حالا چجوری بیایم از روی اینا میانگین قد کل جامعه رو به دست بیاریم؟ اینجا قراره از جز به کل برسیم و بحث آمار مطرحه.
تو جلسات قبلی که در مورد قانون اعداد بزرگ خوندیم، دیدیم که مثلاً یکی از راهها برای به دست آوردن میانگین جامعه اینکه بیایم تعداد نمونهها رو خیلی زیاد کنیم. اون قانون چی میگفت؟ میگفت اگر تعداد نمونهها به بینهایت میل پیدا کنه میانگین نمونهها با میانگین جامعه یکی میشه.
حواستون باشه که دو تا میانگین داریم. یکی میانگین جامعهس و یکی میانگین نمونه. میانگین نمونه میانگینی هست که از روی سمپلها به دست میاد و میانگین جامعه میانگینی هست که میانگین کله. این دو تا میانگین کاملا باهم فرق دارن.
تو بخش قبلی در مورد قد آدمها گفتیم که مثلاً قد 10 نفر رو دادن و میگن بیا از روی اون میانگین جامعه رو به دست بیار. روشی که برای محاسبه میانگینِ نمونه استفاده میشه میتونه یک تخمینگر از میانگین جامعه باشه. البته اگر بیایم تعداد نمونههارو بیشتر کنیم. از طرفی اگر بیایم امید ریاضی میانگین نمونه رو هم محاسبه کنیم به میانگین جامعه میرسیم. چجوری؟ اینجوری:
حالا اگر بخوایم برای واریانس یک تخمینگر معرفی کنیم چی؟ میشه از رابطه زیر استفاده کرد:
در ادامه قراره یه آزمایشی رو انجام بدیم.
فرض کنید یه توزیعی رو برای جامعه در نظر میگیریم. از این جامعه هر دفعه میایم تعدادی نمونه آماری تولید میکنیم و بر اساس این نمونههای آماری میایم تخمینگر میانگین و واریانس رو محاسبه میکنیم. بعد میایم از تخمینگرها میانگین میگیریم و میخوایم این رو بررسی کنیم که آیا با زیاد کردن نمونهها امید ریاضی تخمینگرها به میانگین و واریانس جامعه میل میکنه یا خیر.
فرض کنید توزیع جامعه یک توزیع نرماله با میانگین 7 و واریانس 11 (فرض میکنیم که نمیدونیم میانگین و واریانس جامعه چنده). در گام اول میایم از این جامعه 5 تا سمپل میگیریم و این کار رو 1000 بار انجام میدیم (1000 بار، هر دفعه اومدیم 5 تا سمپل گرفتیم). قراره میانگین و واریانس جامعه رو بر اساس میانگین و واریانس نمونهها تخمین بزنیم.
اول میایم این آزمایش رو روی تخمینگر میانگین انجام میدیم.
یعنی هر بار میایم 5 نفر رو بر میداریم، میانگین نمونه رو براشون محاسبه میکنیم و این کار رو 1000 دفعه انجام میدیم و نتایج رو در قالب یک نمودار نمایش میدیم.
نمودار بالا داره بهمون میگه که از این 1000 بار میانگین نمونه گرفتن، تو حالتی که میانگین نمونه برابر با هفت بوده بیشترین تعداد دفعات رو داشته (اگه یادتون باشه میانگین جامعه هم برابر با 7 بود).
از طرفی بازه میانگینهایی که به دست اومده از منفی 5 بوده تا حدود 20.
حالا اگر بیایم از این میانگینهایی که به دست آوردیم میانگین بگیریم عددی که بهمون میده برابر هست با 7.053441 (میانگین جامعه هم برابر با 7 بود).
حالا میایم تعداد رو از 5 نفر میکنیم 10 نفر و دوباره 1000 بار میانگین نمونه رو حساب میکنیم. نموداری که به دست میاد به صورت زیر میشه:
همونطور که مشخصه با زیاد کردن تعداد نفرات بازه میانگینهای به دست اومده از 0 تا 15 داره تغییر میکنه که نسبت به حالت قبلی بازهش کوچیکتر شده و تو این حالت اگر بیایم از تخمینگر میانگین، میانگین بگیریم مقدارش برابر میشه با 7.14503.
حالا فرض کنید میایم تعداد دفعات نمونهگیری رو از 1000 بار به 100000 بار افزایش میدیم. تو این حالت داریم:
تو این حالت اگر بیایم امید ریاضی تخمینگرهارو محاسبه کنیم مقدارش برابر هست با 6.976826.
اگه تعداد دفعات رو به یک میلیون بار برسونیم، امید ریاضی تخمینگرها برابر میشه با 6.992766 و نمودارش هم به صورت زیر در میاد:
ممکنه سوال پیش بیاد چرا هرچی تعداد دفعات آزمایش بالا رفت بازه نمودار بزرگتر شد. دلیلش اینکه توزیع نمونه رفته رفته به توزیع جامعه نزدیکتر میشه و چون تعداد دفعات تکرار بالا رفته احتمال اینکه اعداد دورتر از میانگین جامعه رو هم ببینیم بیشتر شده ولی احتمال رخدادشون کمه.
حالا میایم این آزمایش رو روی تخمینگر واریانس انجام میدیم.
در خصوص واریانس اتفاقی که میفته اینکه با زیاد کردن تعداد نمونهها همواره یه اختلافی بین واریانس نمونه و واریانس جامعه وجود داره. چرا اینطور میشه؟ دلیلش اینکه تخمینگری که انتخاب کردیم، تخمینگر خوبی نیست.
چیکار کنیم تخمینگر خوبی بشه؟ کافیه که مخرج رو به جای n بذاریم n-1. اینطوری با زیاد کردن تعداد نمونهها و دفعات انجام آزمایش واریانس نمونه به واریانس جامعه میل پیدا میکنه.
اگر تخمینگری داشته باشیم و ازش امید ریاضی بگیریم و باعث بشه که حاصلش برابر بشه با مقداری که جامعه داره، به اون تخمینگر unbiased یا نااریب گفته میشه. مثل تخمینگر میانگین.
اگر تخمینگری داشته باشیم که با زیاد کردن نمونهها همچنان امید ریاضیش اختلاف داشته باشه از مقدار جامعه، بهش تخمینگر biased گفته میشه. مثل تخمینگر اولیهای که برای واریانس در نظر گرفتیم و تخمینگر خوبی نبود.
فرض کنید که میایم به کمک یک تخمینگر میانگین یا واریانس یک جامعه رو تخمین میزنیم. حالا چه بازهای میتونیم در نظر بگیریم که مطمئن باشیم با احتمال 95 درصد، میانگین یا واریانس واقعی جامعه تو اون بازه میفته؟
تو مثال تخمینگر میانگین دیدیم که در نهایت میانگین نمونه برابر شد با 6.992766. حالا، چه بازهای رو در نظر بگیریم که مطمئن باشیم با احتمال 95 درصد میانگین واقعی جامعه تو اون بازه قرار میگیره؟ بازه اطمینان رو 6 تا 8 در نظر بگیریم یا 6.5 تا 7.5 بگیریم؟ اصلاً چجوری محاسبه میشه؟ در جلسات آینده به این سوال پاسخ خواهیم داد.
مسئله دیگهای که در بحث آمار مطرح هست، تستهای آماریه. در جلسات آینده با جزییات انواع تست آشنا خواهیم شد. تو این جلسه صرفاً میخوایم ببینیم تست آماری چیه و به چه کاری میاد اصلاً؟
فرض کنید یک دارویی ساخته میشه و قراره در نهایت ببینن که آیا اون دارو در درمان بیماری موثر بوده یا نه. دو تا گروه 50 تایی از آدمهایی رو میارن. به یک دسته همون دارو رو میدن، به دسته دیگه داروی بیاثر میدن. در نهایت به این اعداد میرسن:
حالا، این دارو در درمان بیماری اثر داشته؟ چجوری بیایم تست کنیم؟ در جلسات آینده میتونیم به این سوال هم پاسخ بدیم.
تا اینجا دیدیم که میشه میانگین یا واریانس جامعه رو از روی میانگین یا واریانس نمونه تخمین زد. حتی دیدیم میشه بازه اطمینان محاسبه کرد. بعضی وقتا به جای تخمین یک عدد یا یک بازه میشه یک توزیع رو تخمین زد.
دو تا مکتب مختلف در آمار وجود داره. یکی از این مکتبها اسمش آمار بیزی هست. تو این مکتب چی میگن؟ میگن شما قبل اینکه برید سراغ نمونهها یک توزیعی تو ذهنتون دارید. مثلاً در مورد قد جامعه یک توزیعی بر اساس دادههای پیشین در نظر گرفتین. تو مرحله بعد میرید نمونه میگیرید، حالا بر اساس سمپلهای به دست اومده فقط توزیعتون رو عوض میکنید (یعنی توزیع رو تخمین میزنید).
تو این مکتب میان میگن که شما به هیچ عنوان حق ندارید از دانش پیشین خودتون در مورد یک موضوعی (مثلاً همون قد جامعه) استفاده کنید. تنها کاری که میتونید بکنید اینکه سمپل بگیرید و بعد بر اساس اون فقط یک عدد یا بازه رو تخمین بزنید. اصلاً تخمین توزیع در این مکتب تعریف نشده.
در جلسات آینده با این دو مکتب هم آشنا میشیم و جزییات هر کدوم رو خواهیم گفت.
یا یک مقدمه کلی از مباحث آمار آشنا شدیم و فهمیدیم که در ادامه این جلسات به بررسی چه موضوعاتی خواهیم پرداخت.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.