هانیه مهدوی
هانیه مهدوی
خواندن ۸ دقیقه·۱ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه نوزدهم - مقدمه‌ای بر آمار

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


تا به این جلسه مباحثی که داشتیم در خصوص احتمال بوده و از این جلسه به بعد قراره در مورد آمار صحبت کنیم.

تفاوت احتمال و آمار

در قالب یک مثال قراره این موضوع رو بررسی کنیم. فرض کنید یه سطل داریم که تعدادی سنگریزه سفید و سیاه توشه. دو تا حالت داریم:

  • می‌دونیم که نسبت سنگ‌ریزه‌های سفید و سیاه به چه صورته، از داخل سطل یک سنگی رو برداشتیم و حالا می‌خوایم این رو حساب کنیم که چقدر احتمال داره سنگ سفید باشه، چقدر احتمال داره سنگ سیاه باشه.
  • نمی‌دونیم که نسبت سنگ‌ریزه‌ها داخل سطل به چه صورته، فقط یه مشت سنگ‌ریزه داریم و می‌خوایم بفهمیم که داخل سطل چه خبره.

تو حالت اول می‌خوایم از کل به جز برسیم. تو حالت دوم می‌خوایم از جز به کل برسیم.

حالا، یه مثال دیگه.

فرض کنید بهمون یه توزیعی رو دادن و گفتن که داره توزیع قد آدم‌هارو نشون میده. حالا چقدر احتمال داره که قد یک آدمی بین 170 تا 180 سانت باشه؟ اینجا بحث احتمالات مطرحه. قراره از کل به جز برسیم.

ولی یه وقتی هست، مثلاً بهمون میگن که رفتیم قد 10 نفر رو به دست آوردیم، حالا چجوری بیایم از روی اینا میانگین قد کل جامعه رو به دست بیاریم؟ اینجا قراره از جز به کل برسیم و بحث آمار مطرحه.

تو جلسات قبلی که در مورد قانون اعداد بزرگ خوندیم، دیدیم که مثلاً یکی از راه‌ها برای به دست آوردن میانگین جامعه اینکه بیایم تعداد نمونه‌ها رو خیلی زیاد کنیم. اون قانون چی میگفت؟ میگفت اگر تعداد نمونه‌ها به بی‌نهایت میل پیدا کنه میانگین نمونه‌ها با میانگین جامعه یکی میشه.

حواستون باشه که دو تا میانگین داریم. یکی میانگین جامعه‌س و یکی میانگین نمونه. میانگین نمونه میانگینی هست که از روی سمپل‌ها به دست میاد و میانگین جامعه میانگینی هست که میانگین کله. این دو تا میانگین کاملا باهم فرق دارن.

تخمین‌گر

تو بخش قبلی در مورد قد آدم‌ها گفتیم که مثلاً قد 10 نفر رو دادن و میگن بیا از روی اون میانگین جامعه رو به دست بیار. روشی که برای محاسبه میانگینِ نمونه استفاده میشه می‌تونه یک تخمین‌گر از میانگین جامعه باشه. البته اگر بیایم تعداد نمونه‌هارو بیشتر کنیم. از طرفی اگر بیایم امید ریاضی میانگین نمونه رو هم محاسبه کنیم به میانگین جامعه می‌رسیم. چجوری؟ اینجوری:

حالا اگر بخوایم برای واریانس یک تخمین‌گر معرفی کنیم چی؟ میشه از رابطه زیر استفاده کرد:

در ادامه قراره یه آزمایشی رو انجام بدیم.

فرض کنید یه توزیعی رو برای جامعه در نظر می‌گیریم. از این جامعه هر دفعه میایم تعدادی نمونه آماری تولید می‌کنیم و بر اساس این نمونه‌های آماری میایم تخمین‌گر میانگین و واریانس رو محاسبه می‌کنیم. بعد میایم از تخمین‌گرها میانگین می‌گیریم و می‌خوایم این رو بررسی کنیم که آیا با زیاد کردن نمونه‌ها امید ریاضی تخمین‌گرها به میانگین و واریانس جامعه میل می‌کنه یا خیر.

فرض کنید توزیع جامعه یک توزیع نرماله با میانگین 7 و واریانس 11 (فرض می‌کنیم که نمی‌دونیم میانگین و واریانس جامعه چنده). در گام اول میایم از این جامعه 5 تا سمپل می‌گیریم و این کار رو 1000 بار انجام میدیم (1000 بار، هر دفعه اومدیم 5 تا سمپل گرفتیم). قراره میانگین و واریانس جامعه رو بر اساس میانگین و واریانس نمونه‌ها تخمین بزنیم.

اول میایم این آزمایش رو روی تخمین‌گر میانگین انجام میدیم.

یعنی هر بار میایم 5 نفر رو بر می‌داریم، میانگین نمونه رو براشون محاسبه می‌کنیم و این کار رو 1000 دفعه انجام میدیم و نتایج رو در قالب یک نمودار نمایش میدیم.

نمودار بالا داره بهمون میگه که از این 1000 بار میانگین نمونه گرفتن، تو حالتی که میانگین نمونه برابر با هفت بوده بیش‌ترین تعداد دفعات رو داشته (اگه یادتون باشه میانگین جامعه هم برابر با 7 بود).

از طرفی بازه میانگین‌هایی که به دست اومده از منفی 5 بوده تا حدود 20.

حالا اگر بیایم از این میانگین‌هایی که به دست آوردیم میانگین بگیریم عددی که بهمون میده برابر هست با 7.053441 (میانگین جامعه هم برابر با 7 بود).

حالا میایم تعداد رو از 5 نفر می‌کنیم 10 نفر و دوباره 1000 بار میانگین نمونه رو حساب می‌کنیم. نموداری که به دست میاد به صورت زیر میشه:

همونطور که مشخصه با زیاد کردن تعداد نفرات بازه میانگین‌های به دست اومده از 0 تا 15 داره تغییر می‌کنه که نسبت به حالت قبلی بازه‌ش کوچیک‌تر شده و تو این حالت اگر بیایم از تخمین‌گر میانگین، میانگین بگیریم مقدارش برابر میشه با 7.14503.

حالا فرض کنید میایم تعداد دفعات نمونه‌گیری رو از 1000 بار به 100000 بار افزایش می‌دیم. تو این حالت داریم:

تو این حالت اگر بیایم امید ریاضی تخمین‌گرهارو محاسبه کنیم مقدارش برابر هست با 6.976826.

اگه تعداد دفعات رو به یک میلیون بار برسونیم، امید ریاضی تخمین‌گرها برابر میشه با 6.992766 و نمودارش هم به صورت زیر در میاد:

ممکنه سوال پیش بیاد چرا هرچی تعداد دفعات آزمایش بالا رفت بازه نمودار بزرگ‌تر شد. دلیلش اینکه توزیع نمونه رفته رفته به توزیع جامعه نزدیک‌تر میشه و چون تعداد دفعات تکرار بالا رفته احتمال اینکه اعداد دورتر از میانگین جامعه رو هم ببینیم بیشتر شده ولی احتمال رخدادشون کمه.

حالا میایم این آزمایش رو روی تخمین‌گر واریانس انجام میدیم.

در خصوص واریانس اتفاقی که میفته اینکه با زیاد کردن تعداد نمونه‌ها همواره یه اختلافی بین واریانس نمونه و واریانس جامعه وجود داره. چرا اینطور میشه؟ دلیلش اینکه تخمین‌گری که انتخاب کردیم، تخمین‌گر خوبی نیست.

چیکار کنیم تخمین‌گر خوبی بشه؟ کافیه که مخرج رو به جای n بذاریم n-1. اینطوری با زیاد کردن تعداد نمونه‌ها و دفعات انجام آزمایش واریانس نمونه به واریانس جامعه میل پیدا می‌کنه.

تخمین‌گر Unbiased و Biased

اگر تخمین‌گری داشته باشیم و ازش امید ریاضی بگیریم و باعث بشه که حاصلش برابر بشه با مقداری که جامعه داره، به اون تخمین‌گر unbiased یا نااریب گفته میشه. مثل تخمین‌گر میانگین.

اگر تخمین‌گری داشته باشیم که با زیاد کردن نمونه‌ها همچنان امید ریاضی‌ش اختلاف داشته باشه از مقدار جامعه، بهش تخمین‌گر biased گفته میشه. مثل تخمین‌گر اولیه‌ای که برای واریانس در نظر گرفتیم و تخمین‌گر خوبی نبود.

پیدا کردن بازه اطمینان

فرض کنید که میایم به کمک یک تخمین‌گر میانگین یا واریانس یک جامعه رو تخمین می‌زنیم. حالا چه بازه‌ای می‌تونیم در نظر بگیریم که مطمئن باشیم با احتمال 95 درصد، میانگین یا واریانس واقعی جامعه تو اون بازه میفته؟

تو مثال تخمین‌گر میانگین دیدیم که در نهایت میانگین نمونه‌ برابر شد با 6.992766. حالا، چه بازه‌ای رو در نظر بگیریم که مطمئن باشیم با احتمال 95 درصد میانگین واقعی جامعه تو اون بازه قرار می‌گیره؟ بازه اطمینان رو 6 تا 8 در نظر بگیریم یا 6.5 تا 7.5 بگیریم؟ اصلاً چجوری محاسبه میشه؟ در جلسات آینده به این سوال پاسخ خواهیم داد.

تست‌های آماری

مسئله دیگه‌ای که در بحث آمار مطرح هست، تست‌های آماریه. در جلسات آینده با جزییات انواع تست آشنا خواهیم شد. تو این جلسه صرفاً می‌خوایم ببینیم تست آماری چیه و به چه کاری میاد اصلاً؟

فرض کنید یک دارویی ساخته میشه و قراره در نهایت ببینن که آیا اون دارو در درمان بیماری موثر بوده یا نه. دو تا گروه 50 تایی از آدم‌هایی رو میارن. به یک دسته همون دارو رو میدن، به دسته دیگه داروی بی‌اثر میدن. در نهایت به این اعداد می‌رسن:

  • از 50 نفری که بهشون دارو داده شده، 35 نفر بهبود یافتن، 15نفر خیر.
  • از 50 نفری که بهشون داروی بی‌اثر دادن 26 نفر بهبود یافتن، 24 نفر خیر.

حالا، این دارو در درمان بیماری اثر داشته؟ چجوری بیایم تست کنیم؟ در جلسات آینده می‌تونیم به این سوال هم پاسخ بدیم.

تخمین توزیع

تا اینجا دیدیم که میشه میانگین یا واریانس جامعه رو از روی میانگین یا واریانس نمونه تخمین زد. حتی دیدیم میشه بازه اطمینان محاسبه کرد. بعضی وقتا به جای تخمین یک عدد یا یک بازه میشه یک توزیع رو تخمین زد.

آمار بیزی

دو تا مکتب مختلف در آمار وجود داره. یکی از این مکتب‌ها اسمش آمار بیزی هست. تو این مکتب چی میگن؟ میگن شما قبل اینکه برید سراغ نمونه‌ها یک توزیعی تو ذهنتون دارید. مثلاً در مورد قد جامعه یک توزیعی بر اساس داده‌های پیشین در نظر گرفتین. تو مرحله بعد میرید نمونه می‌گیرید، حالا بر اساس سمپل‌های به دست اومده فقط توزیعتون رو عوض می‌کنید (یعنی توزیع رو تخمین می‌زنید).

آمار Frequentist

تو این مکتب میان میگن که شما به هیچ عنوان حق ندارید از دانش پیشین خودتون در مورد یک موضوعی (مثلاً همون قد جامعه) استفاده کنید. تنها کاری که می‌تونید بکنید اینکه سمپل بگیرید و بعد بر اساس اون فقط یک عدد یا بازه رو تخمین بزنید. اصلاً تخمین توزیع در این مکتب تعریف نشده.

در جلسات آینده با این دو مکتب هم آشنا میشیم و جزییات هر کدوم رو خواهیم گفت.

جمع‌بندی مطالب ارائه شده

یا یک مقدمه کلی از مباحث آمار آشنا شدیم و فهمیدیم که در ادامه این جلسات به بررسی چه موضوعاتی خواهیم پرداخت.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه هجدهم)

جزوه جلسه بعدی (جلسه بیستم)

آمارتخمین‌گرتخمین‌گر نقطه‌ایتخمین‌گر بازه‌ایآمار بیزی
من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید