هانیه مهدوی
هانیه مهدوی
خواندن ۸ دقیقه·۱ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه بیست‌ویکم - تخمین بازه‌ای

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


در جلسه گذشته با تخمین‌گرهای نقطه‌ای آشنا شدیم و فهمیدیم تخمین‌گر Maximum Likelihood چیه.
در ادامه قراره اول یک مثال از Maximum Likelihood رو ببینیم و بعد به مباحث این جلسه بپردازیم.
فرض کنید دیتای زیر از X1 تا Xn از یک توزیع نرمال و مستقل از هم با پارامترهای تتا یک و تتا دو اومده باشه:

قراره MLE (Maximum Likelihood Estimator) رو برای پارامتر تتا یک و تتا دو پیدا کنیم:

حالا اگه MLE رو بنویسیم داریم:

تو رابطه بالا منظورمون از P تابع چگالی توزیع نرمال هست و از اونجایی که تتا یک جای میانگین نشسته و تتا دو جای واریانس می‌تونیم رابطه بالا رو به صورت زیر بنویسیم و حاصل ضرب چگالی‌هارو محاسبه کنیم:

اگر ما بتونیم برای پارامتر تتا یک و تتا دو مقداری رو پیدا کنیم که حاصل ضرب بالا رو بیشینه کنه، به این معنیه که اون مقادیر شانس بیشتری داشتن که اون دیتا رو تولید کنن. ممکنه حتی مقادیری که برای پارامترها پیدا می‌کنیم پارامترهای واقعی توزیع جامعه نباشن، اما از بین همه پارامترهای موجود با بیشترین احتمال دیتایی که داریم رو تولید کردن.

تا اینجا ما تابع likelihood رو به دست آوردیم. دنبال مقداری از تتا هستیم که این تابع رو برامون بیشینه کنه. باید از تابع likelihood مشتق بگیریم و بعد برابر با صفر قرار بدیم.

مشتق گرفتن از خود تابع likelihood سخته. برای همین میایم اول ازش لگاریتم می‌گیریم، بعد از تابع لگاریتمش مشتق می‌گیریم و مساوی 0 قرار می‌دیم.

تابع likelihood که به صورت زیر تعریف میشه:

حالا اگه از تابع بالا لگاریتم طبیعی بگیریم به صورت زیر در میاد:

عبارت argmax(theta1, theta2) داره میگه به ازای چه تتا یک و تتا دویی تابع لگاریتم likelihood بیشینه میشه.

حالا میایم از تابع بالا یک بار نسبت به تتا یک مشتق می‌گیریم، برابر با 0 قرار میدیم و مقدار پارامتر تتا یک رو به دست میاریم:

الان تتا یک مقدارش برابر با چی هست؟ همون تخمین‌گر میانگین هست که در جلسات گذشته دیدیم.

حالا، میایم از تابع likelihood این بار نسبت به تتا دو مشتق می‌گیریم، برابر با 0 قرار میدیم و مقدار پارامتر تتا دو رو به دست میاریم:

مقداری که برای تتا دو به دست اومده تخمین‌گر تجربی واریانس هست. در جلسات گذشته دیدیم که این تخمین‌گر biased هست اما MLE خصوصیاتی داره که باعث میشه این تخمین‌گر unbiased بشه. در ادامه جزییات بیشتری رو در این خصوص توضیح خواهیم داد.

خصوصیات تابع Maximum Likelihood در حالتیکه n به بی‌نهایت میل کنه ...

ویژگی اول، unbiased بودن:

ویژگی دوم، سازگار بودن:

ویژگی سوم، تبعیت کردن MLE از یک توزیع نرمال در صورت نرمال شدن:

در ادامه این جلسه جزییات بیشتری رو در خصوص ویژگی سوم خواهیم دید.

در جلسه گذشته که داشتیم معیارهای یک تخمین‌گر خوب رو بررسی می‌کردیم به نحوی این سه معیار رو هم پوشش دادیم و همونطور که واضحه MLE هم این خصوصیات رو داره و به همین دلیل باعث میشه که تخمین‌گر خوبی به شمار بره.

تخمین‌گر بازه‌ای

از جلسه گذشته تا به الان، با تخمین‌گر نقطه‌ای آشنا شدیم و دیدیم که به چه صورته. در ادامه، قبل از اینکه به جزییات این مبحث بپردازیم اول ببینیم که چی شد که اصلاً نیاز به داشتن تخمین‌گر بازه‌ای به وجود اومد و بعد جزییاتش رو باهم بررسی خواهیم کرد:

پس، قضیه از این قراره که با تخمین‌گر نقطه‌ای فقط میشه یک عدد به دست آورد. حالا چقدر احتمال داره که پارامتر تخمین‌زده شده برابر باشه با پارامتر واقعی جمعیت؟ احتمالش صفره. چقدر احتمال داره که پارامتر تخمین‌زده شده نزدیک باشه به پارامتر واقعی؟ نمی‌دونیم.

ولی اگر یک بازه داشته باشیم (به این شرط که خیلی از هم دور نباشن) که مطمئن باشیم پارامتر واقعی جمعیت با احتمال 95 درصد تو اون بازه قرار می‌گیره، اطلاعات بیشتری به ما میده و به درد بخورتره.

در ادامه یک مثال رو باهم بررسی می‌کنیم.

فرض کنید که دیتایی داریم که داره از توزیع نرمال با میانگین تتا و واریانس 1 میاد:

دنبال این هستیم که یک بازه‌ای رو پیدا کنیم به طوری که احتمال قرار داشتن تتا توی اون بازه بیشتر از 95 درصد باشه:

از اونجایی که تتا میانگین رو نشون میده، می‌دونیم که از قبل برای تخمین‌گر میانگین داریم:

و واریانس هر کدوم از Xi ها برابر هست با:

1/n^2

و اگر بخوایم واریانس X بار رو محاسبه کنیم خواهیم داشت:

طبق مباحثی که در جلسات مربوط به احتمال بررسی کردیم، می‌دونیم که جمع متغیرهای مستقلی که از یک توزیع نرمال میان در نهایت بهمون یک توزیع نرمال میده که با توجه به توزیعمون در اینجا میانگین تتا و واریانس 1/n داره:

می‌تونیم توزیع X بار رو نرمال کنیم و داشته باشیم:

حالا، بیاید توزیع نرمال استاندارد زیر رو در نظر بگیرید:

یادمون هست که تابع Phi نشون‌دهنده تابع CDF توزیع نرمال بود و Phi(z_alpha) برابر بود با سطح زیر نمودار از منفی بی‌نهایت تا z_alpha. حالا چون سطح زیر نمودار از z_alpha به بعد رو می‌خوایم باید بیایم از 1 مقدار alpha رو کم کنیم. یعنی داریم:

Phi(z_alpha) = 1-alpha

و چون دنبال z_alpha هستیم، میایم از تابع بالا وارون می‌گیریم.

تو صورت سوال گفته بودیم که دنبال بازه‌ای هستیم که احتمال قرار داشتن تتا توی اون بازه بیشتر از 95 درصد باشه (یعنی قسمت هاشور خورده زیر):

حالا فقط کافیه z_alpha/2 رو محاسبه کنیم تا بازه رو به دست بیاریم.

برای به دست آوردن بازه ابتدایی و انتهایی، اول باید بیایم Z رو جایگذاری کنیم و بعد تتا رو تنها کنیم:

برای تنها کردن تتا اول میایم طرفین رو بر رادیکال n تقسیم می‌کنیم و بعد از طرفین X بار رو کم می‌کنیم و در نهایت در یک منفی ضرب می‌کنیم. داریم:

مقدار alpha رو 0.05 در نظر گرفته بودیم.پس مقدار alpha تقسیم بر 2 میشه 0.025. به کمک R میایم مقدار z_0.025 رو محاسبه می‌کنیم که برابر هست با 1.96. پس بازه نهایی برابر میشه با:

ʘ^_LOW = X-bar - (1.96/√n) ʘ^_HIGH = X-bar + (1.96/√n)

حالا این بازه‌ای که پیدا کردیم چه معنایی داره؟ اگر تعداد نمونه‌هایی که داریم 9 تا باشه میانگین با احتمال 95 درصد در بازه زیر قرار می‌گیره:

اگه به جای 9 نمونه، 100 نمونه می‌داشتیم بازه میانگین به صورت زیر تغییر می‌کرد:

یعنی هرچی تعداد نمونه‌ها بیشتر بشه، بازه اطمینان کوچیک‌تر میشه.

توی این مثالی که بررسی کردیم، مقدار واریانس برابر بود با 1.

حالا اگر یک توزیع ناشناخته داشته باشیم که واریانس شناخته شده سیگما دو داشته باشه و میانگین ناشناخته تتا داشته باشه و قرار باشه میانگین رو براش تخمین بزنیم چی؟

اول از همه، می‌دونیم که برای میانگین، X بار تخمین‌گر خوبیه. از طرفی بازه بالا و پایینی که قراره به دست بیاریم در واقع به صورت زیر هست:

P(theta ∈ [X-bar - ?, X-bar + ?]) ⩾ 1 - alpha

بعد، می‌تونیم برای حل این مسئله از قضیه حد مرکزی استفاده کنیم.یعنی وقتی n بزرگ باشه می‌دونیم که توزیع استاندارد شده میانگین از توزیع نرمال استاندارد تبعیت می‌کنه. یعنی داریم:

تو مثال قبلی هم دیدیم که اگر Z یک توزیع نرمال استاندارد باشه، حد بالا و پایین رو می‌تونیم به صورت زیر بنویسیم:

و اگر بیایم Z رو جایگزین کنیم و X بار منهای تتا رو تنها کنیم خواهیم داشت:

پس در نهایت بازه‌ای اطمینانی که دنبالش بودیم مستقل از توزیع با هر میانگین و واریانس دلخواه به صورت زیر در میاد:

اگه یکم مطالب گنگ بوده ایرادی نداره. در ادامه یکی دو تا مثال عددی بررسی می‌کنیم و بهتر متوجه قضیه میشید.

فرض کنید بهمون گفتن یک توزیعی داریم که واریانس 30 داره. قراره یک بازه اطمینان با احتمال 99 درصد براش پیدا کنیم. چه کنیم؟

اول از همه چون بازه اطمینان با احتمال 99 درصد میخوایم، پس یعنی:

confidence = 1 - alpha = 0.99 alpha = 0.01

و چون دنبال z_alpha/2 هستیم پس:

alpha/2 = 0.005

در گام بعدی به کمک R میایم z_alpha/2 رو محاسبه می‌کنیم:

z_alpha/2 = 2.57

حالا با توجه به بازه‌هایی که در مثال قبلی محاسبه کردیم داریم:

حالا یک سوالی پیش میاد.

در اکثر مسائل مقدار واریانس رو نداریم. تو این مواقع چه کنیم؟

فرض کنید دیتایی که داریم از یک توزیع ناشناخته با میانگین تتا یک ناشناخته و واریانس تتا دو ناشناخته میاد. تو این حالت بازه اطمینان رو چطور میشه پیدا کرد؟ دو تا راهکار داریم.

روش اول اینکه بیایم یک حد بالا برای واریانس محاسبه کنیم به طوریکه مطمئن باشیم واریانس جامعه از اون حد بالا کوچیک‌تره. (روش‌های مختلفی وجود داره برای محاسبه این قسمت).

روش دوم اینکه بیایم واریانس رو تخمین بزنیم و بعد بقیه کار رو طبق چیزایی که در دو مثال قبلی دیدیم جلو ببریم.

جمع‌بندی مطالب ارائه شده

جزییات تابع MLE رو دیدیم و با تخمین‌گر بازه‌ای آشنا شدیم و فهمیدیم که چطور میشه به جای یک عدد یک بازه رو برای پارامترهای یک توزیع تخمین زد.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه بیستم)

جزوه جلسه بعدی (جلسه بیست‌ودوم)

تخمین بازه‌ایMaximum Likelihood Estimation
من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید