منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
در جلسه گذشته با تخمینگرهای نقطهای آشنا شدیم و فهمیدیم تخمینگر Maximum Likelihood چیه.
در ادامه قراره اول یک مثال از Maximum Likelihood رو ببینیم و بعد به مباحث این جلسه بپردازیم.
فرض کنید دیتای زیر از X1 تا Xn از یک توزیع نرمال و مستقل از هم با پارامترهای تتا یک و تتا دو اومده باشه:
قراره MLE (Maximum Likelihood Estimator) رو برای پارامتر تتا یک و تتا دو پیدا کنیم:
حالا اگه MLE رو بنویسیم داریم:
تو رابطه بالا منظورمون از P تابع چگالی توزیع نرمال هست و از اونجایی که تتا یک جای میانگین نشسته و تتا دو جای واریانس میتونیم رابطه بالا رو به صورت زیر بنویسیم و حاصل ضرب چگالیهارو محاسبه کنیم:
اگر ما بتونیم برای پارامتر تتا یک و تتا دو مقداری رو پیدا کنیم که حاصل ضرب بالا رو بیشینه کنه، به این معنیه که اون مقادیر شانس بیشتری داشتن که اون دیتا رو تولید کنن. ممکنه حتی مقادیری که برای پارامترها پیدا میکنیم پارامترهای واقعی توزیع جامعه نباشن، اما از بین همه پارامترهای موجود با بیشترین احتمال دیتایی که داریم رو تولید کردن.
تا اینجا ما تابع likelihood رو به دست آوردیم. دنبال مقداری از تتا هستیم که این تابع رو برامون بیشینه کنه. باید از تابع likelihood مشتق بگیریم و بعد برابر با صفر قرار بدیم.
مشتق گرفتن از خود تابع likelihood سخته. برای همین میایم اول ازش لگاریتم میگیریم، بعد از تابع لگاریتمش مشتق میگیریم و مساوی 0 قرار میدیم.
تابع likelihood که به صورت زیر تعریف میشه:
حالا اگه از تابع بالا لگاریتم طبیعی بگیریم به صورت زیر در میاد:
عبارت argmax(theta1, theta2) داره میگه به ازای چه تتا یک و تتا دویی تابع لگاریتم likelihood بیشینه میشه.
حالا میایم از تابع بالا یک بار نسبت به تتا یک مشتق میگیریم، برابر با 0 قرار میدیم و مقدار پارامتر تتا یک رو به دست میاریم:
الان تتا یک مقدارش برابر با چی هست؟ همون تخمینگر میانگین هست که در جلسات گذشته دیدیم.
حالا، میایم از تابع likelihood این بار نسبت به تتا دو مشتق میگیریم، برابر با 0 قرار میدیم و مقدار پارامتر تتا دو رو به دست میاریم:
مقداری که برای تتا دو به دست اومده تخمینگر تجربی واریانس هست. در جلسات گذشته دیدیم که این تخمینگر biased هست اما MLE خصوصیاتی داره که باعث میشه این تخمینگر unbiased بشه. در ادامه جزییات بیشتری رو در این خصوص توضیح خواهیم داد.
ویژگی اول، unbiased بودن:
ویژگی دوم، سازگار بودن:
ویژگی سوم، تبعیت کردن MLE از یک توزیع نرمال در صورت نرمال شدن:
در ادامه این جلسه جزییات بیشتری رو در خصوص ویژگی سوم خواهیم دید.
در جلسه گذشته که داشتیم معیارهای یک تخمینگر خوب رو بررسی میکردیم به نحوی این سه معیار رو هم پوشش دادیم و همونطور که واضحه MLE هم این خصوصیات رو داره و به همین دلیل باعث میشه که تخمینگر خوبی به شمار بره.
از جلسه گذشته تا به الان، با تخمینگر نقطهای آشنا شدیم و دیدیم که به چه صورته. در ادامه، قبل از اینکه به جزییات این مبحث بپردازیم اول ببینیم که چی شد که اصلاً نیاز به داشتن تخمینگر بازهای به وجود اومد و بعد جزییاتش رو باهم بررسی خواهیم کرد:
پس، قضیه از این قراره که با تخمینگر نقطهای فقط میشه یک عدد به دست آورد. حالا چقدر احتمال داره که پارامتر تخمینزده شده برابر باشه با پارامتر واقعی جمعیت؟ احتمالش صفره. چقدر احتمال داره که پارامتر تخمینزده شده نزدیک باشه به پارامتر واقعی؟ نمیدونیم.
ولی اگر یک بازه داشته باشیم (به این شرط که خیلی از هم دور نباشن) که مطمئن باشیم پارامتر واقعی جمعیت با احتمال 95 درصد تو اون بازه قرار میگیره، اطلاعات بیشتری به ما میده و به درد بخورتره.
در ادامه یک مثال رو باهم بررسی میکنیم.
فرض کنید که دیتایی داریم که داره از توزیع نرمال با میانگین تتا و واریانس 1 میاد:
دنبال این هستیم که یک بازهای رو پیدا کنیم به طوری که احتمال قرار داشتن تتا توی اون بازه بیشتر از 95 درصد باشه:
از اونجایی که تتا میانگین رو نشون میده، میدونیم که از قبل برای تخمینگر میانگین داریم:
و واریانس هر کدوم از Xi ها برابر هست با:
1/n^2
و اگر بخوایم واریانس X بار رو محاسبه کنیم خواهیم داشت:
طبق مباحثی که در جلسات مربوط به احتمال بررسی کردیم، میدونیم که جمع متغیرهای مستقلی که از یک توزیع نرمال میان در نهایت بهمون یک توزیع نرمال میده که با توجه به توزیعمون در اینجا میانگین تتا و واریانس 1/n داره:
میتونیم توزیع X بار رو نرمال کنیم و داشته باشیم:
حالا، بیاید توزیع نرمال استاندارد زیر رو در نظر بگیرید:
یادمون هست که تابع Phi نشوندهنده تابع CDF توزیع نرمال بود و Phi(z_alpha) برابر بود با سطح زیر نمودار از منفی بینهایت تا z_alpha. حالا چون سطح زیر نمودار از z_alpha به بعد رو میخوایم باید بیایم از 1 مقدار alpha رو کم کنیم. یعنی داریم:
Phi(z_alpha) = 1-alpha
و چون دنبال z_alpha هستیم، میایم از تابع بالا وارون میگیریم.
تو صورت سوال گفته بودیم که دنبال بازهای هستیم که احتمال قرار داشتن تتا توی اون بازه بیشتر از 95 درصد باشه (یعنی قسمت هاشور خورده زیر):
حالا فقط کافیه z_alpha/2 رو محاسبه کنیم تا بازه رو به دست بیاریم.
برای به دست آوردن بازه ابتدایی و انتهایی، اول باید بیایم Z رو جایگذاری کنیم و بعد تتا رو تنها کنیم:
برای تنها کردن تتا اول میایم طرفین رو بر رادیکال n تقسیم میکنیم و بعد از طرفین X بار رو کم میکنیم و در نهایت در یک منفی ضرب میکنیم. داریم:
مقدار alpha رو 0.05 در نظر گرفته بودیم.پس مقدار alpha تقسیم بر 2 میشه 0.025. به کمک R میایم مقدار z_0.025 رو محاسبه میکنیم که برابر هست با 1.96. پس بازه نهایی برابر میشه با:
ʘ^_LOW = X-bar - (1.96/√n) ʘ^_HIGH = X-bar + (1.96/√n)
حالا این بازهای که پیدا کردیم چه معنایی داره؟ اگر تعداد نمونههایی که داریم 9 تا باشه میانگین با احتمال 95 درصد در بازه زیر قرار میگیره:
اگه به جای 9 نمونه، 100 نمونه میداشتیم بازه میانگین به صورت زیر تغییر میکرد:
یعنی هرچی تعداد نمونهها بیشتر بشه، بازه اطمینان کوچیکتر میشه.
توی این مثالی که بررسی کردیم، مقدار واریانس برابر بود با 1.
حالا اگر یک توزیع ناشناخته داشته باشیم که واریانس شناخته شده سیگما دو داشته باشه و میانگین ناشناخته تتا داشته باشه و قرار باشه میانگین رو براش تخمین بزنیم چی؟
اول از همه، میدونیم که برای میانگین، X بار تخمینگر خوبیه. از طرفی بازه بالا و پایینی که قراره به دست بیاریم در واقع به صورت زیر هست:
P(theta ∈ [X-bar - ?, X-bar + ?]) ⩾ 1 - alpha
بعد، میتونیم برای حل این مسئله از قضیه حد مرکزی استفاده کنیم.یعنی وقتی n بزرگ باشه میدونیم که توزیع استاندارد شده میانگین از توزیع نرمال استاندارد تبعیت میکنه. یعنی داریم:
تو مثال قبلی هم دیدیم که اگر Z یک توزیع نرمال استاندارد باشه، حد بالا و پایین رو میتونیم به صورت زیر بنویسیم:
و اگر بیایم Z رو جایگزین کنیم و X بار منهای تتا رو تنها کنیم خواهیم داشت:
پس در نهایت بازهای اطمینانی که دنبالش بودیم مستقل از توزیع با هر میانگین و واریانس دلخواه به صورت زیر در میاد:
اگه یکم مطالب گنگ بوده ایرادی نداره. در ادامه یکی دو تا مثال عددی بررسی میکنیم و بهتر متوجه قضیه میشید.
فرض کنید بهمون گفتن یک توزیعی داریم که واریانس 30 داره. قراره یک بازه اطمینان با احتمال 99 درصد براش پیدا کنیم. چه کنیم؟
اول از همه چون بازه اطمینان با احتمال 99 درصد میخوایم، پس یعنی:
confidence = 1 - alpha = 0.99 alpha = 0.01
و چون دنبال z_alpha/2 هستیم پس:
alpha/2 = 0.005
در گام بعدی به کمک R میایم z_alpha/2 رو محاسبه میکنیم:
z_alpha/2 = 2.57
حالا با توجه به بازههایی که در مثال قبلی محاسبه کردیم داریم:
حالا یک سوالی پیش میاد.
در اکثر مسائل مقدار واریانس رو نداریم. تو این مواقع چه کنیم؟
فرض کنید دیتایی که داریم از یک توزیع ناشناخته با میانگین تتا یک ناشناخته و واریانس تتا دو ناشناخته میاد. تو این حالت بازه اطمینان رو چطور میشه پیدا کرد؟ دو تا راهکار داریم.
روش اول اینکه بیایم یک حد بالا برای واریانس محاسبه کنیم به طوریکه مطمئن باشیم واریانس جامعه از اون حد بالا کوچیکتره. (روشهای مختلفی وجود داره برای محاسبه این قسمت).
روش دوم اینکه بیایم واریانس رو تخمین بزنیم و بعد بقیه کار رو طبق چیزایی که در دو مثال قبلی دیدیم جلو ببریم.
جزییات تابع MLE رو دیدیم و با تخمینگر بازهای آشنا شدیم و فهمیدیم که چطور میشه به جای یک عدد یک بازه رو برای پارامترهای یک توزیع تخمین زد.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.