هانیه مهدوی
هانیه مهدوی
خواندن ۱۰ دقیقه·۱ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه بیستم - تخمین نقطه‌ای و تخمین‌گر Maximum Likelihood

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


در جلسه گذشته با مقدمات آمار آشنا شدیم و فهمیدیم که با احتمال چه تفاوتی داره.

یکی از مواردی که تو بحث آمار برامون مهمه، تخمین پارامترهای توزیع جامعه هست. منظورمون از پارامتر چیه؟ مثلاً میانگین توزیع، واریانس توزیع یا حتی چیزای دیگه.

تو بحث آمار دو تا موضوع مطرحه. یکی آمار پارامتری هست و یکی آمار غیر پارامتری. تو آمار پارامتری فرض می‌کنیم که نمونه‌هایی که داریم از یک توزیع مشخصی میان ولی نمی‌دونیم پارامترهاش چی ان و قراره اون پارامترهارو تخمین بزنیم. تو آمار غیر پارامتری فرضی روی توزیع اولیه نداریم و انتظار داریم که از روی نمونه‌ها به توزیع جامعه برسیم و انتظار هر توزیعی رو داریم. در جلسات آینده با جزییات بیشتر این موضوعات آشنا خواهیم شد.

آمار پارامتری خودش به دو دسته تقسیم میشه:

  • تخمین پارامتری نقطه‌ای: تو این نوع صرفاً یک عدد برای پارامتر توزیع تخمین زده میشه. مثلاً میگیم تخمین می‌زنیم که میانگین توزیع برابر با 15.4 هست. این روش خطای بالایی داره.
  • تخمین پارامتری بازه‌ای: تو این نوع یک بازه برای پارامتر توزیع تخمین می‌زنیم و مطمئن هستیم که مثلاً با احتمال 95 درصد میانگین جامعه تو این بازه قرار می‌گیره. خطا توی این روش کمتره.

در ادامه این جلسه قراره با تخمین پارامتری نقطه‌ای آشنا بشیم.

تخمین پارامتری نقطه‌ای

فرض کنید توزیع جامعه (یا جمعیت) که قراره پارامترهاشو تخمین بزنیم یه پارامتری داره با عنوان ʘ (بخونید تتا). ما هم یک سری داده داریم که قراره از روی اونا پارامتر ʘ^ (بخونید تتا هت) رو به دست بیاریم که تخمینی هست از پارامتر تتای توزیع جامعه. در واقع همون تخمین‌گر نقطه‌ای هست که تو جلسه گذشته با مقدماتش آشنا شدیم.

حالا فرض کنید 10 تا نمونه داریم از X1 تا X10. قراره چند تا تخمین‌گر برای میانگین داشته باشیم و در نهایت ببینیم که کدومشون از همه بهتره.

دو تا تخمین‌گر برای میانگین در نظر گرفتیم و به صورت زیر تعریف شدن:

اگر بیایم امید ریاضی هر دو تخمین‌گر رو محاسبه کنیم می‌بینیم که برابر میشن با µ که برابر هست با میانگین جمعیت. حالا چجوری بفهمیم کدوم تخمین‌گر بهتره؟ چرا اصلاً میگیم تخمین‌گر دوم بهتره؟ کدوم ویژگی تخمین‌گر دوم بهتر از تخمین‌گر اوله؟

معیارهای ارزیابی تخمین‌گر نقطه‌ای

می‌تونیم یک سری معیار تعریف کنیم جهت اینکه تخمین‌گر خوب و بد رو از هم تشخیص بدیم.

اولین معیار کم بودن مقدار واریانس هست. تو همین مثال بالا چون تخمین‌گر دوم واریانس کمتری داره نسبت به تخمین‌گر اول، برای همین می‌تونه تخمین‌گر بهتری باشه.

بعنوان یک مثال دیگه دو توزیع زیر رو جهت تخمین پارامتر ʘ در نظر بگیرید. کدوم توزیع تخمین بهتری هست؟

توزیع قرمز رنگ. چرا؟ چون واریانس کمتری داره و میزان پراکندگی توش کمتره.

معیار دوم برمی‌گرده به اریب (biased) یا نااریب (unbiased) بودن تخمین‌گرها. در جلسه گذشته با تعریف این ویژگی آشنا شدیم و یکی دو تا مثال ازش دیدیم. اگر با زیاد کردن تعداد نمونه‌ها مقدار تخمین‌گر به مقدار پارامتر جمعیت برسه و بهش نزدیک بشه میگیم تخمین‌گر نااریبه و اگر این اتفاق نیفته میگیم تخمین‌گر اریبه. تعریف زیر رو در نظر بگیرید:

در صورتی که B(ʘ^) برابر با 0 بشه، به این معنیه که تخمین‌گر نااریب داریم و امید ریاضی ʘ^ برابر هست با ʘ که پارامتر واقعی جمعیت هست.

تا اینجا گفتیم که تخمین‌گرهایی که واریانس کم و بایاس کم داشته باشن تخمین‌گرهای خوبی هستن. تصویر زیر حالت‌های مختلف از معیارهایی که تا اینجا تعریف کردیم رو نشون میده:

آخرین معیار، متوسط مربع خطا یا Mean Squared Error هست که به صورت زیر تعریف میشه:

حالا بین این سه معیار چه ارتباطی وجود داره؟

از اونجایی که تتا یک عدد ثابته، می‌دونیم که رابطه زیر برقراره:

Var(ʘ^ - ʘ) = Var(ʘ^)

حالا اگر بیایم طبق فرمول واریانس، سمت چپ رو باز کنیم خواهیم داشت:

Var(ʘ^ - ʘ) = E((ʘ^ - ʘ)^2) - (E(ʘ^ - ʘ))^2 Var(ʘ^ - ʘ) = MSE(ʘ^) - B(ʘ^)^2 = Var(ʘ^) MSE(ʘ^) = Var(ʘ^) + B(ʘ^)^2

برگردیم به همون مثال یکم بالاتر و بایاس و MSE رو براش بررسی کنیم.

گفتیم که دو تا تخمین‌گر برای میانگین جمعیت در نظر گرفته شده و به صورت زیر هست:

از نظر بایاس تفاوتی در دو تخمین‌گر نیست و هر دو یکسان عمل می‌کنن و مقدار بایاس در هر دو تخمین‌گر برابر با صفر میشه.

از نظر واریانس مقادیر دو تخمین‌گر به صورت زیر به دست میان:

که نشون میده تخمین‌گر دوم واریانس کمتری داره، پس بهتره.

در مورد MSE هم، چون بایاس در هر دو یکسانه و برابر با 0 هست، پس هرچی واریانس کمتر باشه، میزان MSE هم کمتره. پس تخمین‌گر دوم MSE کمتری داره.

البته یک نکته‌ی مهمی اینجا وجود داره. لزوماً تخمین‌گر دوم تخمین‌گر بهتری نیست. ممکنه در شرایطی با توجه به نیازمون تخمین‌گر اول بهتر به نیاز ما جواب بده. این موضوع خیلی بستگی داره به نوع مسئله‌ای که باهاش روبرو هستیم و نیازی که داریم.

حالا یه سوال. تو همین مثالی که دیدیم آیا میشه یه تخمین‌گر سومی ارائه داد که واریانس صفر داشته باشه ولی بایاسش غیر صفر باشه؟

بله. هر عدد ثابتی این ویژگی رو داره. مثلاً می‌تونیم تخمین‌گر سوم رو برابر با عدد 19 در نظر بگیریم.

معیار چهارم، سازگاری

تا به اینجا با سه معیار برای تخمین‌گرهای نقطه‌ای آشنا شدیم، اما یک معیار چهارمی هم وجود داره و عنوانش برابر هست با سازگاری.

اگر یک دنباله از تخمین‌گرها داشته باشیم:

ʘ^1, ʘ^2, ..., ʘ^n

باید به ازای هر e > 0 حد زیر برقرار باشه:

lim P(|ʘ^n - ʘ| ⩾ e) = 0, when n→∞

حد بالا چی داره میگه؟ داره میگه وقتی n به سمت بی‌نهایت میل می‌کنه (یعنی تعداد نمونه‌های تخمین‌گر بیشتر بشه)، باید فاصله تخمین‌گر از پارامتر واقعی جمعیت از خطای e کمتر بشه. به عبارتی دیگه، وقتی n رو داریم بیشتر می‌کنیم، انتظار داریم که تخمین‌گر به پارامتر جمعیت برسه.

ممکنه سوال پیش بیاد که منظور از دنباله تخمین‌گرها چیه؟ یک مثال ازش در تصویر زیر آورده شده:

در ادامه بریم یک مثال ببینیم و معیارهای مختلف رو براش بررسی کنیم.

فرض کنید تخمین‌گری که داریم به صورت زیر تعریف شده و قراره باهاش پارامتر میانگین رو تخمین بزنیم:

حالا بیایم معیارهای مختلف رو براش بررسی کنیم.

در مورد بایاس داریم:

چون برابر با صفر نیست پس نااریب نیست.

در مورد سازگاری با استفاده از قانون اعداد بزرگ یا نامساوی چبیشف که در جلسات گذشته باهاشون آشنا شدیم میشه نشون داد که رابطه زیر در موردش برقراره و تخمین‌گر سازگار هست:

lim P(|ʘ^n - ʘ| ⩾ e) = 0, when n→∞

حالا یه سوالی. آیا میشه تخمین‌گری داشت که نااریب باشه ولی سازگار نباشه؟ دقیقاً برعکس این مثالی که دیدیم. بله:

ʘ^n = Xn

یک مثال دیگه رو در ادامه ببینیم.

فرض کنید قراره پارامتر لامبدا از توزیع پوآسون رو تخمین بزنیم و سه تا تخمین‌گر به صورت زیر براش در نظر گرفتیم:

تخمین‌گر اول میانگین همه نمونه‌هاست. تخمین‌گر دوم میانگین 5 تا نمونه اوله و تخمین‌گر سوم واریانس تجربی همه نمونه‌هاست. منظور از واریانس تجربی، واریانسی هست که تو مخرج تعداد نمونه‌هارو داریم نه تعداد نمونه‌ها منهای یک.

نتیجه سه تخمین‌گر به صورت زیر در اومده و خط سبز هم نشون دهنده مقدار لامبدای جمعیت هست:

دو تخمین‌گر اول و دوم بایاس ندارن ولی واریانس تخمین‌گر اول از تخمین‌گر دوم کمتره. تخمین‌گر سوم هم بایاس داره هم اینکه واریانسش نسبت به دو تخمین‌گر دیگه خیلی بیشتره.

در جلسه گذشته دیدیم که تخمین‌گری که برای واریانس خوب کار می‌کنه به صورت زیر تعریف میشه:

در ادامه این جلسه اثبات میشه که تخمین‌گر تجربی واریانس (همون تخمین‌گری که به جای n-1 در مخرج n داره) اریبه و میزان اریب بودنش هم به دست میاد. در جلسه گذشته به صورت شهودی این دو تخمین‌گر رو باهم مقایسه کردیم. از آوردن اثبات این بخش صرف نظر شده ولی اگر علاقه‌مند هستین که جزییات بیشتری در این خصوص به دست بیارید به دقیقه 49 تا 57 از ویدیو این جلسه مراجعه کنید.

تخمین‌گر Maximum Likelihood

اگر به مباحث یادگیری ماشین علاقه‌مند هستین، از این جا به بعد رو خیلی جدی‌تر دنبال کنید. یکی از پایه‌ای‌ترین مباحث در یادگیری ماشین تخمین‌گر Maximum Likelihood هست که در ادامه این جلسه قراره جزییاتش رو بررسی کنیم.

تا به اینجای این جلسه اومدیم در مورد معیارهای ارزیابی یک تخمین‌گر خوب صحبت کردیم، اما سوالی که پیش میاد اینکه اصلاً چطور میشه یک تخمین‌گر رو به دست آورد تا بعد این معیارهارو در موردش بررسی کرد؟

فرض کنید یک سری دیتا داریم که می‌دونیم از توزیع پوآسون اومده ولی پارامترهای اون توزیع رو نمی‌دونیم و قراره تخمین بزنیم.

قراره چیکار کنیم؟ قراره پارامتر تتایی رو به دست بیاریم که باعث بشه احتمال دیدن داده‌هایی که بهمون دادن با این پارامتر بیشینه بشه.

داده‌های زیر رو در نظر بگیرید و فرض کنید که از یک توزیع پوآسون اومده:

Data = [5, 7, 13, 2, 18]

حالا دو تا لامبدا براش در نظر بگیرید:

با توجه به داده‌هایی که بهمون داده شده، کدوم یکی از لامبداها می‌تونه پارامتر این توزیع باشه؟ لامبدایی که مقدارش برابر با 10 هست. چرا؟ چون با این مقدار لامبدا مقادیر 5 و 7 و 13و 2 و 18 با احتمال بیشتری دیده میشن.

روش تخمین Maximum Likelihood هم در حالت گسسته هم در حالت پیوسته قابل استفاده است. تو حالت گسسته در واقع جرم احتمال توزیع رو می‌خوایم بیشینه کنیم و تو حالت پیوسته می‌خوایم چگالی احتمال توزیع رو بیشینه کنیم.

برای حالت گسسته مثال زیر رو در نظر بگیرید. فرض کنید ضربدرها نمونه‌های ما هستن و دو تا توزیع رو از روشون رد کردیم. کدوم یکی از توزیع‌ها جرم احتمال رو بیشینه می‌کنه؟ همونطور که از نمودارها هم مشخصه توزیع پایینی این ویژگی رو داره و مساحت بیشتری رو در بر می‌گیره.

تابع likelihood برای حالت گسسته به صورت زیر تعریف میشه:

و برای حالت پیوسته به صورت زیر تعریف میشه:

تو این تعریف ما دیتا رو داریم و دنبال تتا هستیم.

در ادامه یک مثال رو بررسی می‌کنیم.

فرض کنید دیتایی که بهمون دادن از توزیع پوآسون اومده و به صورت زیره:

قراره چیکار کنیم؟ قراره بیایم مقادیر مختلف رو برای لامبدا در نظر بگیریم، بعد احتمال دیدن هر کدوم از دیتاپوینت‌هارو به ازای اون لامبدای خاص محاسبه کنیم و در نهایت چون دیتاپوینت‌ها از هم مستقل در نظر گرفته شدن، احتمال هر دیتاپوینت رو در خود دیتاپوینت ضرب کنیم و باهم جمع کنیم. این عددی که در نهایت به دست میاد برابره با likelihood به ازای اون لامبدا.

برای لامبدا مقادیر 0 تا 30 رو در نظر گرفتیم و بعد از محاسبه likelihood به ازای هر لامبدا نمودار زیر به دست میاد:

حالا likelihood کجا بیشینه شده؟ وقتی تتا (تو این مثال تتا برابر با پارامتر لامبدا بود) نزدیک 14 شده.

اگر یه تابعی یه جا بیشینه بشه، لگاریتم اون تابع هم تو اون نقطه بیشینه میشه. پس اگر بیایم لگاریتم likelihood رو محاسبه کنیم نمودارش به صورت زیر میشه:

در جلسه بعدی جزییات بیشتری در مورد تخمین‌گر Maximum Likelihood رو ارائه خواهیم داد.

جمع‌بندی مطالب ارائه شده

با تخمین پارامتری نقطه‌ای آشنا شدیم و جزییاتش رو دیدیم. همچنین، دیدیم که برای ارزیابی یک پارامتر نقطه‌ای چه معیارهایی وجود داره و در نهایت، تعریف تابع likelihood رو دیدیم و اینکه بیشینه شدنش چه مفهومی داره.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه نوزدهم)

جزوه جلسه بعدی (جلسه بیست‌ویکم)

تخمین نقطه‌ایlikelihoodMaximum Likelihood Estimationmaximum likelihoodتخمین‌گر
من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید