منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
در جلسه گذشته با مقدمات آمار آشنا شدیم و فهمیدیم که با احتمال چه تفاوتی داره.
یکی از مواردی که تو بحث آمار برامون مهمه، تخمین پارامترهای توزیع جامعه هست. منظورمون از پارامتر چیه؟ مثلاً میانگین توزیع، واریانس توزیع یا حتی چیزای دیگه.
تو بحث آمار دو تا موضوع مطرحه. یکی آمار پارامتری هست و یکی آمار غیر پارامتری. تو آمار پارامتری فرض میکنیم که نمونههایی که داریم از یک توزیع مشخصی میان ولی نمیدونیم پارامترهاش چی ان و قراره اون پارامترهارو تخمین بزنیم. تو آمار غیر پارامتری فرضی روی توزیع اولیه نداریم و انتظار داریم که از روی نمونهها به توزیع جامعه برسیم و انتظار هر توزیعی رو داریم. در جلسات آینده با جزییات بیشتر این موضوعات آشنا خواهیم شد.
آمار پارامتری خودش به دو دسته تقسیم میشه:
در ادامه این جلسه قراره با تخمین پارامتری نقطهای آشنا بشیم.
فرض کنید توزیع جامعه (یا جمعیت) که قراره پارامترهاشو تخمین بزنیم یه پارامتری داره با عنوان ʘ (بخونید تتا). ما هم یک سری داده داریم که قراره از روی اونا پارامتر ʘ^ (بخونید تتا هت) رو به دست بیاریم که تخمینی هست از پارامتر تتای توزیع جامعه. در واقع همون تخمینگر نقطهای هست که تو جلسه گذشته با مقدماتش آشنا شدیم.
حالا فرض کنید 10 تا نمونه داریم از X1 تا X10. قراره چند تا تخمینگر برای میانگین داشته باشیم و در نهایت ببینیم که کدومشون از همه بهتره.
دو تا تخمینگر برای میانگین در نظر گرفتیم و به صورت زیر تعریف شدن:
اگر بیایم امید ریاضی هر دو تخمینگر رو محاسبه کنیم میبینیم که برابر میشن با µ که برابر هست با میانگین جمعیت. حالا چجوری بفهمیم کدوم تخمینگر بهتره؟ چرا اصلاً میگیم تخمینگر دوم بهتره؟ کدوم ویژگی تخمینگر دوم بهتر از تخمینگر اوله؟
میتونیم یک سری معیار تعریف کنیم جهت اینکه تخمینگر خوب و بد رو از هم تشخیص بدیم.
اولین معیار کم بودن مقدار واریانس هست. تو همین مثال بالا چون تخمینگر دوم واریانس کمتری داره نسبت به تخمینگر اول، برای همین میتونه تخمینگر بهتری باشه.
بعنوان یک مثال دیگه دو توزیع زیر رو جهت تخمین پارامتر ʘ در نظر بگیرید. کدوم توزیع تخمین بهتری هست؟
توزیع قرمز رنگ. چرا؟ چون واریانس کمتری داره و میزان پراکندگی توش کمتره.
معیار دوم برمیگرده به اریب (biased) یا نااریب (unbiased) بودن تخمینگرها. در جلسه گذشته با تعریف این ویژگی آشنا شدیم و یکی دو تا مثال ازش دیدیم. اگر با زیاد کردن تعداد نمونهها مقدار تخمینگر به مقدار پارامتر جمعیت برسه و بهش نزدیک بشه میگیم تخمینگر نااریبه و اگر این اتفاق نیفته میگیم تخمینگر اریبه. تعریف زیر رو در نظر بگیرید:
در صورتی که B(ʘ^) برابر با 0 بشه، به این معنیه که تخمینگر نااریب داریم و امید ریاضی ʘ^ برابر هست با ʘ که پارامتر واقعی جمعیت هست.
تا اینجا گفتیم که تخمینگرهایی که واریانس کم و بایاس کم داشته باشن تخمینگرهای خوبی هستن. تصویر زیر حالتهای مختلف از معیارهایی که تا اینجا تعریف کردیم رو نشون میده:
آخرین معیار، متوسط مربع خطا یا Mean Squared Error هست که به صورت زیر تعریف میشه:
حالا بین این سه معیار چه ارتباطی وجود داره؟
از اونجایی که تتا یک عدد ثابته، میدونیم که رابطه زیر برقراره:
Var(ʘ^ - ʘ) = Var(ʘ^)
حالا اگر بیایم طبق فرمول واریانس، سمت چپ رو باز کنیم خواهیم داشت:
Var(ʘ^ - ʘ) = E((ʘ^ - ʘ)^2) - (E(ʘ^ - ʘ))^2 Var(ʘ^ - ʘ) = MSE(ʘ^) - B(ʘ^)^2 = Var(ʘ^) MSE(ʘ^) = Var(ʘ^) + B(ʘ^)^2
برگردیم به همون مثال یکم بالاتر و بایاس و MSE رو براش بررسی کنیم.
گفتیم که دو تا تخمینگر برای میانگین جمعیت در نظر گرفته شده و به صورت زیر هست:
از نظر بایاس تفاوتی در دو تخمینگر نیست و هر دو یکسان عمل میکنن و مقدار بایاس در هر دو تخمینگر برابر با صفر میشه.
از نظر واریانس مقادیر دو تخمینگر به صورت زیر به دست میان:
که نشون میده تخمینگر دوم واریانس کمتری داره، پس بهتره.
در مورد MSE هم، چون بایاس در هر دو یکسانه و برابر با 0 هست، پس هرچی واریانس کمتر باشه، میزان MSE هم کمتره. پس تخمینگر دوم MSE کمتری داره.
البته یک نکتهی مهمی اینجا وجود داره. لزوماً تخمینگر دوم تخمینگر بهتری نیست. ممکنه در شرایطی با توجه به نیازمون تخمینگر اول بهتر به نیاز ما جواب بده. این موضوع خیلی بستگی داره به نوع مسئلهای که باهاش روبرو هستیم و نیازی که داریم.
حالا یه سوال. تو همین مثالی که دیدیم آیا میشه یه تخمینگر سومی ارائه داد که واریانس صفر داشته باشه ولی بایاسش غیر صفر باشه؟
بله. هر عدد ثابتی این ویژگی رو داره. مثلاً میتونیم تخمینگر سوم رو برابر با عدد 19 در نظر بگیریم.
تا به اینجا با سه معیار برای تخمینگرهای نقطهای آشنا شدیم، اما یک معیار چهارمی هم وجود داره و عنوانش برابر هست با سازگاری.
اگر یک دنباله از تخمینگرها داشته باشیم:
ʘ^1, ʘ^2, ..., ʘ^n
باید به ازای هر e > 0 حد زیر برقرار باشه:
lim P(|ʘ^n - ʘ| ⩾ e) = 0, when n→∞
حد بالا چی داره میگه؟ داره میگه وقتی n به سمت بینهایت میل میکنه (یعنی تعداد نمونههای تخمینگر بیشتر بشه)، باید فاصله تخمینگر از پارامتر واقعی جمعیت از خطای e کمتر بشه. به عبارتی دیگه، وقتی n رو داریم بیشتر میکنیم، انتظار داریم که تخمینگر به پارامتر جمعیت برسه.
ممکنه سوال پیش بیاد که منظور از دنباله تخمینگرها چیه؟ یک مثال ازش در تصویر زیر آورده شده:
در ادامه بریم یک مثال ببینیم و معیارهای مختلف رو براش بررسی کنیم.
فرض کنید تخمینگری که داریم به صورت زیر تعریف شده و قراره باهاش پارامتر میانگین رو تخمین بزنیم:
حالا بیایم معیارهای مختلف رو براش بررسی کنیم.
در مورد بایاس داریم:
چون برابر با صفر نیست پس نااریب نیست.
در مورد سازگاری با استفاده از قانون اعداد بزرگ یا نامساوی چبیشف که در جلسات گذشته باهاشون آشنا شدیم میشه نشون داد که رابطه زیر در موردش برقراره و تخمینگر سازگار هست:
lim P(|ʘ^n - ʘ| ⩾ e) = 0, when n→∞
حالا یه سوالی. آیا میشه تخمینگری داشت که نااریب باشه ولی سازگار نباشه؟ دقیقاً برعکس این مثالی که دیدیم. بله:
ʘ^n = Xn
یک مثال دیگه رو در ادامه ببینیم.
فرض کنید قراره پارامتر لامبدا از توزیع پوآسون رو تخمین بزنیم و سه تا تخمینگر به صورت زیر براش در نظر گرفتیم:
تخمینگر اول میانگین همه نمونههاست. تخمینگر دوم میانگین 5 تا نمونه اوله و تخمینگر سوم واریانس تجربی همه نمونههاست. منظور از واریانس تجربی، واریانسی هست که تو مخرج تعداد نمونههارو داریم نه تعداد نمونهها منهای یک.
نتیجه سه تخمینگر به صورت زیر در اومده و خط سبز هم نشون دهنده مقدار لامبدای جمعیت هست:
دو تخمینگر اول و دوم بایاس ندارن ولی واریانس تخمینگر اول از تخمینگر دوم کمتره. تخمینگر سوم هم بایاس داره هم اینکه واریانسش نسبت به دو تخمینگر دیگه خیلی بیشتره.
در جلسه گذشته دیدیم که تخمینگری که برای واریانس خوب کار میکنه به صورت زیر تعریف میشه:
در ادامه این جلسه اثبات میشه که تخمینگر تجربی واریانس (همون تخمینگری که به جای n-1 در مخرج n داره) اریبه و میزان اریب بودنش هم به دست میاد. در جلسه گذشته به صورت شهودی این دو تخمینگر رو باهم مقایسه کردیم. از آوردن اثبات این بخش صرف نظر شده ولی اگر علاقهمند هستین که جزییات بیشتری در این خصوص به دست بیارید به دقیقه 49 تا 57 از ویدیو این جلسه مراجعه کنید.
اگر به مباحث یادگیری ماشین علاقهمند هستین، از این جا به بعد رو خیلی جدیتر دنبال کنید. یکی از پایهایترین مباحث در یادگیری ماشین تخمینگر Maximum Likelihood هست که در ادامه این جلسه قراره جزییاتش رو بررسی کنیم.
تا به اینجای این جلسه اومدیم در مورد معیارهای ارزیابی یک تخمینگر خوب صحبت کردیم، اما سوالی که پیش میاد اینکه اصلاً چطور میشه یک تخمینگر رو به دست آورد تا بعد این معیارهارو در موردش بررسی کرد؟
فرض کنید یک سری دیتا داریم که میدونیم از توزیع پوآسون اومده ولی پارامترهای اون توزیع رو نمیدونیم و قراره تخمین بزنیم.
قراره چیکار کنیم؟ قراره پارامتر تتایی رو به دست بیاریم که باعث بشه احتمال دیدن دادههایی که بهمون دادن با این پارامتر بیشینه بشه.
دادههای زیر رو در نظر بگیرید و فرض کنید که از یک توزیع پوآسون اومده:
Data = [5, 7, 13, 2, 18]
حالا دو تا لامبدا براش در نظر بگیرید:
با توجه به دادههایی که بهمون داده شده، کدوم یکی از لامبداها میتونه پارامتر این توزیع باشه؟ لامبدایی که مقدارش برابر با 10 هست. چرا؟ چون با این مقدار لامبدا مقادیر 5 و 7 و 13و 2 و 18 با احتمال بیشتری دیده میشن.
روش تخمین Maximum Likelihood هم در حالت گسسته هم در حالت پیوسته قابل استفاده است. تو حالت گسسته در واقع جرم احتمال توزیع رو میخوایم بیشینه کنیم و تو حالت پیوسته میخوایم چگالی احتمال توزیع رو بیشینه کنیم.
برای حالت گسسته مثال زیر رو در نظر بگیرید. فرض کنید ضربدرها نمونههای ما هستن و دو تا توزیع رو از روشون رد کردیم. کدوم یکی از توزیعها جرم احتمال رو بیشینه میکنه؟ همونطور که از نمودارها هم مشخصه توزیع پایینی این ویژگی رو داره و مساحت بیشتری رو در بر میگیره.
تابع likelihood برای حالت گسسته به صورت زیر تعریف میشه:
و برای حالت پیوسته به صورت زیر تعریف میشه:
تو این تعریف ما دیتا رو داریم و دنبال تتا هستیم.
در ادامه یک مثال رو بررسی میکنیم.
فرض کنید دیتایی که بهمون دادن از توزیع پوآسون اومده و به صورت زیره:
قراره چیکار کنیم؟ قراره بیایم مقادیر مختلف رو برای لامبدا در نظر بگیریم، بعد احتمال دیدن هر کدوم از دیتاپوینتهارو به ازای اون لامبدای خاص محاسبه کنیم و در نهایت چون دیتاپوینتها از هم مستقل در نظر گرفته شدن، احتمال هر دیتاپوینت رو در خود دیتاپوینت ضرب کنیم و باهم جمع کنیم. این عددی که در نهایت به دست میاد برابره با likelihood به ازای اون لامبدا.
برای لامبدا مقادیر 0 تا 30 رو در نظر گرفتیم و بعد از محاسبه likelihood به ازای هر لامبدا نمودار زیر به دست میاد:
حالا likelihood کجا بیشینه شده؟ وقتی تتا (تو این مثال تتا برابر با پارامتر لامبدا بود) نزدیک 14 شده.
اگر یه تابعی یه جا بیشینه بشه، لگاریتم اون تابع هم تو اون نقطه بیشینه میشه. پس اگر بیایم لگاریتم likelihood رو محاسبه کنیم نمودارش به صورت زیر میشه:
در جلسه بعدی جزییات بیشتری در مورد تخمینگر Maximum Likelihood رو ارائه خواهیم داد.
با تخمین پارامتری نقطهای آشنا شدیم و جزییاتش رو دیدیم. همچنین، دیدیم که برای ارزیابی یک پارامتر نقطهای چه معیارهایی وجود داره و در نهایت، تعریف تابع likelihood رو دیدیم و اینکه بیشینه شدنش چه مفهومی داره.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.