محجوبه چاوشی
محجوبه چاوشی
خواندن ۳ دقیقه·۵ سال پیش

مدل آماری و تخمین‌گر آماری

تعریف رسمی مدل‌سازی آماری

فرض کنیم یک آزمایش آماری انجام دادیم و مشاهدات ما مجموعه‌ای از n متغیر تصادفی i.i.d هستند. یعنی X1, X2,...,Xn از هم مستقل هستند و همه از توزیع احتمال یکسانی آمده‌اند. این مقادیر در فضای E (که معمولا E⊆R) هستند و توزیع آن‌ها P است. یک مدل آماری از این آزمایش را با دوتایی شکل 1 نشان می‌دهیم.

شکل 1
شکل 1

در این شکل P نشان دهنده‌ی خانواده‌ای از توزیع‌های احتمال مثل برنولی، نرمال، پوآسون و ... است و θ پارامتر توزیع را مشخص می‌کند که می‌تواند یک یا چند بعدی باشد. Θ هم فضای پارامتری است که پارامترهای از آن می‌آیند.

مدل‌سازی برنولی

شکل 2 - مدل سازی آزمایش برنولی
شکل 2 - مدل سازی آزمایش برنولی

همانطور که می‌دانیم متغیرهای برنولی یا صفر هستند و یا یک بنابراین فضای نمونه برابر {0،1} است. همچنین پارامتر توزیع برنولی معمولا با p نشان داده می‌شود و احتمال موفقیت را نمایش می‌دهد. از آنجایی که p یک احتمال است، پس فضای پارامتر هم بین صفر و یک است.

مدل‌سازی پوآسون

شکل 3 - مدل سازی آزمایش پوآسون
شکل 3 - مدل سازی آزمایش پوآسون

مدل‌سازی نرمال

شکل 4 - مدل سازی آزمایش نرمال
شکل 4 - مدل سازی آزمایش نرمال

همانطور که می‎بینید در این مدل‌سازی پارامتر θ دو بعدی و به صورت دوتایی (μ,σ2) است.

آماره یا Statistic

هر تابع قابل اندازه‌گیری از داده‌ها یک آماره است. مثلا توابع زیر همگی آماره هستند.

شکل 5
شکل 5

تخمین‌گرِ (Estimator) پارامتر θ

هر آماره یعنی در حقیقت هر تابعی از داده‌ها که وابسته به θ نیست، یعنی برای محاسبه‌ی آن به مقدار واقعی θ احتیاجی نداریم را تخمین‌گری برای پارامتر θ می‌نامیم. برای اینکه بفهمیم تخمین‌گری به خوبی θ را تخمین می‌زند یا نه لازم است ویژگی‌های خاصی را بررسی کنیم مانند سازگاری و انحراف.

سازگاری (Consistency) یک تخمین‌گر

می‌گوییم تخمین‌گر θ^ برای θ سازگار است اگر و تنها اگر هر چه تعداد نمونه‌ها بیشتر شود، θ^ به مقدار واقعی پارامتر یعنی θ نزدیک شود.

انحراف (Bias) یک تخمین‌گر

شکل 6 - بایاس
شکل 6 - بایاس

صفر بودن انحراف به این معناست که اگر روی جامعه m بار n نمونه بگیریم و θ^ را هر دفعه حساب کنیم، m تا θ^ خواهیم داشت. اگر امید ریاضی θ^ را حساب کنیم برابر همان پارامتری که به دنبال آن هستیم یعنی θ خواهد بود.

خطای میانگین مربعات (MSE) یک تخمین‌گر

شکل 7 - mse
شکل 7 - mse


این مقدار ریسک دوجمله‌ای یا ریسک l2 هم نامیده می‌شود. به طور کلی نشان دهنده‌ی میانگین مربع تفاضل مقدار تخمین زده شده با مقدار واقعی پارامتر است. هر چه این مقدار به صفر نزدیک تر باشد نشان دهنده‌ی بهتربودن تخمین‌گر است.

شکل 7
شکل 7

یادآوری می‌کنم که:

بنابراین در صورتیکه بدانیم تخمین‌گر بدون انحراف است، خطای میانگین مربعات برای تخمین‌گر برابر واریانس آن تخمین‌گر است.

بایاسواریانس
علاقه مند به علوم داده!
شاید از این پست‌ها خوشتان بیاید