خواندن ۳ دقیقه·۵ سال پیش

مدل آماری و تخمین‌گر آماری

تعریف رسمی مدل‌سازی آماری

فرض کنیم یک آزمایش آماری انجام دادیم و مشاهدات ما مجموعه‌ای از n متغیر تصادفی i.i.d هستند. یعنی X1, X2,...,Xn از هم مستقل هستند و همه از توزیع احتمال یکسانی آمده‌اند. این مقادیر در فضای E (که معمولا E⊆R) هستند و توزیع آن‌ها P است. یک مدل آماری از این آزمایش را با دوتایی شکل 1 نشان می‌دهیم.

در این شکل P نشان دهنده‌ی خانواده‌ای از توزیع‌های احتمال مثل برنولی، نرمال، پوآسون و ... است و θ پارامتر توزیع را مشخص می‌کند که می‌تواند یک یا چند بعدی باشد. Θ هم فضای پارامتری است که پارامترهای از آن می‌آیند.

مدل‌سازی برنولی

همانطور که می‌دانیم متغیرهای برنولی یا صفر هستند و یا یک بنابراین فضای نمونه برابر {0،1} است. همچنین پارامتر توزیع برنولی معمولا با p نشان داده می‌شود و احتمال موفقیت را نمایش می‌دهد. از آنجایی که p یک احتمال است، پس فضای پارامتر هم بین صفر و یک است.

مدل‌سازی پوآسون

مدل‌سازی نرمال

همانطور که می‎بینید در این مدل‌سازی پارامتر θ دو بعدی و به صورت دوتایی (μ,σ2) است.

آماره یا Statistic

هر تابع قابل اندازه‌گیری از داده‌ها یک آماره است. مثلا توابع زیر همگی آماره هستند.

تخمین‌گرِ (Estimator) پارامتر θ

هر آماره یعنی در حقیقت هر تابعی از داده‌ها که وابسته به θ نیست، یعنی برای محاسبه‌ی آن به مقدار واقعی θ احتیاجی نداریم را تخمین‌گری برای پارامتر θ می‌نامیم. برای اینکه بفهمیم تخمین‌گری به خوبی θ را تخمین می‌زند یا نه لازم است ویژگی‌های خاصی را بررسی کنیم مانند سازگاری و انحراف.

سازگاری (Consistency) یک تخمین‌گر

می‌گوییم تخمین‌گر θ^ برای θ سازگار است اگر و تنها اگر هر چه تعداد نمونه‌ها بیشتر شود، θ^ به مقدار واقعی پارامتر یعنی θ نزدیک شود.

انحراف (Bias) یک تخمین‌گر

صفر بودن انحراف به این معناست که اگر روی جامعه m بار n نمونه بگیریم و θ^ را هر دفعه حساب کنیم، m تا θ^ خواهیم داشت. اگر امید ریاضی θ^ را حساب کنیم برابر همان پارامتری که به دنبال آن هستیم یعنی θ خواهد بود.

خطای میانگین مربعات (MSE) یک تخمین‌گر

این مقدار ریسک دوجمله‌ای یا ریسک l2 هم نامیده می‌شود. به طور کلی نشان دهنده‌ی میانگین مربع تفاضل مقدار تخمین زده شده با مقدار واقعی پارامتر است. هر چه این مقدار به صفر نزدیک تر باشد نشان دهنده‌ی بهتربودن تخمین‌گر است.

یادآوری می‌کنم که:

بنابراین در صورتیکه بدانیم تخمین‌گر بدون انحراف است، خطای میانگین مربعات برای تخمین‌گر برابر واریانس آن تخمین‌گر است.

بایاسواریانس

محجوبه چاوشی

علاقه مند به علوم داده!

شاید از این پست‌ها خوشتان بیاید