چرا در محاسبه واریانس نمونه، از N-1 استفاده میکنیم؟!
Xبار برای ارزیابی µ جمعیت استفاده میشه و واریانس نمونه برای ارزیابی واریانس جمعیت. چون ما همیشه
به همه داده های جمعیت دسترسی نداریم و نمیتونیم با تخمین درستی میانگین حقیقی این داده ها رو اندازه بگیریم پس همیشه µ در دسترس نخواهد بود.
µ و واریانس جمعیت دو پاراممتر هستند که ما بر اساس N جمعیت اونها رو اندازه گیری میکنیم. ( ناشناخته هستند در بیشتر مواقع) برای همین ما با بهترین تخمین که همون Xبار هست میایم یه میانگین رو جایگزین میانگین جمعیت در محاسبات میکنیم.
خب قطعا اینجا مشکل پیش میاد چون ما داریم عدد میانگین نمونه ها رو در فرمول جایگیزین میکنیم ( این عدد کوچک تر از مقدار میانگین واقعی جمعیت هست و میتونه هر عددی باشه) پس اگر مخرج رو n-1 در محاسبه واریانس نمونه در نظر بگیریم، کمکی کردیم به اندکی بزرگ تر شدن واریانس نمونه.
سوال دیگه این میتونه باشه که چرا n-1 چرا n-2 یا هر عدد دیگه به جز یک نمیتونه باشه؟ این موضوع کاملا محاسبات ریاضی داره که اثبات میکنه چرا عدد باید 1 باشه.(https://youtu.be/9ONRMymR2Eg)
یه مفهومی داریم به نام (درجه آزادی): یعنی تعداد مقادیری که بعد از اعمال یک سری شرایط روی کل داده ها، میتوانند تغیر کنند. مثلا اگر ده نمره داشته باشیم که میانگین آنها 50 است، میتوان کاملا ازادانه 9 نمره اول را رندوم هر عددی انتخاب کرد ولی برای نمره دهم باید عددی جایگزین کنیم که مجموع همه این اعداد برابر 50 بشود. یعنی درجه ازادی در این حالت 9 است. حجم نمونه ها منهای یک.
برای همین ما همیشه در مخرج کسر انحراف معیار نمونه، N-1 استفاده میکنیم.