آمار نقش اساسی در علم داده دارد و به ما کمک میکند تا دادهها را خلاصه، تحلیل و تفسیر کنیم. در این آموزش، ۷ تابع اصلی آمار را بررسی میکنیم که هر متخصص داده باید آنها را بشناسد.
در پست کاربرد توابع آمار در پایتون میتوانید نحوه استفاده هر تابع را مشاهده کنید .
تعریف: میانگین، متوسط مقادیر یک مجموعه داده است.
محاسبه:
Mean=∑i=1nxinMean=n∑i=1nxi
مثال:
دادهها: [10, 20, 30, 40, 50]
میانگین = (10 + 20 + 30 + 40 + 50) / 5 = 30
کاربرد:
نکته: میانگین به مقادیر پرت (Outliers) حساس است.
تعریف: مقدار وسطی در یک مجموعه داده مرتبشده.
محاسبه:
مثال:
[5, 10, 15, 20, 25] → میانه = ۱۵[5, 10, 15, 20] → میانه = (10 + 15)/2 = 12.5کاربرد:
تعریف: مقداری که بیشترین تکرار را در دادهها دارد.
مثال:
دادهها: [5, 10, 10, 15, 20] → مد = ۱۰
کاربرد:
نکته: یک مجموعه داده میتواند چند مد داشته باشد (چندمُدی).
تعریف: تفاوت بین بزرگترین و کوچکترین مقدار.
محاسبه:
Range=Max−MinRange=Max−Min
مثال:
دادهها: [10, 20, 30, 40, 50] → دامنه = ۵۰ - ۱۰ = ۴۰
کاربرد:
محدودیت: فقط دو نقطه از داده را در نظر میگیرد.
تعریف: میانگین مربع اختلاف هر داده از میانگین.
محاسبه:
σ2=∑i=1n(xi−μ)2nσ2=n∑i=1n(xi−μ)2
مثال:
دادهها: [10, 20, 30, 40, 50] (میانگین = ۳۰)
واریانس = [(10-30)² + (20-30)² + ... + (50-30)²] / 5 = 200
کاربرد:
نکته: واحد آن مربع واحد داده است (مثلاً اگر دادهها بر حسب متر باشند، واریانس بر حسب متر مربع است).
تعریف: جذر واریانس (برای بازگشت به واحد اصلی).
محاسبه:
σ=Varianceσ=Variance
مثال:
واریانس = ۲۰۰ → انحراف معیار ≈ ۱۴.۱۴
کاربرد:
نکته: هرچه انحراف معیار کوچکتر باشد، دادهها به میانگین نزدیکترند.
تعریف: میزان عدم تقارن توزیع دادهها.
انواع:
مثال:
کاربرد: