ویرگول
ورودثبت نام
DataCraft Studio
DataCraft Studio
DataCraft Studio
DataCraft Studio
خواندن ۲ دقیقه·۷ ماه پیش

7 تابع اصلی آمار در علم داده با پایتون

آمار نقش اساسی در علم داده دارد و به ما کمک میکند تا دادهها را خلاصه، تحلیل و تفسیر کنیم. در این آموزش، ۷ تابع اصلی آمار را بررسی میکنیم که هر متخصص داده باید آنها را بشناسد.

در پست کاربرد توابع آمار در پایتون میتوانید نحوه استفاده هر تابع را مشاهده کنید .

۱. میانگین (Mean)

تعریف: میانگین، متوسط مقادیر یک مجموعه داده است.
محاسبه:

Mean=∑i=1nxinMean=n∑i=1n​xi​​

مثال:
دادهها: [10, 20, 30, 40, 50]
میانگین = (10 + 20 + 30 + 40 + 50) / 5 = 30

کاربرد:

  • برای یافتن مرکزیت دادهها در توزیع نرمال.
  • در مدلسازی و پیشبینی (مثلاً رگرسیون خطی).

نکته: میانگین به مقادیر پرت (Outliers) حساس است.

۲. میانه (Median)

تعریف: مقدار وسطی در یک مجموعه داده مرتبشده.
محاسبه:

  • اگر تعداد دادهها فرد باشد: مقدار وسط.
  • اگر زوج باشد: میانگین دو مقدار وسط.

مثال:

  • دادهها: [5, 10, 15, 20, 25] → میانه = ۱۵
  • دادهها: [5, 10, 15, 20] → میانه = (10 + 15)/2 = 12.5

کاربرد:

  • مقاوم در برابر دادههای پرت (بهتر از میانگین برای توزیعهای نامتقارن).
  • در تحلیل حقوق و درآمد (که اغلب چوله است).

۳. مد (Mode)

تعریف: مقداری که بیشترین تکرار را در دادهها دارد.
مثال:
دادهها: [5, 10, 10, 15, 20] → مد = ۱۰

کاربرد:

  • برای دادههای طبقهبندیشده (مانند رنگهای پرطرفدار).
  • در تحلیل فروش محصولات پرفروش.

نکته: یک مجموعه داده میتواند چند مد داشته باشد (چندمُدی).

۴. دامنه (Range)

تعریف: تفاوت بین بزرگترین و کوچکترین مقدار.
محاسبه:

Range=Max−MinRange=Max−Min

مثال:
دادهها: [10, 20, 30, 40, 50] → دامنه = ۵۰ - ۱۰ = ۴۰

کاربرد:

  • نشاندهنده پراکندگی کلی دادهها.
  • در کنترل کیفیت (مثلاً تغییرات دمای یک فرآیند).

محدودیت: فقط دو نقطه از داده را در نظر میگیرد.

۵. واریانس (Variance)

تعریف: میانگین مربع اختلاف هر داده از میانگین.
محاسبه:

σ2=∑i=1n(xi−μ)2nσ2=n∑i=1n​(xi​−μ)2​

مثال:
دادهها: [10, 20, 30, 40, 50] (میانگین = ۳۰)
واریانس = [(10-30)² + (20-30)² + ... + (50-30)²] / 5 = 200

کاربرد:

  • سنجش پراکندگی دادهها حول میانگین.
  • در یادگیری ماشین برای بهینهسازی مدلها.

نکته: واحد آن مربع واحد داده است (مثلاً اگر دادهها بر حسب متر باشند، واریانس بر حسب متر مربع است).

۶. انحراف معیار (Standard Deviation)

تعریف: جذر واریانس (برای بازگشت به واحد اصلی).
محاسبه:

σ=Varianceσ=Variance​

مثال:
واریانس = ۲۰۰ → انحراف معیار ≈ ۱۴.۱۴

کاربرد:

  • تفسیر راحتتر پراکندگی نسبت به واریانس.
  • در تحلیل ریسک مالی (نوسانات بازار).

نکته: هرچه انحراف معیار کوچکتر باشد، دادهها به میانگین نزدیکترند.

۷. چولگی (Skewness)

تعریف: میزان عدم تقارن توزیع دادهها.
انواع:

  • چولگی مثبت (راستگرد): دم دادهها به سمت راست کشیده شده (میانه < میانگین).
  • چولگی منفی (چپگرد): دم دادهها به سمت چپ کشیده شده (میانه > میانگین).
  • متقارن (صفر): توزیع نرمال (میانه = میانگین).

مثال:

  • درآمد افراد: معمولاً چوله به راست (تعداد کمی درآمد بسیار بالا دارند).
  • نمرات امتحان آسان: چوله به چپ (اکثر نمرات بالا هستند).

کاربرد:

  • تشخیص نرمال بودن دادهها برای مدلسازی.
  • در تحلیل بازارهای مالی و رفتار مشتریان.






تفسیربازارهای مالیرگرسیون خطیفروش محصولاتیادگیری ماشین
۰
۰
DataCraft Studio
DataCraft Studio
شاید از این پست‌ها خوشتان بیاید