ویرگول
ورودثبت نام
ایمان محدثی
ایمان محدثی
ایمان محدثی
ایمان محدثی
خواندن ۴ دقیقه·۷ روز پیش

مطلب پانزدهم از علم داده :معیارهای پراکندگی

معیارهای پراکندگی در علم داده؛ چرا میانگین به تنهایی کافی نیست؟

حتماً برایتان پیش آمده که میانگین یک مجموعه داده را محاسبه کرده‌اید، اما بعداً متوجه شده‌اید که این میانگین اصلاً وضعیت واقعی داده‌ها را نشان نمی‌دهد. چرا؟ چون میانگین به تنهایی واقعیت را نمی‌گوید یا حداقل می‌تواند گمراه‌کننده باشد.

در علم داده، ما فقط نمی‌خواهیم بدانیم مرکز داده کجاست، بلکه می‌خواهیم بدانیم داده‌ها چقدر از این مرکز فاصله و پراکندگی دارند. اینجاست که معیارهای پراکندگی به ما واقعیت بیشتری از داده ها را خواهد گفت.

در این مطلب، با مفاهیم دامنه تغییرات (Range)، واریانس (Variance)، انحراف معیار (Standard Deviation) و ضریب تغییرات (Coefficient of Variation) آشنا می‌شوید و یاد می‌گیرید چرا این مفاهیم برای درک ریسک، عدم اطمینان و قابلیت اعتماد داده‌ها ضروری هستند.

چرا فقط میانگین کافی نیست؟ یک مثال ساده

دو مجموعه داده زیر را در نظر بگیرید:

میانگین هر دو مجموعه برابر با ۷۰ است! اما آیا این دو مجموعه شبیه هم هستند؟ قطعاً نه.

در مجموعه A ، پراکندگی زیاد است: یک دانشجو ۳۰ نمره پایین‌تر و یک دانشجو ۳۰ نمره بالاتر از میانگین گرفته است.

در مجموعه B ، پراکندگی کم است: همه نمرات نزدیک میانگین (۷۰) قرار دارند.

اگر فقط میانگین را بدانید، تصور می‌کنید هر دو کلاس وضعیت مشابهی دارند، اما استراتژی تدریس شما برای این دو کلاس باید کاملاً متفاوت باشد. پس میانگین به تنهایی کافی نیست؛ به معیارهای پراکندگی نیاز داریم.

فرض کنید من به شما بگویم میانگین قد افراد در این اتاق ۱۷۰ سانتی‌متر است. آیا این اطلاعات به تنهایی برای شما مفید است؟ خیر!

اگر پراکندگی قدها کم باشد همه بین ۱۶۵ تا ۱۷۵، میانگین قابل اعتماد است.

 اما اگر پراکندگی زیاد باشد هم شخصی با قد ۱۴۰ و هم شخصی با قد ۲۰۰ در اتاق باشد، میانگین ۱۷۰ دیگر هیچ معنی واقعی ندارد.

در علم داده، پراکندگی معیاری برای سنجش ریسک، عدم اطمینان و قابلیت اعتماد است. بدون فهمیدن پراکندگی، تصمیمات ما مثل رانندگی با چشم بسته است.

سه معیار اصلی پراکندگی

1-  دامنه تغییرات (Range)

ساده‌ترین معیار پراکندگی است:

فرمول : دامنه تغییرات = بزرگ‌ترین مقدار – کوچک‌ترین مقدار (Max - Min)

مزایا: محاسبه آسان و فهم سریع از گستردگی داده.

معایب: فقط از دو مقدار داده (بزرگترین و کوچکترین) استفاده می‌کند و به شدت تحت تأثیر داده‌های پرت قرار می‌گیرد.

مثال: برای نمرات زیست‌شناسی (40، 70، 100)، دامنه تغییرات برابر ۶۰ است. برای نمرات آمار (69، 70، 71)، دامنه تغییرات برابر ۲ است. این اعداد به وضوح نشان می‌دهند که پراکندگی در مجموعه B خیلی کمتر است.

A) Max – Min = 100 – 40 = 60

B) Max – Min = 71 – 69 = 2

2- واریانس (Variance)

واریانس میانگین مجذور انحراف‌ها از میانگین است. هرچه داده‌ها بیشتر از میانگین فاصله داشته باشند، واریانس بزرگ‌تر خواهد بود.

کاربرد عملی: مشاوران مالی از واریانس برای اندازه‌گیری نوسانات یک سرمایه‌گذاری استفاده می‌کنند. سرمایه‌گذاران محتاط، سرمایه‌گذاری‌هایی با واریانس کم (نوسان پایین) را ترجیح می‌دهند.

فرمول واریانس نمونه (s²):

فرمول واریانس جامعه (σ²):

چرا در واریانس نمونه از n-1 استفاده می‌کنیم؟ چون استفاده از n-1 در مخرج، بهترین تخمین را از واریانس جامعه به ما می‌دهد. در بسیاری از کاربردهای علم داده، داده‌های جامعه در دسترس نیستند، بنابراین واریانس نمونه را محاسبه می‌کنیم.

3- انحراف معیار (Standard Deviation)

انحراف معیار، جذر واریانس است. مهم‌ترین مزیت آن نسبت به واریانس این است که با همان واحدهای داده اصلی اندازه‌گیری می‌شود. مثلاً اگر داده‌ها سن بر حسب سال باشند، انحراف معیار هم بر حسب سال است.

فرمول انحراف معیار نمونه (s):

انحراف معیار کوچک: داده‌ها نزدیک میانگین متمرکز شده‌اند، پراکندگی کم است.

انحراف معیار بزرگ: داده‌ها از میانگین فاصله دارند، پراکندگی زیاد است.

مثال سرمایه‌گذاری:  دو صندوق، میانگین بازدهی سالانه ۱۵٪ دارند. صندوقی را انتخاب می‌کنید که انحراف معیار (ریسک) کمتری داشته باشد، یعنی بازدهی آن پایدارتر و نزدیک به ۱۵٪ باشد.

مثال کنترل کیفیت: کارخانه لامپ‌سازی ادعای میانگین عمر ۱۰۰۰ ساعت دارد. اگر انحراف معیار کم باشد، همه لامپ‌ها حدود ۱۰۰۰ ساعت کار می‌کنند (قابل اعتماد). اگر انحراف معیار زیاد باشد، یک لامپ ۱۰۰ ساعت و دیگری ۲۰۰۰ ساعت عمر می‌کند (غیرقابل اعتماد).

4- ضریب تغییرات (Coefficient of Variation - CV)

گاهی می‌خواهیم پراکندگی دو مجموعه داده را مقایسه کنیم که واحدهای اندازه‌گیری متفاوتی دارند یا میانگین‌هایشان خیلی با هم فرق دارد. در این موارد از ضریب تغییرات استفاده می‌کنیم.

فرمول:

ضریب تغییرات نشان می‌دهد که انحراف معیار چند درصد از میانگین است.

مثال: مقایسه دو شرکت با میانگین حقوق متفاوت:

شرکت: A میانگین 68,000 دلار، انحراف معیار 9,200 دلار در نتیجه با قرار دادن در فرمول ضریب تغییرات    CV(A) = 13.5%

شرکت: B میانگین 71,000 دلار، انحراف معیار 6,400 دلار در نتیجه با قرار دادن در فرمول ضریب تغییرات     CV(B) = 9.0%

نتیجه: شرکت A نسبت به میانگین خود، تغییرات بیشتری در حقوق کارمندانش دارد.

جمع‌بندی نهایی

معیارهای پراکندگی، داستانی را که میانگین به تنهایی نمی‌تواند بگوید، کامل می‌کنند. این معیارها پایه و اساس آمار استنباطی، آزمون فرضیه و درک قابلیت اعتماد داده‌ها هستند.

اگر شما هم به علم داده علاقه دارید، درک عمیق پراکندگی داده‌ها را جدی بگیرید. این مفاهیم به شما کمک می‌کنند:

ریسک را اندازه بگیرید

تصمیمات آگاهانه‌تری بگیرید

قابلیت اعتماد تحلیل‌های خود را ارزیابی کنید

آیا شما تاکنون با موردی برخورد کرده‌اید که میانگین گمراه‌کننده بوده است؟ تجربیات خود را در بخش نظرات به اشتراک بگذارید.

علم دادهآمارداده کاویتحلیل داده
۰
۰
ایمان محدثی
ایمان محدثی
شاید از این پست‌ها خوشتان بیاید