معیارهای پراکندگی در علم داده؛ چرا میانگین به تنهایی کافی نیست؟
حتماً برایتان پیش آمده که میانگین یک مجموعه داده را محاسبه کردهاید، اما بعداً متوجه شدهاید که این میانگین اصلاً وضعیت واقعی دادهها را نشان نمیدهد. چرا؟ چون میانگین به تنهایی واقعیت را نمیگوید یا حداقل میتواند گمراهکننده باشد.
در علم داده، ما فقط نمیخواهیم بدانیم مرکز داده کجاست، بلکه میخواهیم بدانیم دادهها چقدر از این مرکز فاصله و پراکندگی دارند. اینجاست که معیارهای پراکندگی به ما واقعیت بیشتری از داده ها را خواهد گفت.
در این مطلب، با مفاهیم دامنه تغییرات (Range)، واریانس (Variance)، انحراف معیار (Standard Deviation) و ضریب تغییرات (Coefficient of Variation) آشنا میشوید و یاد میگیرید چرا این مفاهیم برای درک ریسک، عدم اطمینان و قابلیت اعتماد دادهها ضروری هستند.
چرا فقط میانگین کافی نیست؟ یک مثال ساده
دو مجموعه داده زیر را در نظر بگیرید:

میانگین هر دو مجموعه برابر با ۷۰ است! اما آیا این دو مجموعه شبیه هم هستند؟ قطعاً نه.
در مجموعه A ، پراکندگی زیاد است: یک دانشجو ۳۰ نمره پایینتر و یک دانشجو ۳۰ نمره بالاتر از میانگین گرفته است.
در مجموعه B ، پراکندگی کم است: همه نمرات نزدیک میانگین (۷۰) قرار دارند.
اگر فقط میانگین را بدانید، تصور میکنید هر دو کلاس وضعیت مشابهی دارند، اما استراتژی تدریس شما برای این دو کلاس باید کاملاً متفاوت باشد. پس میانگین به تنهایی کافی نیست؛ به معیارهای پراکندگی نیاز داریم.
فرض کنید من به شما بگویم میانگین قد افراد در این اتاق ۱۷۰ سانتیمتر است. آیا این اطلاعات به تنهایی برای شما مفید است؟ خیر!
اگر پراکندگی قدها کم باشد همه بین ۱۶۵ تا ۱۷۵، میانگین قابل اعتماد است.
اما اگر پراکندگی زیاد باشد هم شخصی با قد ۱۴۰ و هم شخصی با قد ۲۰۰ در اتاق باشد، میانگین ۱۷۰ دیگر هیچ معنی واقعی ندارد.
در علم داده، پراکندگی معیاری برای سنجش ریسک، عدم اطمینان و قابلیت اعتماد است. بدون فهمیدن پراکندگی، تصمیمات ما مثل رانندگی با چشم بسته است.
سه معیار اصلی پراکندگی
1- دامنه تغییرات (Range)
سادهترین معیار پراکندگی است:
فرمول : دامنه تغییرات = بزرگترین مقدار – کوچکترین مقدار (Max - Min)
مزایا: محاسبه آسان و فهم سریع از گستردگی داده.
معایب: فقط از دو مقدار داده (بزرگترین و کوچکترین) استفاده میکند و به شدت تحت تأثیر دادههای پرت قرار میگیرد.
مثال: برای نمرات زیستشناسی (40، 70، 100)، دامنه تغییرات برابر ۶۰ است. برای نمرات آمار (69، 70، 71)، دامنه تغییرات برابر ۲ است. این اعداد به وضوح نشان میدهند که پراکندگی در مجموعه B خیلی کمتر است.
A) Max – Min = 100 – 40 = 60
B) Max – Min = 71 – 69 = 2
2- واریانس (Variance)
واریانس میانگین مجذور انحرافها از میانگین است. هرچه دادهها بیشتر از میانگین فاصله داشته باشند، واریانس بزرگتر خواهد بود.
کاربرد عملی: مشاوران مالی از واریانس برای اندازهگیری نوسانات یک سرمایهگذاری استفاده میکنند. سرمایهگذاران محتاط، سرمایهگذاریهایی با واریانس کم (نوسان پایین) را ترجیح میدهند.
فرمول واریانس نمونه (s²):

فرمول واریانس جامعه (σ²):

چرا در واریانس نمونه از n-1 استفاده میکنیم؟ چون استفاده از n-1 در مخرج، بهترین تخمین را از واریانس جامعه به ما میدهد. در بسیاری از کاربردهای علم داده، دادههای جامعه در دسترس نیستند، بنابراین واریانس نمونه را محاسبه میکنیم.
3- انحراف معیار (Standard Deviation)
انحراف معیار، جذر واریانس است. مهمترین مزیت آن نسبت به واریانس این است که با همان واحدهای داده اصلی اندازهگیری میشود. مثلاً اگر دادهها سن بر حسب سال باشند، انحراف معیار هم بر حسب سال است.
فرمول انحراف معیار نمونه (s):

انحراف معیار کوچک: دادهها نزدیک میانگین متمرکز شدهاند، پراکندگی کم است.
انحراف معیار بزرگ: دادهها از میانگین فاصله دارند، پراکندگی زیاد است.
مثال سرمایهگذاری: دو صندوق، میانگین بازدهی سالانه ۱۵٪ دارند. صندوقی را انتخاب میکنید که انحراف معیار (ریسک) کمتری داشته باشد، یعنی بازدهی آن پایدارتر و نزدیک به ۱۵٪ باشد.
مثال کنترل کیفیت: کارخانه لامپسازی ادعای میانگین عمر ۱۰۰۰ ساعت دارد. اگر انحراف معیار کم باشد، همه لامپها حدود ۱۰۰۰ ساعت کار میکنند (قابل اعتماد). اگر انحراف معیار زیاد باشد، یک لامپ ۱۰۰ ساعت و دیگری ۲۰۰۰ ساعت عمر میکند (غیرقابل اعتماد).
4- ضریب تغییرات (Coefficient of Variation - CV)
گاهی میخواهیم پراکندگی دو مجموعه داده را مقایسه کنیم که واحدهای اندازهگیری متفاوتی دارند یا میانگینهایشان خیلی با هم فرق دارد. در این موارد از ضریب تغییرات استفاده میکنیم.
فرمول:

ضریب تغییرات نشان میدهد که انحراف معیار چند درصد از میانگین است.
مثال: مقایسه دو شرکت با میانگین حقوق متفاوت:

شرکت: A میانگین 68,000 دلار، انحراف معیار 9,200 دلار در نتیجه با قرار دادن در فرمول ضریب تغییرات CV(A) = 13.5%
شرکت: B میانگین 71,000 دلار، انحراف معیار 6,400 دلار در نتیجه با قرار دادن در فرمول ضریب تغییرات CV(B) = 9.0%
نتیجه: شرکت A نسبت به میانگین خود، تغییرات بیشتری در حقوق کارمندانش دارد.
جمعبندی نهایی
معیارهای پراکندگی، داستانی را که میانگین به تنهایی نمیتواند بگوید، کامل میکنند. این معیارها پایه و اساس آمار استنباطی، آزمون فرضیه و درک قابلیت اعتماد دادهها هستند.
اگر شما هم به علم داده علاقه دارید، درک عمیق پراکندگی دادهها را جدی بگیرید. این مفاهیم به شما کمک میکنند:
ریسک را اندازه بگیرید
تصمیمات آگاهانهتری بگیرید
قابلیت اعتماد تحلیلهای خود را ارزیابی کنید
آیا شما تاکنون با موردی برخورد کردهاید که میانگین گمراهکننده بوده است؟ تجربیات خود را در بخش نظرات به اشتراک بگذارید.