شاخص های مرکزی و پراکندگی

شاخص‌­های مرکزی

اغلب با توجه به نوع داد‌ه‌­ها، برای محاسبه نقطه تمرکزشان از معیارهای متفاوتی استفاده می­‌شود. با توجه به شهرت و کاربرد فراوان شاخص­‌های آماری «میانگین» (Mean)، «میانه» (Median) و «نما» (Mode)، در این قسمت، به معرفی و مقایسه معیارهای مرکزی می­‌پردازیم.

میانگین

میانگین (برآیند داده­‌ها) مقداری است که از آن می‌­توان به عنوان جایگزین همه داده­‌ها به منظور مقایسه یا شناخت بیشتر رفتار آن­‌ها استفاده نمود. معدل یا میانگین هم‌چنین نقش مرکز ثقل داده­‌ها را هم دارد به شکلی که متوسط فاصله‌ مقدارها از میانگین برابر با صفر است. از آنجایی که میانگین از تقسیم حاصل جمع مقدارها بر تعدادشان ساخته می­‌شود، مقیاس یا واحد آن با داده‌­ها یکی است. میانگین یکی از بهترین معیارهای تمرکز است زیرا همه داده‌­ها در محاسبه آن نقش دارند. از معایب میانگین می­‌توان به تاثیرپذیری از مقدارهای خیلی بزرگ یا خیلی کوچک و تمایل به سمت آن­‌ها، اشاره کرد. به عنوان مثال، فرض کنیم حقوق 10 نفر از کارکنان شرکت «الف» به ترتیب، 6.1، 1.10، 4.10، 5.3، 8.3، 5.3، 5.2، 5.2، 2.2 و 2.2، و حقوق کارکنان شرکت «ب»، 4، 4، 4، 4، 4، 5، 5، 5، 5 و 5 میلیون تومان باشد. برای مقایسه حقوق دریافتی دو شرکت «الف» و «ب»، اگر بخواهیم از معیار میانگین استفاده نماییم، می‌بینیم که میانگین حقوق هر دو شرکت برابر 4.5 میلیون تومان است و به­ سادگی می‌­توان دریافت که میانگین حقوق کارکنان شرکت «الف» تحت تأثیر دو حقوق با بیش­ترین مقدار است.

معایب میانگین

· تاثیر پذیری از مقدارهای خیلی بزرگ یا کوچک و تمایل به سمت آن‌ها

· امکان محاسبه فقط برای داده‌های کمی

· محاسبه زمان‌بر برای لیست‌های طولانی از اعداد

میانه

یکی دیگر از شاخص­های تمرکز، میانه است. اگر داده‌­ها ترتیب داشته باشند، نقطه وسط، میانه خواهد بود. به این ترتیب می­‌توان میانه را، نقطه اعتدال برای داده‌­ها معرفی نمود زیرا نقطه‌­ای است که تقریبا نصف داده­‌ها (۵۰٪) از آن بیش‌تر یا کم‌تر هستند. از این شاخص برای داده­‌های کمی و همچنین کیفی که قابلیت مرتب‌سازی داشته باشند استفاده می‌­شود. بر خلاف میانگین، میانه تحت تأثیر مقادیر خیلی بزرگ و خیلی کوچک قرار نمی­‌گیرد ولی از معایب آن می‌­توان به موارد زیر اشاره کرد:

· امکان محاسبه فقط برای داده‌­های کمی و کیفی ترتیبی

· عدم در نظر گیری مقدار داده­‌ها

· نقش فقط یک یا دو داده در محاسبه میانه

مُد

ساده‌­ترین شاخص تمرکز، نما یا مُد است. برای محاسبه آن کافی است تعداد تکرارهای مقدارها شمارش شود. مقداری که بیش‌ترین تکرار را داشته باشد، نما یا مُد خواهد بود. باید توجه داشت که مقداری از مشاهدات که بیشترین تکرار را دارد نما محسوب می­شود نه تعداد تکرار آن­‌ها. از نما می‌­توان برای شاخص تمرکز داده‌­های کمی و کیفی استفاده کرد. از اشکالات استفاده از نما، امکان وجود بیش از یک مقدار برای آن، عدم درنظرگیری مقدار داده‌­ها و حساسیت زیاد به تغییر تعداد تکرارها است.

در بین سنجش‌­های گرایش به مرکز، مد نسبت به میانه و میانگین کاربرد کم­تری دارد. اگر چه در برخی موارد، مد می­تواند به ­طور قابل توجهی مفید باشد.

معایب مد

· عدم در نظر گیری مقدار داده‌ها

· امکان وجود بیش از یک نما برای داده‌ها

· حساسیت زیاد به تغییر تعداد تکرارها

مکان شاخص‌­های مرکزی با توجه به منحنی توزیع

در یک توزیع نرمال، هر سه شاخص مرکزی (میانگین، میانه و مد) برابر هستند. (شکل a). در توزیع­‌های چوله، از آنجا که میانگین همواره به سمت داده­‌های خیلی ‌زیاد یا خیلی‌کم کشیده می‌­شود، میانگین در دنباله توزیع واقع می­‌شود. (شکل b و c). مد داده‌­ای است که بیشترین تکرار را دارد، بنابراین در قسمت برآمدگی منحنی توزیع چوله قرار می­‌گیرد. در توزیع چوله، میانه بین میانگین و مد قرار دارد.

شاخص‌­های پراکندگی

با وجود این که در بسیاری موارد، میانگین توصیف نسبتاً کاملی از مجموعه داده­‌ها ارائه می­‌دهد، اما گاهی وجود اطلاعات بیشتر در مورد داده‌­ها ضروری است. یک مفهوم مهم در ارتباط با داده‌­های آماری، میزان تغییرات آن­هاست. بدین معنی که اندازه­‌گیری­‌ها تا چه اندازه از فردی به فرد دیگر تغییر می‌­کند. تغییرات و پراکندگی داده‌­ها توسط شاخص یا معیارهای پراکندگی قابل اندازه‌گیری است. مهمترین معیارهای پراکندگی عبارتند از دامنه تغییرات، میانگین انحراف­‌ها از میانگین، واریانس و انحراف معیار که در این قسمت به معرفی برخی از ویژگی­‌های آ­ن‌­ها می­‌پردازیم.

حداکثر میزان تغییرات توسط دامنه تغییرات محاسبه می‌­شود. اختلاف بین بزرگترین و کوچکترین مقدار، دامنه تغییرات را نشان می­‌دهد. این شاخص به راحتی قابل محاسبه است ولی فقط بر اساس دو مقدار از داده‌­ها محاسبه می­‌شود.

یکی دیگر از راه­های سنجش تغییرات این است که نقطه­‌ای را به عنوان نقطه اصلی در نظر گرفت و پراکندگی داده­‌ها را نسبت به آن سنجید. در محاسبه میانگین انحرافات نسبت به میانگین، نقطه تمرکز میانگین در نظر گرفته شده و از قدر مطلق اختلاف داده­‌ها نسبت به میانگین، میانگین گرفته می‌­شود. وجود قدرمطلق، محاسبه آن را کمی سخت می‌­کند ولی در عوض همه داده‌­ها در محاسبه شاخص پراکندگی نقش دارند.

دامنه میان چارکی

برای آن­که بتوان مشکل تأثیرپذیری دامنه تغییرات از مقدارهای بزرگ و کوچک را از بین برد، می­‌توان فاصله بین بزرگ‌ترین و کوچک‌ترین مقدار را بر اساس چارک‌­ها محاسبه نمود. تفاضل چارک اول از چارک سوم را دامنه‌­ی میان چارکی گویند.

مزایا دامنه میان چارکی

· حذف اثر نقاط دور افتاده

· سادگی در محاسبه

معایب دامنه میان چارکی

· عدم محاسبه پراکندگی حول یک مرکز

· به جز مقادیر چارک اول و چارک سوم مقادیر دیگر در محاسبه نقشی ندارند

واریانس و انحراف معیار

برای سنجش فاصله یا انحراف داده‌­ها نسبت به میانگین، به جای قدر مطلق از مجذور فاصله نیز استفاده می‌نمایند. به این ترتیب متوسط مجذور فاصله نسبت به میانگین، معیار دیگری برای پراکندگی نامیده می­‌شود که به آن واریانس می­گویند. واحد اندازه­‌گیری واریانس به صورت مربع واحد اندازه­‌گیری داده­‌ها خواهد بود که برای رفع این مشکل از جذر واریانس با نام انحراف معیار استفاده می­‌شود.

ضریب تغییرات

از آن جایی که تمامی معیارهای پراکندگی معرفی شده، به واحد اندازه­‌گیری داده­‌ها بستگی دارند، اگر بخواهیم میزان پراکندگی، بدون واحد اندازه­‌گیری با به صورت درصدی بیان شود، از معیاری به نام ضریب تغییرات استفاده می‌­نماییم. تعریف ضریب تغییرات برای داده­‌های نا­­منفی به صورت نسبت انحراف معیار به میانگین است. به این صورت میزان پراکندگی به ازاء یک واحد از میانگین محاسبه می­‌شود.

ضریب تغییرات در جامعه آماری به صورت

و در نمونه­ آماری به صورت

محاسبه می­‌شود.

معیارهای مرکزی و پراکندگی توزیع

امید ریاضی

یکی از مهم‌ترین مفاهیم نظریه احتمال مفهوم امید ریاضی یا مقدار مورد انتظار است. امید ریاضی در واقع یک میانگین وزنی از مقادیر ممکن X است که وزن هر مقدار برابر با احتمالی است که متغیر X در آن اختیار می‌کند. همچنین مفهوم امید ریاضی را می­‌توان معادل مفهوم مرکز ثقل توزیع جرمی در نظر گرفت، هرگاه جرم هر نقطه را معادل احتمال آن نقطه در نظر گیریم.

بعنوان مثال در یک متغیر تصادفی که مقادیر 1 و 2 و 4 را با احتمال­های 0.25، 0.25 و 0.5 اختیار می‌­نماید، مفهوم امید ریاضی یا مرکز ثقل احتمالی را می­‌توان به صورت زیر نمایش داد.

امید ریاضی را با (E(X نمایش می‌دهند و فرمول آن به صورت زیر است:

و اگر X متغیر تصادفی پیوسته باشد:

خواص امید ریاضی

واریانس

واریانس متغیر تصادفی X عبارت است از «متوسط مجذور فاصله از میانگن» که به صورت زیر تعریف می‌­شود:

یک رابطه­ی مفید دیگر برای به دست آوردن واریانس X عبارت است از:

خواص واریانس

معیارهای شکل توزیع

علاوه بر معیارهای تمرکز و پراکندگی، معیارهای دیگری نیز جهت تحلیل شکل توزیع وجود دارد که از جمله این معیارها چولگی و کشیدگی (تیزی) توزیع می‌­باشد. معیار چولگی که میزان عدم تقارن شکل توزیع را نشان می‌دهد و به صورت زیر تعریف می­‌شود:


اگر در یک توزیع معیار چولگی مثبت شود بدین معنی است که توزیع به سمت راست چوله شده و اگر منفی شود توزیع به سمت چپ چوله شده است. برای توزیع­‌های متقارن معیار چولگی برابر صفر است.

معیار کشیدگی یا تیزی توزیع، میزان تیز بودن قله توزیع را نشان می­دهد و به صورت زیر تعریف می­‌شود:

هرچه در یک توزیع نوک قله تیزتر و دم آن پهن­تر باشد، تیزی آن بیشتر است.