مرجع تخصصی آمار ایران
شاخص های مرکزی و پراکندگی
شاخصهای مرکزی
اغلب با توجه به نوع دادهها، برای محاسبه نقطه تمرکزشان از معیارهای متفاوتی استفاده میشود. با توجه به شهرت و کاربرد فراوان شاخصهای آماری «میانگین» (Mean)، «میانه» (Median) و «نما» (Mode)، در این قسمت، به معرفی و مقایسه معیارهای مرکزی میپردازیم.
میانگین
میانگین (برآیند دادهها) مقداری است که از آن میتوان به عنوان جایگزین همه دادهها به منظور مقایسه یا شناخت بیشتر رفتار آنها استفاده نمود. معدل یا میانگین همچنین نقش مرکز ثقل دادهها را هم دارد به شکلی که متوسط فاصله مقدارها از میانگین برابر با صفر است. از آنجایی که میانگین از تقسیم حاصل جمع مقدارها بر تعدادشان ساخته میشود، مقیاس یا واحد آن با دادهها یکی است. میانگین یکی از بهترین معیارهای تمرکز است زیرا همه دادهها در محاسبه آن نقش دارند. از معایب میانگین میتوان به تاثیرپذیری از مقدارهای خیلی بزرگ یا خیلی کوچک و تمایل به سمت آنها، اشاره کرد. به عنوان مثال، فرض کنیم حقوق 10 نفر از کارکنان شرکت «الف» به ترتیب، 6.1، 1.10، 4.10، 5.3، 8.3، 5.3، 5.2، 5.2، 2.2 و 2.2، و حقوق کارکنان شرکت «ب»، 4، 4، 4، 4، 4، 5، 5، 5، 5 و 5 میلیون تومان باشد. برای مقایسه حقوق دریافتی دو شرکت «الف» و «ب»، اگر بخواهیم از معیار میانگین استفاده نماییم، میبینیم که میانگین حقوق هر دو شرکت برابر 4.5 میلیون تومان است و به سادگی میتوان دریافت که میانگین حقوق کارکنان شرکت «الف» تحت تأثیر دو حقوق با بیشترین مقدار است.
معایب میانگین
· تاثیر پذیری از مقدارهای خیلی بزرگ یا کوچک و تمایل به سمت آنها
· امکان محاسبه فقط برای دادههای کمی
· محاسبه زمانبر برای لیستهای طولانی از اعداد
میانه
یکی دیگر از شاخصهای تمرکز، میانه است. اگر دادهها ترتیب داشته باشند، نقطه وسط، میانه خواهد بود. به این ترتیب میتوان میانه را، نقطه اعتدال برای دادهها معرفی نمود زیرا نقطهای است که تقریبا نصف دادهها (۵۰٪) از آن بیشتر یا کمتر هستند. از این شاخص برای دادههای کمی و همچنین کیفی که قابلیت مرتبسازی داشته باشند استفاده میشود. بر خلاف میانگین، میانه تحت تأثیر مقادیر خیلی بزرگ و خیلی کوچک قرار نمیگیرد ولی از معایب آن میتوان به موارد زیر اشاره کرد:
· امکان محاسبه فقط برای دادههای کمی و کیفی ترتیبی
· عدم در نظر گیری مقدار دادهها
· نقش فقط یک یا دو داده در محاسبه میانه
مُد
سادهترین شاخص تمرکز، نما یا مُد است. برای محاسبه آن کافی است تعداد تکرارهای مقدارها شمارش شود. مقداری که بیشترین تکرار را داشته باشد، نما یا مُد خواهد بود. باید توجه داشت که مقداری از مشاهدات که بیشترین تکرار را دارد نما محسوب میشود نه تعداد تکرار آنها. از نما میتوان برای شاخص تمرکز دادههای کمی و کیفی استفاده کرد. از اشکالات استفاده از نما، امکان وجود بیش از یک مقدار برای آن، عدم درنظرگیری مقدار دادهها و حساسیت زیاد به تغییر تعداد تکرارها است.
در بین سنجشهای گرایش به مرکز، مد نسبت به میانه و میانگین کاربرد کمتری دارد. اگر چه در برخی موارد، مد میتواند به طور قابل توجهی مفید باشد.
معایب مد
· عدم در نظر گیری مقدار دادهها
· امکان وجود بیش از یک نما برای دادهها
· حساسیت زیاد به تغییر تعداد تکرارها
مکان شاخصهای مرکزی با توجه به منحنی توزیع
در یک توزیع نرمال، هر سه شاخص مرکزی (میانگین، میانه و مد) برابر هستند. (شکل a). در توزیعهای چوله، از آنجا که میانگین همواره به سمت دادههای خیلی زیاد یا خیلیکم کشیده میشود، میانگین در دنباله توزیع واقع میشود. (شکل b و c). مد دادهای است که بیشترین تکرار را دارد، بنابراین در قسمت برآمدگی منحنی توزیع چوله قرار میگیرد. در توزیع چوله، میانه بین میانگین و مد قرار دارد.
شاخصهای پراکندگی
با وجود این که در بسیاری موارد، میانگین توصیف نسبتاً کاملی از مجموعه دادهها ارائه میدهد، اما گاهی وجود اطلاعات بیشتر در مورد دادهها ضروری است. یک مفهوم مهم در ارتباط با دادههای آماری، میزان تغییرات آنهاست. بدین معنی که اندازهگیریها تا چه اندازه از فردی به فرد دیگر تغییر میکند. تغییرات و پراکندگی دادهها توسط شاخص یا معیارهای پراکندگی قابل اندازهگیری است. مهمترین معیارهای پراکندگی عبارتند از دامنه تغییرات، میانگین انحرافها از میانگین، واریانس و انحراف معیار که در این قسمت به معرفی برخی از ویژگیهای آنها میپردازیم.
حداکثر میزان تغییرات توسط دامنه تغییرات محاسبه میشود. اختلاف بین بزرگترین و کوچکترین مقدار، دامنه تغییرات را نشان میدهد. این شاخص به راحتی قابل محاسبه است ولی فقط بر اساس دو مقدار از دادهها محاسبه میشود.
یکی دیگر از راههای سنجش تغییرات این است که نقطهای را به عنوان نقطه اصلی در نظر گرفت و پراکندگی دادهها را نسبت به آن سنجید. در محاسبه میانگین انحرافات نسبت به میانگین، نقطه تمرکز میانگین در نظر گرفته شده و از قدر مطلق اختلاف دادهها نسبت به میانگین، میانگین گرفته میشود. وجود قدرمطلق، محاسبه آن را کمی سخت میکند ولی در عوض همه دادهها در محاسبه شاخص پراکندگی نقش دارند.
دامنه میان چارکی
برای آنکه بتوان مشکل تأثیرپذیری دامنه تغییرات از مقدارهای بزرگ و کوچک را از بین برد، میتوان فاصله بین بزرگترین و کوچکترین مقدار را بر اساس چارکها محاسبه نمود. تفاضل چارک اول از چارک سوم را دامنهی میان چارکی گویند.
مزایا دامنه میان چارکی
· حذف اثر نقاط دور افتاده
· سادگی در محاسبه
معایب دامنه میان چارکی
· عدم محاسبه پراکندگی حول یک مرکز
· به جز مقادیر چارک اول و چارک سوم مقادیر دیگر در محاسبه نقشی ندارند
واریانس و انحراف معیار
برای سنجش فاصله یا انحراف دادهها نسبت به میانگین، به جای قدر مطلق از مجذور فاصله نیز استفاده مینمایند. به این ترتیب متوسط مجذور فاصله نسبت به میانگین، معیار دیگری برای پراکندگی نامیده میشود که به آن واریانس میگویند. واحد اندازهگیری واریانس به صورت مربع واحد اندازهگیری دادهها خواهد بود که برای رفع این مشکل از جذر واریانس با نام انحراف معیار استفاده میشود.
ضریب تغییرات
از آن جایی که تمامی معیارهای پراکندگی معرفی شده، به واحد اندازهگیری دادهها بستگی دارند، اگر بخواهیم میزان پراکندگی، بدون واحد اندازهگیری با به صورت درصدی بیان شود، از معیاری به نام ضریب تغییرات استفاده مینماییم. تعریف ضریب تغییرات برای دادههای نامنفی به صورت نسبت انحراف معیار به میانگین است. به این صورت میزان پراکندگی به ازاء یک واحد از میانگین محاسبه میشود.
ضریب تغییرات در جامعه آماری به صورت
و در نمونه آماری به صورت
محاسبه میشود.
معیارهای مرکزی و پراکندگی توزیع
امید ریاضی
یکی از مهمترین مفاهیم نظریه احتمال مفهوم امید ریاضی یا مقدار مورد انتظار است. امید ریاضی در واقع یک میانگین وزنی از مقادیر ممکن X است که وزن هر مقدار برابر با احتمالی است که متغیر X در آن اختیار میکند. همچنین مفهوم امید ریاضی را میتوان معادل مفهوم مرکز ثقل توزیع جرمی در نظر گرفت، هرگاه جرم هر نقطه را معادل احتمال آن نقطه در نظر گیریم.
بعنوان مثال در یک متغیر تصادفی که مقادیر 1 و 2 و 4 را با احتمالهای 0.25، 0.25 و 0.5 اختیار مینماید، مفهوم امید ریاضی یا مرکز ثقل احتمالی را میتوان به صورت زیر نمایش داد.
امید ریاضی را با (E(X نمایش میدهند و فرمول آن به صورت زیر است:
و اگر X متغیر تصادفی پیوسته باشد:
خواص امید ریاضی
واریانس
واریانس متغیر تصادفی X عبارت است از «متوسط مجذور فاصله از میانگن» که به صورت زیر تعریف میشود:
یک رابطهی مفید دیگر برای به دست آوردن واریانس X عبارت است از:
خواص واریانس
معیارهای شکل توزیع
علاوه بر معیارهای تمرکز و پراکندگی، معیارهای دیگری نیز جهت تحلیل شکل توزیع وجود دارد که از جمله این معیارها چولگی و کشیدگی (تیزی) توزیع میباشد. معیار چولگی که میزان عدم تقارن شکل توزیع را نشان میدهد و به صورت زیر تعریف میشود:
اگر در یک توزیع معیار چولگی مثبت شود بدین معنی است که توزیع به سمت راست چوله شده و اگر منفی شود توزیع به سمت چپ چوله شده است. برای توزیعهای متقارن معیار چولگی برابر صفر است.
معیار کشیدگی یا تیزی توزیع، میزان تیز بودن قله توزیع را نشان میدهد و به صورت زیر تعریف میشود:
هرچه در یک توزیع نوک قله تیزتر و دم آن پهنتر باشد، تیزی آن بیشتر است.
مطلبی دیگر از این انتشارات
چگونه در سال آینده محقق داده (data scientist) بزرگی بشویم؟
مطلبی دیگر از این انتشارات
آمارشناسان مشهور تاریخ
مطلبی دیگر از این انتشارات
هر آنچه که باید درباره پی-مقدار یا p-value در علم آمار بدانید