مرجع تخصصی آمار ایران
پارادوکس سیمپسون چیست؟
پارادوکس سیمپسون (Simpson’s Paradox) اولین بار توسط یک آمارشناس (Edward H. Simpson) در دهه 60 توصیف شد و به خاطر او، پارادوكس، سیمپسون نامگذاری گردید. این پارادوکس مثال خوبی از اشتباهات و خطاهای آماری است. یعنی گاهی اوقات میانگینها میتوانند احمقانه باشند. گاهی اوقات آنها میتوانند کاملاً مبهم و گیج کننده باشند.
مثالی از پارادوکس سیمپسون
مقدار آرا در انتخابات اخیر: 120045
تعداد حوزههای رای گیری: 109
تعداد رایدهندگان صاحب سگ: 19876
میانگین: 46677
میانگین بالا به لحاظ محاسبات ریاضی صحیح است 46677 = 3 / (19876 + 109 + 120045). اما این میانگین در واقع معنای خاصی ندارد. منطقی به نظر نمیرسد که از رایدهندگان، حوزهها و تعداد رایدهندگان صاحب سگ میانگین گرفته شود. در زندگی واقعی پارادوکس معمولاً جور دیگری است به طوری که تحلیل یا توصیف آن دشوار میباشد. از این گذشته، هیچ کس واقعاً از رایدهندگان و حیوان خانگی میانگین نمیگیرد.
پارادوکس سیمپسون: یک مثال واقعی
یک مورد واقعی از این پارادوکس در سال 1973 اتفاق افتاد. میزان پذیرش در مدارس تحصیلی دانشگاه برکلی (University of Berkeley’s graduate schools) مورد بررسی قرار گرفت. زنان از این دانشگاه به دلیل تبعیض جنسیتی در پذیرشها شکایت کردند:
متقاضیان پذیرفتهشدگان
مردان 8442 44%
زنان 4321 35%
نتایج تحقیقات بدین شرح بود: وقتی هر مدرسه به طور جداگانه مورد بررسی قرار گرفت (حقوق، پزشکی، مهندسی و غیره)؛ درصد پذیرش زنان نسبت به مردان بیشتر بود! با این حال میانگین نشان میداد که مردان با نرخ بسیار بالاتری نسبت به زنان پذیرفته شدهاند. در این مورد صحبت میکنیم.
زنان پذیرفتهشده زنان متقاضی مردان پذیرفتهشده مردان متقاضی دپارتمان
82% 108 62% 825 الف
68% 25 63% 560 ب
34% 593 37% 325 پ
35% 375 33% 417 ت
24% 393 28% 191 ث
7% 341 6% 272 ج
وقتی هر دپارتمانی جداگانه مورد بررسی قرار گرفت، درصد پذیرش زنان کمی بیشتر بود. این میانگین اشتباه یک مثال کلاسیک است. اما چگونه ممکن است؟ پاسخ این است که زنان به تعداد زیاد در مدارسی با میزان پذیرش کم ثبت نام کردند: مانند حقوق و پزشکی. این مدارس کمتر از 10 درصد دانش آموزان را پذیرفتند. بنابراین درصد زنان پذیرفتهشده بسیار پایین بود. از طرف دیگر، شمار زیادی از مردان در مدارسی با نرخ پذیرش بالا ثبت نام کردند: مانند مهندسی با میزان پذیرش حدود 50٪. بنابراین درصد مردان پذیرفتهشده بسیار بالا بود. میانگین در این مورد به هیچ وجه مفهومی نداشت؛ اگرچه که این آمار به طور گستردهای گزارش شد و خشم مردم را برانگیخت.
مطلبی دیگر از این انتشارات
متغیرهای تصادفی و انواع آن
مطلبی دیگر از این انتشارات
انواع روش های آماری - تفاوت آمار توصیفی و آمار استنباطی
مطلبی دیگر از این انتشارات
پایتون یا R؟ | کدام یک در تحلیل دادهها موثرتر است؟