وقتی که آمار و ارقام حقیقت را نمی‌گویند!

پارادوکس سیمپسون چیست؟

آخر هفته است و قرار است به‌ همراه یکی از دوستانتان به رستوران رفته و شام را آن‌جا در کنار یکدیگر میل کنید. شما از کیفیت رستوران‌های اطراف خود اطلاعی ندارید؛ بنابراین تصمیم می‌گیرید سراغ یکی از سایت‌ها یا اپلیکیشن‌های بررسی رستوران رفته و با مقایسه‌ی امتیازها، تصمیم بگیرید که شام را کجا بخورید. در نهایت تصمیم می‌گیرید تا یکی از دو رستوران زیر را انتخاب کنید. نتیجه رضایت‌مندی مشتریان این رستوران‌ها در جدول زیر داده شده است:

احتمالا شما پس از مشاهده این بررسی، رستوران آبی را انتخاب می‌کنید. چرا که درصد رضایت آن بالاتر بوده است. (تعداد شرکت‌کنندگان هر دور رای‌گیری برابر بوده است.)

حال کمی از فضای رستوران و شام آخر هفته فاصله گرفته و مسئله را از چشم یک دانشمند داده بررسی کنیم. در گام اول افرادی که در این نظرسنجی شرکت کرده‌اند را به دو دسته‌ی «زن» و «مرد» تقسیم کرده و مسئله را تفکیک می‌کنیم. اکنون جدول زیر به‌دست می‌آید:

اتفاق جالبی در حال رخ دادن است! رستوران قرمز که رضایت کلی کمتری نسبت به رستوران آبی داشت، از هر دو دسته مردان و زنان درصد رضایت بیشتری را کسب کرده است. همچنین دقت داشته باشید که تعداد کل افرادی که هر رستوران از آن‌ها رضایت‌سنجی کرده، مساوی و برابر ۴۰۰ نفر است.

این پدیده را در ریاضیات پارادوکس سیمپسون می‌نامند. این موضوع در علم آمار-ریاضی اهمیت بسیار زیادی دارد؛ چرا که دقیقا در جایی که شما گمان می‌کنید داده‌محور حرکت کرده و مبتنی بر نتایج به‌دست‌آمده یک گزینه را انتخاب کرده‌اید، دچار خطا شده‌اید. در مثال بالا، اگر درصد رضایت را به‌ عنوان ملاک برتری رستوران قرار دهیم، رستوران قرمز هم در میان مردان و هم در میان زنان درصد بالاتری را کسب کرده است؛ اما درصد رضایت کل آن از رستوران آبی کمتر است.

چه زمانی پارادوکس سیمپسون رخ می‌دهد؟

به‌ طور کلی پارادوکس سیمپسون هنگامی رخ می‌دهد که دو رویداد را به چند دسته تقسیم کنیم و وزن دسته‌های متناظر یکسان نباشد. همچنین این پارادوکس زمانی رخ می‌دهد که متغیر پنهانی در رویداد وجود داشته و ما آن را هنگام بررسی ریاضیاتی در نظر نگرفته‌ایم. پارادوکس سیمپسون به ما نشان می‌دهد که استفاده‌ی محض از داده‌ها به تنهایی کافی نبوده و باید داستان پشت‌پرده‌ی داده‌ها را دانست تا بتوان به تصمیم درست رسید. به‌ عبارت دیگر، اگر می‌خواهیم داده‌محور عمل کنیم، نیاز است تصویر کاملی از داده‌های موجود نظیر نحوه‌ی گردآوری داده‌ها، عوامل موثر بر داده‌ها، متغیرهای پنهان و ... داشته باشیم. در غیر این صورت ممکن است، با تحلیل داد‌ه‌های ناقص، تصمیمی بگیریم که ما را به اشتباه و گمراهی بکشاند.

در ادامه‌ی این مقاله چند مثال واقعی‌تر از تاثیر پارادوکس سیمپسون در حوزه‌های مختلف را مورد بررسی قرار داده و با اهمیت آن آشنا می‌شویم. در پایان نیز نگاهی جبری‌تر به بحث از منظر ریاضیات می‌اندازیم.

کدام روش درمانی موثرتر است؟

فرض کنید دو روش درمانی A و B برای بیماری سنگ کلیه وجود دارد. به این دو روش درمانی به عنوان محصول نگاه کرده و میزان اثربخشی هر یک را بررسی می‌کنیم تا در نهایت تصمیم بگیریم که از کدام یک استفاده کنیم. به‌ همین منظور از دستیار خود خواسته‌ایم که گزارشی از موفقیت‌آمیز بودن این دو روش درمانی در مقایسه با یکدیگر آماده کند. دستیار موفقیت‌آمیز بودن این دو روش درمانی را در ۳۵۰ عمل کلیه ارائه می‌دهد.

آیا این اطلاعات برای تصمیم‌گیری در رابطه با استفاده از روش درمانی کافی است؟ قطعا خیر! این اطلاعات به‌ شدت ناقص و گمراه‌کننده است. می‌دانیم که عمل‌های سنگ کلیه به دو گروه سنگ‌های کوچک وسنگ‌های بزرگ تقسیم می‌شود. لازم به ذکر است، افرادی که سنگ‌های کوچک دارند، به طور کلی شانس موفقیت بیشتر و حال عمومی بهتری دارند. در سوی دیگر عمل سنگ‌های بزرگ سخت‌تر و پُر ریسک‌تر است و افرادی که به این نوع سنگ دچار هستند، حال عمومی‌شان نسبتا وخیم است. اکنون اطلاعات اولیه‌ را به‌ شکل دسته‌بندی‌شده بررسی می‌کنیم:

نتایج بدست آمده شگفت‌انگیز است! روش درمانی A که در ابتدا ناکارمدتر از روش درمانی B به نظر می‌رسید، در هر دو عمل سنگ‌های کوچک و بزرگ موفقیت‌آمیزتر بوده است. حال این سوال پیش می‌آید که چرا درصد موفقیت روش B به‌ صورت تجمیعی بالاتر از روش A است؟ پاسخ این سوال در همان نکته‌ای است که در ابتدای مقاله ذکر کردیم؛ یعنی متغیر و دلیل پنهانی که آن را در نظر نگرفته‌ایم.

روش درمانی A هجومی‌تر از روش B است؛ بنابراین بیشتر عمل‌های سنگ بزرگ با این روش انجام می‌شود. از سوی دیگر افرادی که سنگ کلیه‌ی بزرگ دارند، حال جسمی‌شان وخیم است و همین امر شانس موفقیت‌آمیز بودن عمل آن‌ها را مستقل از روش درمانی پایین می‌آورد. اگر به جدول داده‌ها دقت کنید، واضح است که از ۲۸۹ عمل موفقیت‌آمیز روش B، تعداد ۲۳۴ تا از آن‌ها بر روی افراد با سنگ کلیه‌ی کوچک انجام شده است. همین امر سبب شده است که در محاسبه‌ی درصد تجمیعی، روش درمانی B در نگاه اول روش درمانی مناسبت‌تری نسبت به روش درمانی A به حساب بیاید.

حال این‌جا یک سوال محصولی-بازاریابی پیش می‌آید؛ به‌نظر شما با توجه به موفقیت‌آمیز بودن روش درمانی A در عمل سنگ‌های کوچک نسبت به روش درمانی B در این گونه عمل‌ها از کدام روش درمانی باید استفاده کرد؟

البته با توجه به اطلاعات فعلی نمی‌توان پاسخ دقیقی به این سوال داد؛ اما با فرض این که روش درمانی B پُرهزینه‌تر و محدودتر بوده و وضعیت جسمی افراد با سنگ کلیه‌ی بزرگ، بسیار وخیم‌تر از افراد با سنگ کلیه‌ی کوچک است، برای انجام عمل‌های سنگ کلیه‌ی کوچک بهتر است که از روش درمانی B استفاده شود؛ چراکه با وجود آن‌که درصد موفقیت آن از روش A پایین‌تر است، به‌ طور کلی شانس موفقیت در این گونه عمل‌ها بالا است و در صورت موفقیت‌آمیز نبودن نیز جان افراد به‌خطر نمی‌افتد. بدین ترتیب با اثر پارادوکس سیمپسون در حوزه‌ی محصول پزشکی آشنا شدیم.

سرمایه‌گذاری ۱۰۰ هزار دلاری!

شرکت شما به تازگی یک سرمایه‌گذار جدید پیدا و در گام اول ۱۰۰ هزار دلار سرمایه جذب کرده است. همه‌چیز خوب به‌ نظر می‌رسد تا این که یک روز، یکی از اعضای هیئت مدیره (stakeholder) به اتاق شما آمده و با ناراحتی می‌گوید:

پس از سرمایه‌گذاری ۱۰۰ هزار دلاری، میانگین خرید کاربران سایت از ۲۰۰ دلار به ۱۸۰ دلار رسیده و این وحشتناک است.

شما لبخندی بر لب می‌زنید و به او اطمینان می‌دهید، که همه‌چیز به بهترین شکل پیش می‌رود. از آن عضو هیئت‌مدیره می‌خواهید که یک جلسه عمومی با حضور دیگر اعضا برنامه‌ریزی شود تا دلیل این موضوع را توضیح دهید. آن عضو هیئت‌مدیره از آرامش شما جا خورده است؛ چراکه او با پارادوکس سیمپسون آشنا نیست.

اکنون بجای نگاه سطحی اولیه، کمی جدول داده‌ها را تفکیک کرده و خود را برای جلسه‌ی ظهر آماده می‌کنید. جدول داده‌های آماده‌شده به شرح زیر است:

شما با این دو جدول وارد جلسه می‌شوید. با توجه به داده‌های به‌دست‌آمده، مشخص است که میانگین خرید کاربران جدید و کاربران فعلی افزایش داشته است. همچنین میزان خرید کلی نیز افزایش چشم‌گیری داشته است. بنابراین این سرمایه‌گذاری موفقیت‌آمیز بوده است. اکنون دیگر اثری از نگرانی اعضای هیئت‌مدیره نیست و بر صورت همگی، لبخند نشسته است.

در این مسئله نیز با پارادوکس سیمپسون روبه‌رو هستیم. در مرحله اول پیش از سرمایه‌گذاری تعداد مشتریان شرکت کمتر بوده است و اصطلاحا «شرکت سهم بیشتری از یک کیک کوچک داشته است»؛ اما پس از سرمایه‌گذاری تعداد مشتریان شرکت افزایش چشم‌گیری داشته است و اکنون شرکت «سهم کمتری از یک کیک بزرگ دارد» به همین سبب میانگین خرید تجمیعی هر مشتری کاهش یافته است.

لازم به ذکر است، در بسیاری از شرایط با افزایش چشم‌گیر مشتریان نیز ممکن است میانگین خرید دسته‌ها کاهش یابد و این امر، لزوما یک اتفاق منفی نیست؛ چرا که ممکن است پرسونای مخاطبان شما تغییر کرده و لزوما رفتاری شبیه به مشتریان قبلی نداشته باشند. در این شرایط باید پارامترهای دیگری را مورد ارزیابی قرار دهید.

تبلیغات کلیکی و دیجیتال مارکتینگ

شما به عنوان مدیر دیجیتال مارکتینگ یک مجموعه در نظر دارید، تا یک کمپین تبلیغاتی اجرا کنید. برای اجرای این کمپین دو روش وجود دارد:

در روش اول (روش تک کلیکی) کاربر با دیدن بنر تبلیغاتی روی آن کلیک می‌کند و به صفحه‌ی وب‌سایت هدایت می‌شود. در روش دوم (روش دو کلیکی) کاربر با دیدن بنر و کلیک بر آن، ابتدا به یک صفحه‌ی میانی که در آن کلمات کلیدی مختلف و مرتبط با تبلیغ بودند، هدایت شده و در صورتی که بر روی یکی از کلمات کلیدی کلیک کند، به صفحه‌ی وب‌سایت مورد نظر انتقال داده می‌شود.

با توجه به این که در روش دو کلیکی مخاطب باید مراحل بیشتری را بگذراند تا وارد صفحه اصلی وب‌سایت شود، پیش‌بینی اولیه این است که در روش دو کلیکی نرخ تبدیل کمتری داشته باشیم؛ یعنی نسبت کسانی که به وب‌سایت نهایی هدایت می‌شوند به کسانی که تبلیغ را می‌بینند، کاهش بیابد؛ اما از سوی دیگر انتظار داریم که در این روش، کاربران با کیفیت‌تری به صفحه وب‌سایت منتقل شوند و بنابراین میزان فروش به ازای هر کاربر افزایش یابد. بنابراین کمپین به روش آزمون A/B اجرا شده و نتایج زیر بدست می‌آید:

همان‌طور که پیش‌بینی می‌شد، نتایج اولیه حاکی از آن است که در روش دو کلیکی میزان فروش به ازای هر کاربر بالاتر از روش تک کلیکی باشد. اما آیا مسئله حل شده است؟ برای این که کمی بیشتر مسئله را درک کنیم، یک تفکیک میان کاربران انجام می‌دهیم و آن‌ها را به دو دسته‌ی کاربران داخل آمریکا و کاربران خارج آمریکا تقسیم می‌کنیم. بدین ترتیب جدول داده‌ها به شرح زیر خواهدبود؛

اتفاق شگفت‌انگیری در حال رخ دادن است! در روش تک کلیکی میانگین خرید کاربران چه در داخل آمریکا و چه خارج از آمریکا از روش دو کلیکی بیشتر است. دانستن این موضوع برای یک مدیر دیجیتال مارکتینگ بسیار حیاتی است.

متغیر پنهان در این مسئله تفاوت رفتار کاربران مناطق مختلف است. به‌ طور کلی، کاربران آمریکایی سرانه‌ی درآمد بالاتری دارند و به همین‌دلیل مصرف‌گرایی و خرید کردن میان آنان شایع‌تر است. همین امر و تفاوت فاحش میانگین خرید کاربران آمریکایی و غیرآمریکایی باعث شده است، که وقتی تجمیعی به این مسئله نگاه کنیم، میانگین خرید کاربران در روش دو کلیکی بالاتر باشد.

در این جا، یک بحث قابل توجه نیز برای مدیران محصول و بازاریابی مطرح است. به‌ طور کلی اگر قرار باشد شما به ازای هر کاربری که از طریق بنر تبلیغاتی وارد وب‌سایت شما شده‌ مبلغی پرداخت کنید، بدیهی است که این مبلغ در روش دو کلیکی بیشتر خواهد بود. برای مثال اگر شرکتی که به آن تبلیغات داده‌اید، به ازای هر کاربری که در روش یک کلیکی از طریق بنر وارد وب‌سایت شود، مبلغ ۱ دلار دریافت کند، این عدد در روش دو کلیکی حداقل ۱.۵ دلار خواهد بود. بنابراین استفاده از روش دو کلیکی نه‌تنها باعث می‌شود که درآمد بالقوه‌ی بیشتری را از دست بدهید، بلکه باید هزینه بیشتری نیز بپردازید.

تبعیض جنسیتی در دانشگاه UC Berkeley

در سال ۱۹۷۳، عده‌ای از فعالان حقوق زنان از دانشگاه UC Berkeley آمریکا که جزو ۱۰ دانشگاه برتر جهان است، شکایتی را ثبت کردند. آن‌ها مدعی بودند که این دانشگاه در پذیرش دانشجوی تحصیلات تکمیلی، میان مردان و زنان تبعیض قائل شده و درصد بیشتری از مردان را قبول می‌کند. آن‌ها برای اثبات ادعای خود، جدول زیر را ارائه دادند:

در نگاه اول، به‌ نظر می‌رسید که یک تبعیض جنسی ۹ درصدی میان متقاضیان آقا و خانم در دانشگاه برکلی وجود دارد؛ اما هنگامی که پژوهشگران این نتایج را تفکیک شده و دانشکده به دانشکده بررسی کردند، نتایج جالبی به دست آمد. در میان ۸۵ دانشکده‌ی این دانشگاه، ۶ دانشکده به‌ طور قابل توجهی در برابر مردان مغرضانه عمل می‌کند. این در حالی است که تنها ۴ دانشکده علیه زنان سوگیری داشته است. اکنون اطلاعات ۶ دانشکده بزرگ این دانشگاه را نمایش داده و اطلاعات آن را تفکیک‌شده بررسی می‌کنیم:

همان‌طور که مشخص است، در میان این ۶ دانشکده‌ی بزرگ، ۴ دانشکده درصد بیشتری از خانم‌ها را نسبت به آقایان پذیرفته است. حتی در یک مورد (دانشکده A) اختلاف ۲۰ درصدی میان درصد پذیرش خانم‌ها و آقایان وجود دارد و احتمالا نسبت به پذیرش آقایان برخورد جهت‌گیرانه صورت گرفته است. بنابراین اعتراض فعالان حقوق زنان وارد نبوده و اساسا اگر قرار بر اعتراض باشد، با توجه به این نتایج، جامعه‌ی مردان می‌توانست مدعی ناعدالتی و تبعیض باشد.

حال به سراغ علت این پارادوکس می‌رویم. به‌ نظر شما چه دلیلی سبب شده که با وجود آن‌ که در اکثر دانشکده‌ها درصد پذیرش خانم‌ها نسبت به آقایان بیشتر بوده است، با نگاه تجمیعی به موضوع درصد پذیرش آقایان حدودا ۱۰ درصد بیشتر از بانوان باشد؟

دلیل رخ دادن پارادوکس سیمپسون در این مسئله نوع متقاضیان است. تعداد زیادی از خانم‌ها، متقاضی حضور در دانشکده‌هایی هستند که درصد پذیرش اندکی داشته و رقابت بیشتری در آن‌جا وجود دارد (برای مثال دانشکده‌ زبان انگلیسی)؛ در حالی که بیشتر مردان متقاضی حضور در دانشکده‌هایی هستند که درصد پذیرش بیشتری دارند و طبعا رقابت برای حضور در آن دانشکده نیز کمتر است (برای مثال دانشکده فنی-مهندسی). در جدول نیز مشخص است، برای دانشکده‌ی A که دانشکده بزرگی است، ۸۲۵ مرد متقاضی بودند در حالی که تنها ۱۰۸ خانم متقاضی حضور در آن‌جا بوده‌اند.

کمی ریاضیات!

حال پس از بررسی چندین مسئله و مدل‌های مختلف پارادوکس سیمپسون، بد نیست کمی ریاضیاتی به این موضوع نگاه و شرط لازم برای رخ دادن «پارادوکس سیمپسون» را از زبان ریاضی بیان کنیم.

فرض کنید احتمال رخداد مجموعه‌ی A را P(A) بنامیم. اکنون A را به n دسته تقسیم کرده و احتمال موفقیت هر کدام را P(Ai) می‌نامیم. با این فرض که:

حال به طریق مشابه، فرض کنید احتمال رخداد مجموعه‌ی B را P(B) بنامیم. اکنون B را به n دسته تقسیم می‌کنیم و احتمال موفقیت هر کدام را P(Bi)می‌نامیم. پارادوکس سیمپسون در صورتی رخ می‌دهد که داشته باشیم:

بیان این عبارت به زبان ساده، دقیقا همان چیزی است که در این مقاله بررسی کردیم؛ یعنی شرایطی که احتمال وقوع یک رخداد در حالت کلی بالاتر از حالت دیگر است؛ اما وقتی آن رویداد را تفکیک کرده و دسته‌های تفکیک شده را با یکدیگر بررسی می‌کنیم، احتمال رخ دادن دسته‌ها از حالت اولیه پیروی نمی‌کند.

همان‌طور که متوجه شدید، دامنه گستردگی پارادوکس سیمپسون بسیار وسیع است. بنابراین لازم است که برای اخذ تصمیمات داده‌محور، از تمام جوانب جمع‌آوری آن داده‌ها باخبر بوده و روابط علت و معلولی پشت‌پردهٔ آن رویداد را بدانیم.