بایاسِ مجموعه داده چگونه زندگی اجتماعی ما را به خطر میاندازد؟

پیش از آغاز: ویرگول (که دیگر به جرات می‌توانیم به آن مدیوم فارسی بگوییم) آغاز دوباره زندگی وبلاگ‌نویسی من است. اولین شبکه اجتماعی ایرانی که مشتاقانه عضوش می‌شوم و امیدوارم بتوانم فارغ از شلوغی‌ شبکه‌های اجتماعی، در گوشه‌ای خلوت، خوانده‌ها، دیده‌ها، شنیده‌ها و ایده‌هایم را کنار هم جمع کنم.

تمرکز بیشتر نوشته‌هایم بر روی علمِ داده و تاثیر آن در کسب‌وکار و جامعه خواهد بود. حوزه‌ای که اگر تا اینجا آمده‌اید حتما از اهمیت آن باخبر هستید و نیازی به توضیح اضافی درباره‌ آن نیست. به خاطر داشته‌ باشیم که وبلاگ‌نویسی یادگیری در کنار اشتراک‌گذاری است، پس پیشاپیش از خطاهای محتمل فنی و لفظی در نوشته‌ها عذرخواهی می‌کنم.



در یک بعد از ظهر بهاری در سال ۲۰۱۴، بریشا بوردن ۱۸ ساله دوچرخه‌ی پسربچه ۶ ساله‌ای که کنار خیابان رها شده است را سوار می‌شود. مادر پسربچه که متوجه این اتفاق شده، با داد و فریاد بدنبال بوردن می‌افتد و متوقفش می‌کند. پلیس بوردن را به جرم سرقت دستگیر می‌کند. ورنون پراتر ۴۱ ساله نیز حوالی تابستان گذشته دستگیر شده است. او چیزی در حدود ۸۶ دلار ابزارآلات از یک فروشگاه محلی سرقت کرده بود. هرچند هر دو سرقت، سرقت‌های سبکی تلقی می‌شوند ولی پرونده کیفری این دو نفر متفاوت است. بوردن یک جوجه دزد است. جز چند دزدی نوجوانانه چیزی در پرونده‌اش نیست. اما پراتر سابقه یک دزدی مسلحانه را نیز در پرونده‌اش دارد که قبلا او را ۵ سال به زندان فرستاده است.

الگوریتم‌ها نقش مهمی در تصمیم‌گیری ایالت‌های مختلف آمریکا در رهایی افراد از زندان‌ها و کمک به تصمیم‌گیری قضات دارند. یکی از این الگوریتم‌ها که توسط شرکت Northpointe توسعه داده شده است و بصورت گسترده در ایالت فلوریدا استفاده می‌شود، میزان خطرناک بودن زندانیان در آینده را تخمین می‌زند. علی‌رغم سابقه کیفری افراد، این مدل کامپیوتری بوردن را - که سیاه‌پوست است- بسیار خطرناک و پراتر را - که سفید پوست است- کم‌خطر تشخیص می‌دهد. دو سال بعد از رهایی هر دو، بوردن هنوز هیچ جرمی مرتکب نشده است ولی پراتر به جرم حمله به یک انبار لوازم الکترونیکی به ۸ سال حبس محکوم می‌شود.

مدل کامپیوتری بریشا بوردن را پرخطر و ورنون پراتر را کم خطر تشخیص می‌دهد. رفتار در دنیای واقعی خلاف این موضوع را ثابت می‌کند.
مدل کامپیوتری بریشا بوردن را پرخطر و ورنون پراتر را کم خطر تشخیص می‌دهد. رفتار در دنیای واقعی خلاف این موضوع را ثابت می‌کند.


این الگو در بررسی آماری دیگر جرایم سال‌های ۲۰۱۳ و ۲۰۱۴ ایالت فلوریدا نیز قابل مشاهده است. در واقع فقط ۲۰٪ کسانی که پیش‌بینی شده است جرم جدیدی مرتکب شوند، مرتکب این جرم شده‌اند. اما موضوع وقتی جالب‌تر می‌شود که سوالاتی را بررسی کنیم که پاسخ آن‌ها بعنوان ورودی‌های این مدل یادگیری ماشین استفاده شده‌اند:

  • آیا یکی از اعضای درجه یک خانواده شما تا بحال در زندان بوده است؟
  • آیا به نظر شما یک فرد گرسنه حق دزدی دارد؟
  • چند نفر از دوستان شما مواد مخدر مصرف می‌کنند؟

و سوالاتی از این دست (لیست کامل سوال‌ها) که پاسخ آن‌ها با پرسش از خود شخص یا بررسی پرونده او بدست می‌‌آیند. همانطوری که می‌بینید، هیچ سوالی درباره جنیست، سن و نژاد افراد پرسیده نمی‌شود و بعنوان ورودی در اختیار مدل قرار نمی‌گیرد. پس چرا این مدل به اشتباه سیاه‌پوستان را خطرناک‌تر از سفیدپوستان تشخیص می‌دهد؟

پاسخ روشن است: طی سالیان طولانی قضاوت در دادگاه‌های آمریکایی توسط قضّاتی صورت گرفته است که بایاس ذهنی نسبت به سیاه‌پوستان داشته‌اند. این مدل یادگیری ماشین نیز از روی همین داده‌ها آموزش دیده است، پس طبیعی است که بر اساس دانسته‌های خود عمل کند.

مثالی که بررسی کردیم یکی از نمونه‌های شناخته‌ شده‌ی بایاس در مجموعه‌ داده (بایاس دیتاست) است. گزارش کامل و جنجالی این اتفاق را در پروپابلیکا بخوانید.

بیایید در چند مثال‌ بعدی نگاه به تصمیم‌هایی بیاندازیم که نقش مهم‌تری در زندگی روزمره ما دارند:

بایاسِ مجموعه داده و تبعیض جنسیتی در تبلیغات گوگل

در سال ۲۰۱۵ تحقیقی توسط دانشگاه کارنگی ملون (Carnegie Mellon) صورت گرفت که میزان عدالت (Fairness) در تبلیغات آنلاین گوگل را بررسی می‌کرد. نتایج این تحقیق شگفت‌آور بودند و ثابت می‌کردند که مشخصا تعداد زنان کمتری نسبت به مردان تبلیغ شغل‌هایی با پرداخت بیش از ۲۰۰هزار دلار در سال را دریافت می‌کنند. این تحقیق که توسط ابزاری به نام Adfisher صورت گرفت، نشان می‌داد در مقابل ۱۸۰۰ بار نمایش شغل‌های با درآمد بالا به مردان فقط این تبلیغ‌ها ۳۰۰ بار به زنان نمایش داده شده‌اند که مشخصا نشان از تبعیض جنسیتی در تصمیم‌گیری را دارد. پروفسور آناپوم داتا در این‌باره می‌گوید:

بسیاری از تصمیم‌های مهم در نمایش یا عدم نمایش تبلیغ‌های آنلاین توسط خود الگوریتم‌ها گرفته می‌شوند. ما باید قدرت کنترل بیشتری روی این جعبه‌های سیاه تصمیم‌گیری اعمال کنیم تا قادر باشیم ارزش‌های انسانی‌مان را حفظ کنیم.

بایاسِ مجموعه داده و تبعیض نژادی در ارسال بسته‌های پستی آمازون

یکی دیگر از مواردی که در بین مثال‌های بایاسِ مجموعه داده بسیار شناخته شده است مربوط به آمازون است. راه‌ اندازی سرویس "تحویل آنی" آمازون خبر مهمی برای این شرکت بود. از این پس آمازون می‌توانست سفارشات برخی مشتریان خود را بصورت آنی و طی همان روز تحویل دهد. اما چیزی نگذشته بود که سرویس خبری بلومبرگ به پدیده عجیبی پی برد. تحقیقات بلومبرگ نشان می‌داد که ارائه سرویس "تحویل آنی" آمازون برای محله‌هایی از آمریکا که جمعیت سیاه‌پوستان آن بیشتر است امکان‌پذیر نبود.

بلومبرگ کدپستی تمامی خانه‌های ایالت‌های مختلف را وارد سیستم آمازون و امکان یا عدم امکان "تحویل آنی" را برایشان ثبت می‌کرد. پس از بررسی همه کدهای پستی نقشه زیر بدست آمد:

مناطق سفید رنگ تحت پوشش سرویس
مناطق سفید رنگ تحت پوشش سرویس "تحویل آنی" آمازون نیستند. این مناطق اغلب محل زندگی سیاه‌پوستان است.


بسیار عجیب بود که چرا الگوریتم آمازون محله‌ای با ۱۵ دقیقه فاصله را جزو لیست سیاه "تحویل آنی" خود قرار می‌داد. به گفته‌ی کریگ برمن، معاون ارتباطات جهانی آمازون:

ساختار نژادی محله‌ها هیچ‌گاه بخشی از داده‌هایی نبوده است که آمازون در طراحی نقشه‌های این سرویس دخیل کرده باشد. دموگرافیک شهروندان هیچ دخل و تصرفی در پردازش این داده‌ها نداشته است.

پس چرا آمازون به صورت اتوماتیک محله‌های سیاه‌پوست‌ نشین را از نقشه "تحویل آنی" خود حذف می‌کند؟

آمازون به هیچ وجه حاضر نیست جزییات داده‌های مورد استفاده در الگوریتم‌های خود را عمومی کند. این جزییات یکی از مهم‌ترین نقاط قوت آمازون در ارائه این سرویس هستند. برمن معتقد است که احتمالا این محلات به خاطر فاصله دور از مراکز تامین اینگونه شده‌اند ولی تحقیقات بلومبرگ ثابت می‌کند که حتی محلاتی در فاصله دورتر امکان بهره‌گیری از این سرویس آمازون را داشته‌اند. حتی بر اساس تحقیقات بلومبرگ تبعیض در توزیع کالا نمی‌تواند بخاطر درآمد سالیانه نیز باشد چراکه در شیکاگو، نیویورک، بوستون، آتلانتا شهروندانی که درآمد کمتری دارند نیز از این سرویس بهره‌مند بوده‌اند. چیزی که مشخص است این است که داده‌های آمازون دچار بایاسی هستند که الگوریتم را مجاب می‌کند سیاه‌پوستان را از این سرویس محروم کند.

در واشنگتن گوشه‌ی متراکمی از سیاه‌پوستان از
در واشنگتن گوشه‌ی متراکمی از سیاه‌پوستان از "سرویس آنی" آمازون حذف شده‌اند.


سه نوع شناخته شده از بایاسِ مجموعه داده وجود دارد:

۱. بایاس در جمع‌آوری داد‌ه‌ها (Sample Bias)

این نوع از بایاس در مجموعه داده زمانی رخ می‌دهد که داده‌های مورد استفاده برای ماشین با موقعیت‌های واقعی تفاوت داشته باشند. یکی از نمونه‌های شناخته شده در این نوع از بایاس، حادثه تصادف اتوموبیل خودران تسلا با یک کامیون است که منجر به مرگ براون، کنترل‌گر این اتوموبیل شد. (براون در زمان حادثه مشغول تماشای هری پاتر بود). در این حادثه، اتوموبیل تسلا بخش سفید کامیون را به اشتباه یک آسمان صاف تشخیص داده و ترمز را فعال نکرده بود.

سانحه اتوموبیل خودران تسلا با کامیون
سانحه اتوموبیل خودران تسلا با کامیون

۲. بایاس تعصبی (Prejudice Bias)

نمونه‌هایی از بایاس تعصبی را بالاتر دیدیم. تشخیص این نوع از بایاس در مجموعه داده، به مراتب سخت‌تر است ولی قطعا در مدل‌های پیش‌بینی، تاثیر خواهد گذاشت. (مثلا ممکن است افراد را سال‌های بیشتری در زندان نگه دارد!).

برای فهم بهتر موضوع طرح این مثال نیز خالی از لطف نیست: تصور کنید قصد داریم مدلی را برای تشخیص جنیست افراد آموزش دهیم. داده‌های ورودی‌ ما اغلب خانم‌ها را در آشپزخانه و مردان را پشت کامپیوتر نشان می‌دهند. این داده‌ها مدل‌ نهایی را در تشخیص جنیست دچار بایاس کرده و بدون توجه به پارامترهای مختلف بیشتر کسانی که پشت کامپیوتر باشند را مرد تشخیص خواهد داد. (افزایش FP و کاهش Acc)

۳. بایاس سیستمی (Systematic Value Distortion)

این نوع از بایاس در زمان جمع آوری اطلاعات و توسط سیستم اتفاق می‌افتد. دوربینی را تصور کنید که به دلیل ایراد داخل آن یه لایه رنگ آبی به تمامی تصاویر اضافه می‌کند.

گریز از بایاس در مجموعه داده

گریز از بایاس در مجموعه داده کار دشواری است. هر داده‌ای که نتیجه‌ی تصمیم‌گیری انسانی باشد، شانس بایاس در آن وجود دارد. اولین گام در حذف بایاس پرسش صادقانه این سوال است که چه پیش‌فرض‌های ذهنی در افراد وجود دارد که ممکن است منجر به بایاس شود؟ بسیاری شرکت‌ها برای این‌کار نیازمندی افرادی بیرون از سازمان‌شان می‌شوند که قادر باشد قضاوت بهتری از تصمیم‌گیری‌ها ارائه دهد.

-

پ.ن: سعی می‌کنم این نوشته را رها نکنم. بارها به آن برگردم و به روزش کنم.