NLP Enthusiast | Privacy Fan
بایاسِ مجموعه داده چگونه زندگی اجتماعی ما را به خطر میاندازد؟
پیش از آغاز: ویرگول (که دیگر به جرات میتوانیم به آن مدیوم فارسی بگوییم) آغاز دوباره زندگی وبلاگنویسی من است. اولین شبکه اجتماعی ایرانی که مشتاقانه عضوش میشوم و امیدوارم بتوانم فارغ از شلوغی شبکههای اجتماعی، در گوشهای خلوت، خواندهها، دیدهها، شنیدهها و ایدههایم را کنار هم جمع کنم.
تمرکز بیشتر نوشتههایم بر روی علمِ داده و تاثیر آن در کسبوکار و جامعه خواهد بود. حوزهای که اگر تا اینجا آمدهاید حتما از اهمیت آن باخبر هستید و نیازی به توضیح اضافی درباره آن نیست. به خاطر داشته باشیم که وبلاگنویسی یادگیری در کنار اشتراکگذاری است، پس پیشاپیش از خطاهای محتمل فنی و لفظی در نوشتهها عذرخواهی میکنم.
در یک بعد از ظهر بهاری در سال ۲۰۱۴، بریشا بوردن ۱۸ ساله دوچرخهی پسربچه ۶ سالهای که کنار خیابان رها شده است را سوار میشود. مادر پسربچه که متوجه این اتفاق شده، با داد و فریاد بدنبال بوردن میافتد و متوقفش میکند. پلیس بوردن را به جرم سرقت دستگیر میکند. ورنون پراتر ۴۱ ساله نیز حوالی تابستان گذشته دستگیر شده است. او چیزی در حدود ۸۶ دلار ابزارآلات از یک فروشگاه محلی سرقت کرده بود. هرچند هر دو سرقت، سرقتهای سبکی تلقی میشوند ولی پرونده کیفری این دو نفر متفاوت است. بوردن یک جوجه دزد است. جز چند دزدی نوجوانانه چیزی در پروندهاش نیست. اما پراتر سابقه یک دزدی مسلحانه را نیز در پروندهاش دارد که قبلا او را ۵ سال به زندان فرستاده است.
الگوریتمها نقش مهمی در تصمیمگیری ایالتهای مختلف آمریکا در رهایی افراد از زندانها و کمک به تصمیمگیری قضات دارند. یکی از این الگوریتمها که توسط شرکت Northpointe توسعه داده شده است و بصورت گسترده در ایالت فلوریدا استفاده میشود، میزان خطرناک بودن زندانیان در آینده را تخمین میزند. علیرغم سابقه کیفری افراد، این مدل کامپیوتری بوردن را - که سیاهپوست است- بسیار خطرناک و پراتر را - که سفید پوست است- کمخطر تشخیص میدهد. دو سال بعد از رهایی هر دو، بوردن هنوز هیچ جرمی مرتکب نشده است ولی پراتر به جرم حمله به یک انبار لوازم الکترونیکی به ۸ سال حبس محکوم میشود.
این الگو در بررسی آماری دیگر جرایم سالهای ۲۰۱۳ و ۲۰۱۴ ایالت فلوریدا نیز قابل مشاهده است. در واقع فقط ۲۰٪ کسانی که پیشبینی شده است جرم جدیدی مرتکب شوند، مرتکب این جرم شدهاند. اما موضوع وقتی جالبتر میشود که سوالاتی را بررسی کنیم که پاسخ آنها بعنوان ورودیهای این مدل یادگیری ماشین استفاده شدهاند:
- آیا یکی از اعضای درجه یک خانواده شما تا بحال در زندان بوده است؟
- آیا به نظر شما یک فرد گرسنه حق دزدی دارد؟
- چند نفر از دوستان شما مواد مخدر مصرف میکنند؟
و سوالاتی از این دست (لیست کامل سوالها) که پاسخ آنها با پرسش از خود شخص یا بررسی پرونده او بدست میآیند. همانطوری که میبینید، هیچ سوالی درباره جنیست، سن و نژاد افراد پرسیده نمیشود و بعنوان ورودی در اختیار مدل قرار نمیگیرد. پس چرا این مدل به اشتباه سیاهپوستان را خطرناکتر از سفیدپوستان تشخیص میدهد؟
پاسخ روشن است: طی سالیان طولانی قضاوت در دادگاههای آمریکایی توسط قضّاتی صورت گرفته است که بایاس ذهنی نسبت به سیاهپوستان داشتهاند. این مدل یادگیری ماشین نیز از روی همین دادهها آموزش دیده است، پس طبیعی است که بر اساس دانستههای خود عمل کند.
مثالی که بررسی کردیم یکی از نمونههای شناخته شدهی بایاس در مجموعه داده (بایاس دیتاست) است. گزارش کامل و جنجالی این اتفاق را در پروپابلیکا بخوانید.
بیایید در چند مثال بعدی نگاه به تصمیمهایی بیاندازیم که نقش مهمتری در زندگی روزمره ما دارند:
بایاسِ مجموعه داده و تبعیض جنسیتی در تبلیغات گوگل
در سال ۲۰۱۵ تحقیقی توسط دانشگاه کارنگی ملون (Carnegie Mellon) صورت گرفت که میزان عدالت (Fairness) در تبلیغات آنلاین گوگل را بررسی میکرد. نتایج این تحقیق شگفتآور بودند و ثابت میکردند که مشخصا تعداد زنان کمتری نسبت به مردان تبلیغ شغلهایی با پرداخت بیش از ۲۰۰هزار دلار در سال را دریافت میکنند. این تحقیق که توسط ابزاری به نام Adfisher صورت گرفت، نشان میداد در مقابل ۱۸۰۰ بار نمایش شغلهای با درآمد بالا به مردان فقط این تبلیغها ۳۰۰ بار به زنان نمایش داده شدهاند که مشخصا نشان از تبعیض جنسیتی در تصمیمگیری را دارد. پروفسور آناپوم داتا در اینباره میگوید:
بسیاری از تصمیمهای مهم در نمایش یا عدم نمایش تبلیغهای آنلاین توسط خود الگوریتمها گرفته میشوند. ما باید قدرت کنترل بیشتری روی این جعبههای سیاه تصمیمگیری اعمال کنیم تا قادر باشیم ارزشهای انسانیمان را حفظ کنیم.
بایاسِ مجموعه داده و تبعیض نژادی در ارسال بستههای پستی آمازون
یکی دیگر از مواردی که در بین مثالهای بایاسِ مجموعه داده بسیار شناخته شده است مربوط به آمازون است. راه اندازی سرویس "تحویل آنی" آمازون خبر مهمی برای این شرکت بود. از این پس آمازون میتوانست سفارشات برخی مشتریان خود را بصورت آنی و طی همان روز تحویل دهد. اما چیزی نگذشته بود که سرویس خبری بلومبرگ به پدیده عجیبی پی برد. تحقیقات بلومبرگ نشان میداد که ارائه سرویس "تحویل آنی" آمازون برای محلههایی از آمریکا که جمعیت سیاهپوستان آن بیشتر است امکانپذیر نبود.
بلومبرگ کدپستی تمامی خانههای ایالتهای مختلف را وارد سیستم آمازون و امکان یا عدم امکان "تحویل آنی" را برایشان ثبت میکرد. پس از بررسی همه کدهای پستی نقشه زیر بدست آمد:
بسیار عجیب بود که چرا الگوریتم آمازون محلهای با ۱۵ دقیقه فاصله را جزو لیست سیاه "تحویل آنی" خود قرار میداد. به گفتهی کریگ برمن، معاون ارتباطات جهانی آمازون:
ساختار نژادی محلهها هیچگاه بخشی از دادههایی نبوده است که آمازون در طراحی نقشههای این سرویس دخیل کرده باشد. دموگرافیک شهروندان هیچ دخل و تصرفی در پردازش این دادهها نداشته است.
پس چرا آمازون به صورت اتوماتیک محلههای سیاهپوست نشین را از نقشه "تحویل آنی" خود حذف میکند؟
آمازون به هیچ وجه حاضر نیست جزییات دادههای مورد استفاده در الگوریتمهای خود را عمومی کند. این جزییات یکی از مهمترین نقاط قوت آمازون در ارائه این سرویس هستند. برمن معتقد است که احتمالا این محلات به خاطر فاصله دور از مراکز تامین اینگونه شدهاند ولی تحقیقات بلومبرگ ثابت میکند که حتی محلاتی در فاصله دورتر امکان بهرهگیری از این سرویس آمازون را داشتهاند. حتی بر اساس تحقیقات بلومبرگ تبعیض در توزیع کالا نمیتواند بخاطر درآمد سالیانه نیز باشد چراکه در شیکاگو، نیویورک، بوستون، آتلانتا شهروندانی که درآمد کمتری دارند نیز از این سرویس بهرهمند بودهاند. چیزی که مشخص است این است که دادههای آمازون دچار بایاسی هستند که الگوریتم را مجاب میکند سیاهپوستان را از این سرویس محروم کند.
سه نوع شناخته شده از بایاسِ مجموعه داده وجود دارد:
۱. بایاس در جمعآوری دادهها (Sample Bias)
این نوع از بایاس در مجموعه داده زمانی رخ میدهد که دادههای مورد استفاده برای ماشین با موقعیتهای واقعی تفاوت داشته باشند. یکی از نمونههای شناخته شده در این نوع از بایاس، حادثه تصادف اتوموبیل خودران تسلا با یک کامیون است که منجر به مرگ براون، کنترلگر این اتوموبیل شد. (براون در زمان حادثه مشغول تماشای هری پاتر بود). در این حادثه، اتوموبیل تسلا بخش سفید کامیون را به اشتباه یک آسمان صاف تشخیص داده و ترمز را فعال نکرده بود.
۲. بایاس تعصبی (Prejudice Bias)
نمونههایی از بایاس تعصبی را بالاتر دیدیم. تشخیص این نوع از بایاس در مجموعه داده، به مراتب سختتر است ولی قطعا در مدلهای پیشبینی، تاثیر خواهد گذاشت. (مثلا ممکن است افراد را سالهای بیشتری در زندان نگه دارد!).
برای فهم بهتر موضوع طرح این مثال نیز خالی از لطف نیست: تصور کنید قصد داریم مدلی را برای تشخیص جنیست افراد آموزش دهیم. دادههای ورودی ما اغلب خانمها را در آشپزخانه و مردان را پشت کامپیوتر نشان میدهند. این دادهها مدل نهایی را در تشخیص جنیست دچار بایاس کرده و بدون توجه به پارامترهای مختلف بیشتر کسانی که پشت کامپیوتر باشند را مرد تشخیص خواهد داد. (افزایش FP و کاهش Acc)
۳. بایاس سیستمی (Systematic Value Distortion)
این نوع از بایاس در زمان جمع آوری اطلاعات و توسط سیستم اتفاق میافتد. دوربینی را تصور کنید که به دلیل ایراد داخل آن یه لایه رنگ آبی به تمامی تصاویر اضافه میکند.
گریز از بایاس در مجموعه داده
گریز از بایاس در مجموعه داده کار دشواری است. هر دادهای که نتیجهی تصمیمگیری انسانی باشد، شانس بایاس در آن وجود دارد. اولین گام در حذف بایاس پرسش صادقانه این سوال است که چه پیشفرضهای ذهنی در افراد وجود دارد که ممکن است منجر به بایاس شود؟ بسیاری شرکتها برای اینکار نیازمندی افرادی بیرون از سازمانشان میشوند که قادر باشد قضاوت بهتری از تصمیمگیریها ارائه دهد.
-
پ.ن: سعی میکنم این نوشته را رها نکنم. بارها به آن برگردم و به روزش کنم.
مطلبی دیگر از این انتشارات
سیستم های توصیه گر (Recommender System): صد دانه یاقوت
مطلبی دیگر از این انتشارات
تخلیه مراکز تماس به دلیل پاندمیک کرونا و راه حل هوش مصنوعی برای آن
مطلبی دیگر از این انتشارات
شبیه سازی الگوریتم PageRank گوگل با استفاده از کدهای پایتون