ویرگول
ورودثبت نام
DataDays 2021
DataDays 2021سومین دورۀ DataDays، رویداد علوم دادۀ دانشگاه صنعتی شریف
DataDays 2021
DataDays 2021
خواندن ۴ دقیقه·۵ سال پیش

فقر و داده

داده‌‌ها در بسیاری از تصمیم‌های اقتصادی و سیاسی نقش مهمی دارند. از داده‌های جمعیتی برای اندازه‌گیری و بررسی شاخص‌های مختلف اقتصادی و اجتماعی استفاده میشود که در انجام سیاست‌های حمایتی و تخصیص منابع بسیار تاثیرگذار هستند. در اصل حکومت‌ها نیاز دارند که مواردی مانند توزیع ثروت در جامعه و اقشار ضعیف را شناسایی کنند که این شناسایی با استفاده از داده‌هایی که در سرشماری‌ها، پیمایش‌های آماری، بیمارستان‌ها، بانک‌ها و ... تولید می‌شوند انجام می‌شود.

در بسیاری از کشورهای توسعه‌نیافته به دلیل ضعف زیرساخت‌ها و محدودیت‌های مالی داده‌هایی که امکان چنین بررسی‌هایی را فراهم می‌کنند وجود ندارند. ایده‌‌ای که در این شرایط مطرح می‌شود استفاده از داده‌هایی مانند عکس‌های ماهواره‌ای و تماس‌های تلفنی است که در نگاه اول شاید ارتباط مستقیمی به بحث بررسی فقر و دسترسی به منابع نداشته‌باشند.

نقشۀ مناطق ثروتمند (قسمت‌های روشن‌تر) و فقیر (قسمت‌های تیره‌تر) در کشور نیجریه که توسط الگوریتم‌هایی که از داده‌های تماس تلفنی و عکس ماهواره‌ای استفاده می‌کنند تولید شده‌است.
نقشۀ مناطق ثروتمند (قسمت‌های روشن‌تر) و فقیر (قسمت‌های تیره‌تر) در کشور نیجریه که توسط الگوریتم‌هایی که از داده‌های تماس تلفنی و عکس ماهواره‌ای استفاده می‌کنند تولید شده‌است.

در سال 2015 چند تن از پژوهشگران دانشگاه برکلی توانستند با استفاده از داده‌های تماس‌های تلفنی در کشور رواندا و الگوریتم‌های یادگیری ماشین با دقت خوبی وضعیت دسترسی به امکانات و فقر را در این کشور بررسی کنند.اطلاعات 1.5 میلیون تماسی که در یک بازۀ یک ساله در کشور گرفته شده در دادگان وجود دارد. این اطلاعات شامل شمارۀ فردی که تماس را گرفته و فردی که تماس را دریافت کرده و همچنین اطلاعاتی مانند مدت زمان تماس و مشخصات جغرافیایی دکل‌های مخابراتی برقرارکنندۀ تماس می‌شود. برای استفاده از الگوریتم‌های یادگیری نظارت‌شده (supervised learning) نیاز است که وضعیت ثروت برخی از افرادی که در داده وجود دارند مشخص باشد تا بتوان با استفاده از آنها وضعیت ثروت و امکانات بقیۀ داده را پیش‌بینی کرد. علاوه بر این نیاز است که امکان بررسی صحت پیش‌بینی‌های انجام شده وجود داشته‌باشد.

رواندا کشوری در آفریقای مرکزی است که حدود 12 میلیون جمعیت دارد. آخرین سرشماری در این کشور در سال 2012 انجام شده که با سرشماری قبلی بیش از 30 سال فاصله دارد. در سال های نزدیک به سال 2015 نیز توسط برخی نهادهای بین‌المللی در این کشور پیمایش‌هایی آماری صورت گرفته و مواردی مانند دسترسی به برق، آب آشامیدنی و میزان درآمد در این کشور مطالعه شده‌است. وجود این پیمایش‌ها و امکان ترکیب داده‌های آنها با داده‌های موجود در تماس‌های تلفنی این امکان را به پژوهشگران میدهد که برای بخشی از داده‌های تماس‌های تلفنی اطلاعات مربوط به میزان ثروت را داشته باشند و بتوانند صحت پیش‌بینی‌های انجام شده را بررسی کنند. مشکل اولی که مطرح شد عدم وجود رکوردهایی بود که برای آنها وضعیت ثروت مشخص باشد. بخشی از این رکوردها که در اصل رکوردهای دارای برچسب هستند با تماس مستقیم و مصاحبه با افراد به دست آمده و بخشی دیگر نیز با ترکیب داده های تماس تلفنی با داده‌های پیمایش های آماری تهیه شده‌اند. در نهایت میتوان با استفاده از این داده‌های برچسب‌دار که وضعیت دسترسی به امکانات برای آنها مشخص است برای آموزش مدل استفاده کرد و سپس از مدل به دست آمده برای پیشبینی داده های بدون برچسب بهره برد.

موقعیت رواندا در قارۀ آفریقا روی نقشه
موقعیت رواندا در قارۀ آفریقا روی نقشه

می‌توان با استفاده از داده ها به اطلاعاتی دربارۀ افراد پی برد. مثلا با بررسی موقعیت مراکز مخابراتی که تماس‌های نیمه شب و نزدیک به ساعت خواب یک فرد خاص به آنها مربوط شده میتوان با احتمال بالایی حدود محل زندگی او را به دست آورد. همچنین با تحلیل‌های آماری میتوان فهمید که مواردی مثل مدت زمان مکالمه، تنوع مخاطبین، وجود تماس‌های خارجی و میزان شارژ حساب تلفن با میزان دسترسی فرد به امکانات همبستگی مثبت دارند.

بعد از پیش‌بینی با استفاده از مدل و بررسی نتایج مشخص می‌شود که می‌توان تا حد خوبی برای تخمین میزان ثروت افراد از این روش استفاده کرد. مثلا در نمودار زیر، مقادیر پیش‌بینی شده در محور افقی و موارد واقعی ثروت که از پیمایش‌های آماری به دست آمده‌اند در محور عمودی قرار گرفته‌اند که همبستگی خوبی بین این دو مشاهده می‌شود. باید در نظر گرفت که این مقادیر استانداردسازی شده‌اند و مقدار واقعی نیستند. همچنین میتوان با توجه به موقعیت دکل‌های مخابراتی نقشه‌ای از توزیع فقر در کشور را تهیه کرد.

مقایسۀ خروجی‌های مدل با داده‌های موجود
مقایسۀ خروجی‌های مدل با داده‌های موجود

در پژوهش مشابهی که در دوران شیوع کرونا در کشور توگو انجام شد از داده‎های تماس تلفنی و عکس‌های ماهواره ای برای شناسایی خانوارهایی استفاده شد که دولت قصد داشت به آنها تسهیلاتی به خاطر آسیب دادن از نظر اقتصادی در دوران کرونا اهدا کند. اقدامات مشابهی نیز در سال های اخیر در تعدادی از کشور های کمتر توسعه یافته مانند بنگلادش و افغانستان در حال انجام است.

استفاده از این داده‌ها برای بررسی فقر در رواندا طبق ادعای پژوهشگران باعث کاهش 99 درصدی هزینه‌ها شده و بسیار سریع‌تر است. از طرفی مشکلاتی مانند تجاوز به حریم خصوصی افراد و ملاحظات اخلاقی ورود حکومت به زندگی مردم و ایجاد برنامه‌هایی که فعالیت‌های آنها را به شدت تحت نظر می‌گیرد در انجام این‌گونه پژوهش ها وجود دارد. همچنین این امکان وجود دارد که با متداول شدن استفاده از این روش ها، مردم با انجام اقداماتی الگوریتم ها را دور بزنند. مثلا مردم در آفریقا فهمیدند با تغییر شکل و رنگ سقف خانه‌هایشان میتوانند شانس دریافت کمکهای مالی را افزایش دهند.

در نهایت باید در نظر داشت که الگوریتم‌ها علیرغم ضعف های بسیاری که دارند میتوانند امکان به کار بردن روش‌هایی نسبتا سریع و ارزان برای مطالعه فقر را با استفاده از داده‌هایی مثل تماس‌های تلفنی که در کشورهای توسعه‌نیافته در دسترس است فراهم کرده و به توزیع بهتر منابع و سیاست‌گذاری اقتصادی کمک کنند.

منابع:

http://science.sciencemag.org/cgi/rapidpdf/353/6301/753?ijkey=dclBF54r08Rpw&keytype=ref&siteid=sci

https://www.nature.com/articles/d41586-018-06215-5

http://www.sciencemag.org/cgi/rapidpdf/350/6264/1073?ijkey=jl1FOo2RaNJQk&keytype=ref&siteid=sci


دادهتحلیل دادهیادگیری ماشین
۶
۰
DataDays 2021
DataDays 2021
سومین دورۀ DataDays، رویداد علوم دادۀ دانشگاه صنعتی شریف
شاید از این پست‌ها خوشتان بیاید