این سومین پست از سری پستاییه که توش دارم یافتههام رو از درس Using Big Data to Solve Economic and Social Problems مینویسم. پست اول این مجموعه رو میتونید از اینجا ببینید.
توی پست قبلی روی این مساله که توی آمریکا فرصت بهبود وضعیت اقتصادی چقدر برای افراد وجود داره دقیق شدیم و با استفاده از دادههای مالیاتی و جمعیتی تونستیم در بیاریم توی هر ناحیهٔ جغرافیایی بچههایی که والدینشون درآمد کمی نسبت به بقیه داشتن وقتی بزرگ شدن چقدر تونستن از نظر اقتصادی وضعیت خوبی داشته باشن. و به یه همچین نقشهای رسیدیم:
که توش جاهایی که رنگ آبی دارن یعنی اون بچهها به طور میانگین درآمد بیشتری داشتن و جاهایی که قرمزن یعنی به طور میانگین درآمد کمتری داشتن.
جالبه که این حجم از تفاوت رنگ که توی کل نقشه دیده میشه وقتی توی نقشه دقیقتر هم بشیم وجود داره. یعنی یه منطقه که رنگش توی نقشهٔ بالا قرمز یا آبیه لزوما همه جاش یه رنگ نیستن. مثلا این نقشه برای شهر بوستون که دانشگاه هاروارد توشه این شکلیه:
این موضوع از این نظر جالبه که دو تا ناحیهٔ مجاور که شاید چند کیلومتر فاصله داشته باشن و حتی بچههای هر دو ناحیه هم به یه مدرسه برن ممکنه نتایجشون مقدار زیادی فرق کنه. البته باید حواسمون باشه که ناحیهها اونقدر کوچیک نباشن که این تفاوته صرفا یه تفاوت تصادفی باشه. هر ناحیهٔ نقشهٔ بالا یه Census tract ه که به طور میانگین ۴۰۰۰ نفر جمعیت داره.
توی این متن این رو بررسی میکنیم که این تفاوتها از کجا میاد؟ جاهایی که توی این معیار خوب عمل کردن چه شکلی بودن و اصلا از این تفاوتها چه نتیجههایی میتونیم بگیریم؟
کلا دو دسته از عوامل میتونن این اختلافهایی که توی نقشه میبینیم رو توضیح بدن:
دونستن این که هر کدوم از عوامل بالا چقدر موثرن بهمون کمک میکنه که سیاستهای درستی رو انتخاب کنیم. مثلا اگه تفاوت فقط به خاطر تفاوت آدما باشه باید سیاستهامون افراد رو مستقل از جایی که زندگی میکنن ببینه و مثلا اگه یه گروه جمعیتی (مثلا افراد مهاجر سی تا چهل ساله) هستن که دارن بد عمل میکنن به اونا کمک کنیم.
اگه هم که تفاوتا به خاطر ویژگیهای اون ناحیه است در بیاریم که اون ویژگیهای خوب چین و چطوری میتونیم از این اطلاعات برای بهبود منطقههایی که وضعیت خوبی ندارن استفاده کنیم.
اگه بخوایم ببینیم چقدر از علتها به خاطر ویژگیهای ناحیههاست یه آزمایش ایدهآل اینه که یه سری فرزند رو ورداریم و به صورت تصادفی توی ناحیههای مختلف پخش کنیم و نتیجه رو بررسی کنیم. فکر کنم مشکلای این آزمایش مشخص باشه براتون، مثلا این که اصلا چرا اونا باید این کار رو قبول کنن؟ چقدر اجراییه و چند نفر رو میشه این کار رو براشون کرد و ...
برای این که بدون این که واقعا این آزمایش رو بکنیم بتونیم به جواب سوال برسیم، روشی که به کمک دادهها میتونیم ازش استفاده کنیم اینه که یه «شبهآزمایش» طراحی کنیم. یعنی یه چیزی رو از روی دادهها بسنجیم که تا حد خوبی بتونه سوالمون رو جواب بده.
ایدهای که برای بررسی این سوال بهش پرداختن اینه که خانوادههایی که از یه ناحیه نقل مکان کردن به یه ناحیهٔ دیگه رو بردارن و فرزنداشون رو بر اساس سنشون توی زمان جابهجایی دستهبندی کنن و ببینن اونایی که از یه جای بد رفتن به جای خوب عملکردشون چه ارتباطی به سنشون توی زمان جابهجایی داره. این نمودار نتیجهٔ این بررسی رو نشون میده:
واقعا من خودم فکر نمیکردم همچین نمودار تر و تمیزی در بیاد. نمودار میگه که بچههایی که توی سن کمتری از یه ناحیهٔ بد رفتن به یه ناحیهٔ خوب عملکردشون بهتر بوده. و خب نشون میده که ناحیهای که بچهها توش بزرگ میشن توی آیندشون تاثیر داره.
وقتی یه همچین شبهآزمایشی رو انجام میدیم خوبه که دقت کنیم که چه چیزایی رو داریم درش فرض میگیریم که اگه اون فرضا درست نباشن میتونن روی نتیجهگیری ما تاثیر داشته باشن. پس خوبه بپرسیم توی شبهآزمایش بالا فرضهامون چیا بوده؟
شاید در نگاه اول به نظر بیاد این فرضها میتونن کشنده باشن و دیگه امیدی به درستی نتیجه نداشته باشیم، ولی صبر کنید. شاید بتونیم با توجه به این فرضا چیزای دیگهای رو هم آزمایش کنیم که نتیجهٔ قبلیمون رو ارزیابی کنه.
تاثیر فرض اول رو به صورت جالبی اینطوری بررسی کردن که اومدن و خواهر و برادرهای یه خانواده که با هم نقل مکان کردن ولی یکیشون بزرگتر بوده رو مقایسه کردن با هم و دیدن اونجا هم بچههایی که موقع انتقال سنشون کمتر بوده بعدا نتیجهٔ بهتری داشتن. یعنی وقتی خانواده یکسان بوده برای دو نفر باز هم نقل مکان توی سن کمتر به یه جای بهتر مفید بوده.
برای فرض دوم هم اومدن اختلافها رو توی زیرگروههای مختلف بررسی کردن. به این آزمایشها Placebo test میگه. کلا Placebo test ها توی پزشکی و تست داروها هم مهمن و این رو بررسی میکنن که آیا تاثیر دارو واقعا به خاطر مواد توشه؟ یا صرفا یه اثر روانیه که چون رفتی و اینو از دکتر گرفتی باعث میشه که بهتر بشی؟ جالبه که اخیرا نشون دادن حتی بعضی از عملهای جراحی هم به همین دلیل موثرن و اگه فرد صرفا بره توی اطاق عمل و دکتر عمل اصلی رو انجام نده و مثلا فقط باز کنه و ببنده هم تعداد زیادی از مریضا بهبود پیدا میکنن. :-o
برگردیم به مسالهٔ خودمون. برای بررسی فرض دوم کاری که کردن این بوده که مساله رو برای زیرگروههای مختلف بررسی کردن، مثلا فرض کنید که دو تا ناحیه هستن که داده میگه به طور میانگین وضعیت پسرای ناحیهٔ اول ده هزار دلار بدتر از ناحیهٔ دومه ولی وضعیت دختراش شبیه به همه. حالا اگه بیایم و توی خانوادههایی که هم دختر دارن و هم پسر این تاثیر جابهجایی رو بررسی کنیم و ببینیم که پسرا وضعشون بهتر شده ولی دخترا فرقی نکردن میتونیم نتیجه بگیریم که این بهتر شدنه نمیتونه به خاطر علت دیگهای مثل درآمد بیشتر والدین باشه و به ناحیهای که بچهها توش بزرگ میشن مرتبطه.
راستش خودم هنوز نفهمیدم ربط این آزمایش به Placebo های دارویی و پزشکی که بالا گفتم چیه و چرا اینجا اسمش اینه. اگه نظری داشتید خوشحال میشم بگید بهم.
خلاصه با این بررسیا به این نتیجه رسیدن دو سوم تفاوتهای بهبود وضعیت اقتصادی بچهها مربوط به جاییه که توش بزرگ میشن.
حالا که دیدیم که ناحیهای که بچهها توش بزرگ میشن روی بهبود وضعیت اقتصادیشون موثره این سوال مطرح میشه که ناحیههایی که توی این مورد بهتر عمل میکنن چه ویژگیهایی دارن. البته باید اینجا تاکید کنم که این بررسی صرفا یه بررسی از جنس همبستگیه و مثلا اگه بفهمیم جاهایی که نرخ بولینگ بازی کردن توشون بیشتره بهبود وضعیت اقتصادی افراد هم توش بیشتره دلیل نمیشه که بریم بولینگ بازی کردن رو تشویق کنیم. (جالبه بدونید انگار بولینگ بازی کردن همچین ناهمبسته هم نیست به موضوع :)) )
قبل از این که چیزای موثر رو بررسی کنیم برای این که روش هم یکم مشخص بشه بیایم ببینیم نرخ بهبود وضعیت اقتصادی با نرخ رشد مشاغل چطوری ارتباط داره. برای این بررسی نمودار زیر رو ببینید:
این نمودار بهمون میگه که میزان رشد مشاغل به بهبود وضعیت اقتصادی فرزندای خانوادههای کم درآمد تقریبا ربطی نداره، یعنی شهرایی هستن مثل شارلوت یا آتلانتا که نرخ رشد مشاغلشون زیاده، ولی فرزندای خانوادههای کمدرآمد وقتی بزرگ شدن نتونستن درآمد خوبی اونجا به دست بیارن. و خب شاید یه دلیلش این باشه که آدمها از شهرای دیگه اومدن و اون مشاغل رو گرفتن و این رشد مشاغل نتونسته به بچههای خانوادههای کمدرآمد همون منطقه کمک کنه.
حالا برگردیم به این سوال که چه پارامترهایی بیشترین همبستگی رو با میزان بهبود وضعیت اقتصادی خانوادههای کمدرآمد داره. یعنی جاهایی که این بهبود توشون زیاد بوده توی چه عاملهای دیگهای خوب بودن و برعکس. نتایج این بررسی هم جالبه ولی من خیلی موردهاش رو باز نمیکنم و صرفا بهشون اشاره میکنم. اگه دوست داشتید برید فیلم کلاس رو ببینید و یا خود مقالهای که این بخش درس از روی اونه رو بخونید.
عوامل موثری که توی کلاس بهشون اشاره میشه اینان:
اون داستان بولینگ که بالاتر گفتم ربطش به مورد پنجمه یعنی سرمایهٔ اجتماعی. کلا اندازه گیری سرمایهٔ اجتماعی سخته و انگار یه کتاب نوشته شده توی ۱۹۹۵ هست به اسم تنهایی بولینگ کردن که توش این که آدما دارن کمتر با هم دوستی میکنن یا کمتر کارا اجتماعی انجام میدن رو بررسی کرده و دیده حتی آدما دارن بیشتر تنهایی بولینگ میرن و اینو گذاشته روی اسم کتاب. و خب توی پژوهشی که این بخش درس از روی اونه هم اومدن و همبستگی تعداد بولینگهای هر ناحیه رو با بهبود وضعیت فرزندا اندازه گرفتن و دیدن همبستگی قابل توجهی داره. ولی خب بازم باید توجه کنیم که این همبستگی دلیل نمیشه که بریم بولینگها رو زیاد کنیم.
اگه این همبستگیا نمیتونه بهمون راهکار بده که چی کار کنیم پس برای این که دربارهٔ سیاستهایی که میخوایم انتخاب کنیم تصمیم بگیریم باید چی کار کنیم؟ به این سوال توی ادامهٔ این جلسه و چند تا جلسهٔ بعدی میپردازیم... پس منتظر باشید. (-B
سینا که پیشنویس رو خوند و نظرش رو گفت و کمک کرد ساختار متن بهتر بشه. همینطور خانم لباف که پیشنویس رو خوندن و یکم هم بحث کردیم دربارهٔ این که چطوری میشه روابط علی رو در اورد و اگه «شبهآزمایشا» جوابن چطوری باید یه «شبهآزمایش» خوب طراحی کنیم. به نظرم سوال مهمیه که خودم هم هنوز جوابش رو نمیدونم و امیدوارم با دیدن مسائل بیشتر و جلوتر رفتن به جوابش برسیم. دربارهٔ ربط Placebo ی اینجا و پزشکی هم یه چیزایی پیدا کردن که قرار شد خودشون تو پاسخها بنویسن. :)
این پست از مجموعه پستاییه که توش مسیر خودم توی درس Using Big Data to Solve Economic and Social Problems و چیزایی که ازش یاد میگیرم و برام جالبه رو به اشتراک میذارم. پست اول این مجموعه رو میتونید از اینجا ببینید و پست قبلی رو از اینجا ببینید.
خیلی خوبه اگه نظری داشتید یا جایی نکتهای میدید که من بهش توجه نکرده بودم یا مشکلی توی روند استدلالا بود توی قسمت پاسخها مطرح کنید تا دربارش حرف بزنیم.
کلا هم اگه این نوشته براتون جالب بود یا فکر میکردید کسی رو میشناسید که به این موضوعا علاقه داره و این متن به کارش میاد باهاش به اشتراک بذارید. :)
پست بعدی رو میتونید از اینجا ببینید: