عرفان لقمانی
عرفان لقمانی
خواندن ۱۳ دقیقه·۵ سال پیش

بخش اول جلسهٔ دوم: تفاوت‌ها از کجا میاد؟

این سومین پست از سری پستاییه که توش دارم یافته‌هام رو از درس Using Big Data to Solve Economic and Social Problems می‌نویسم. پست اول این مجموعه رو می‌تونید از اینجا ببینید.

توی پست قبلی روی این مساله که توی آمریکا فرصت بهبود وضعیت اقتصادی چقدر برای افراد وجود داره دقیق شدیم و با استفاده از داده‌های مالیاتی و جمعیتی تونستیم در بیاریم توی هر ناحیهٔ جغرافیایی بچه‌‌هایی که والدینشون درآمد کمی نسبت به بقیه داشتن وقتی بزرگ شدن چقدر تونستن از نظر اقتصادی وضعیت خوبی داشته باشن. و به یه همچین نقشه‌ای رسیدیم:

نقشهٔ میزان بهبود وضعیت اقتصادی در ناحیه‌های مختلف آمریکا برای فرزندانی که در خانواده‌های کم درآمد بزرگ شدن منبع: opportunityinsights.com
نقشهٔ میزان بهبود وضعیت اقتصادی در ناحیه‌های مختلف آمریکا برای فرزندانی که در خانواده‌های کم درآمد بزرگ شدن منبع: opportunityinsights.com


که توش جاهایی که رنگ آبی دارن یعنی اون بچه‌ها به طور میانگین درآمد بیشتری داشتن و جاهایی که قرمزن یعنی به طور میانگین درآمد کمتری داشتن.

جالبه که این حجم از تفاوت رنگ که توی کل نقشه دیده میشه وقتی توی نقشه دقیق‌تر هم بشیم وجود داره. یعنی یه منطقه که رنگش توی نقشهٔ بالا قرمز یا آبیه لزوما همه جاش یه رنگ نیستن. مثلا این نقشه برای شهر بوستون که دانشگاه هاروارد توشه این شکلیه:

نقشهٔ میزان بهبود وضعیت اقتصادی در ناحیه‌های مختلف شهر بوستون برای فرزندانی که در خانواده‌های کم درآمد بزرگ شدن عکس صفحه از opportunityatlas.org
نقشهٔ میزان بهبود وضعیت اقتصادی در ناحیه‌های مختلف شهر بوستون برای فرزندانی که در خانواده‌های کم درآمد بزرگ شدن عکس صفحه از opportunityatlas.org

این موضوع از این نظر جالبه که دو تا ناحیهٔ مجاور که شاید چند کیلومتر فاصله داشته باشن و حتی بچه‌های هر دو ناحیه هم به یه مدرسه برن ممکنه نتایجشون مقدار زیادی فرق کنه. البته باید حواسمون باشه که ناحیه‌ها اونقدر کوچیک نباشن که این تفاوته صرفا یه تفاوت تصادفی باشه. هر ناحیهٔ نقشهٔ بالا یه Census tract ه که به طور میانگین ۴۰۰۰ نفر جمعیت داره.

توی این متن این رو بررسی می‌کنیم که این تفاوت‌ها از کجا میاد؟ جاهایی که توی این معیار خوب عمل کردن چه شکلی بودن و اصلا از این تفاوت‌ها چه نتیجه‌هایی می‌تونیم بگیریم؟

دسته‌بندی علت این تفاوت‌ها

کلا دو دسته از عوامل می‌تونن این اختلاف‌هایی که توی نقشه می‌بینیم رو توضیح بدن:

  1. آدمایی که شبیه به همن توی یه ناحیه جمع شدن و علت تفاوت ناحیه‌ها در واقع تفاوت ویژگی‌های آدماشه. به این اتفاق Sorting می‌گن.
  2. این تفاوت‌ها به خاطر تفاوت‌های خود ناحیه‌ها است یعنی ویژگی‌هایی از اون ناحیه دلیل تفاوت نتیجهٔ فرزندا بوده.

دونستن این که هر کدوم از عوامل بالا چقدر موثرن بهمون کمک می‌کنه که سیاست‌های درستی رو انتخاب کنیم. مثلا اگه تفاوت فقط به خاطر تفاوت آدما باشه باید سیاست‌هامون افراد رو مستقل از جایی که زندگی می‌کنن ببینه و مثلا اگه یه گروه جمعیتی (مثلا افراد مهاجر سی تا چهل ساله) هستن که دارن بد عمل می‌کنن به اونا کمک کنیم.

اگه هم که تفاوتا به خاطر ویژگی‌های اون ناحیه‌ است در بیاریم که اون ویژگی‌های خوب چین و چطوری می‌تونیم از این اطلاعات برای بهبود منطقه‌هایی که وضعیت خوبی ندارن استفاده کنیم.

چطوری بفهمیم جواب کدوم یکیه؟

اگه بخوایم ببینیم چقدر از علت‌ها به خاطر ویژگی‌های ناحیه‌هاست یه آزمایش ایده‌آل اینه که یه سری فرزند رو ورداریم و به صورت تصادفی توی ناحیه‌های مختلف پخش کنیم و نتیجه رو بررسی کنیم. فکر کنم مشکلای این آزمایش مشخص باشه براتون، مثلا این که اصلا چرا اونا باید این کار رو قبول کنن؟ چقدر اجراییه و چند نفر رو میشه این کار رو براشون کرد و ...

برای این که بدون این که واقعا این آزمایش رو بکنیم بتونیم به جواب سوال برسیم، روشی که به کمک داده‌ها می‌تونیم ازش استفاده کنیم اینه که یه «شبه‌آزمایش» طراحی کنیم. یعنی یه چیزی رو از روی داده‌ها بسنجیم که تا حد خوبی بتونه سوالمون رو جواب بده.

ایده‌ای که برای بررسی این سوال بهش پرداختن اینه که خانواده‌هایی که از یه ناحیه نقل مکان کردن به یه ناحیهٔ دیگه رو بردارن و فرزنداشون رو بر اساس سنشون توی زمان جابه‌جایی دسته‌بندی کنن و ببینن اونایی که از یه جای بد رفتن به جای خوب عملکردشون چه ارتباطی به سنشون توی زمان جابه‌جایی داره. این نمودار نتیجهٔ این بررسی رو نشون میده:

میانگین درآمد فرزندایی که توی یه سن مشخص به یه ناحیهٔ بهتر نقل مکان کردن منبع: opportunityinsights.com
میانگین درآمد فرزندایی که توی یه سن مشخص به یه ناحیهٔ بهتر نقل مکان کردن منبع: opportunityinsights.com

واقعا من خودم فکر نمی‌کردم همچین نمودار تر و تمیزی در بیاد. نمودار میگه که بچه‌هایی که توی سن کمتری از یه ناحیهٔ بد رفتن به یه ناحیهٔ خوب عملکردشون بهتر بوده. و خب نشون میده که ناحیه‌ای که بچه‌ها توش بزرگ میشن توی آیندشون تاثیر داره.

چیزی رو جا ننداختیم؟

وقتی یه همچین شبه‌آزمایشی رو انجام میدیم خوبه که دقت کنیم که چه چیزایی رو داریم درش فرض می‌گیریم که اگه اون فرضا درست نباشن می‌تونن روی نتیجه‌گیری ما تاثیر داشته باشن. پس خوبه بپرسیم توی شبه‌آزمایش بالا فرض‌هامون چیا بوده؟

  • فرض اول اینه که والدینی که توی سن‌های مختلف بچه‌هاشون جابه‌جا میشن با هم فرقی ندارن. ممکنه این فرض درست نباشه و مثلا والدینی که وقتی بچه‌هاشون کوچیک‌ترن میرن یه جای بهتر تحصیل‌کرده‌تر باشن یا بیشتر به فکر باشن یا...
  • فرض دومی که داریم اینه که توی این جابه‌جایی عوامل دیگهٔ موثر روی فرزندا تغییر نمی‌کنن و فقط ناحیهٔ جغرافیایی که توشون بزرگ شدن تغییر میکنه. که اینم فرض کاملا درستی نیست چون همزمان با جابه‌جایی احتمالا عوامل دیگه‌ای هم عوض میشن مثل درآمد والدین.

یعنی کاریش نمیشه کرد؟

شاید در نگاه اول به نظر بیاد این فرض‌ها میتونن کشنده باشن و دیگه امیدی به درستی نتیجه نداشته باشیم، ولی صبر کنید. شاید بتونیم با توجه به این فرضا چیزای دیگه‌ای رو هم آزمایش کنیم که نتیجهٔ قبلیمون رو ارزیابی کنه.

تاثیر فرض اول رو به صورت جالبی اینطوری بررسی کردن که اومدن و خواهر و برادرهای یه خانواده که با هم نقل مکان کردن ولی یکیشون بزرگ‌تر بوده رو مقایسه کردن با هم و دیدن اونجا هم بچه‌هایی که موقع انتقال سنشون کمتر بوده بعدا نتیجهٔ بهتری داشتن. یعنی وقتی خانواده یکسان بوده برای دو نفر باز هم نقل مکان توی سن کمتر به یه جای بهتر مفید بوده.

برای فرض دوم هم اومدن اختلاف‌ها رو توی زیرگروه‌های مختلف بررسی کردن. به این آزمایش‌ها Placebo test میگه. کلا Placebo test ها توی پزشکی و تست داروها هم مهمن و این رو بررسی می‌کنن که آیا تاثیر دارو واقعا به خاطر مواد توشه؟ یا صرفا یه اثر روانیه که چون رفتی و اینو از دکتر گرفتی باعث میشه که بهتر بشی؟ جالبه که اخیرا نشون دادن حتی بعضی از عمل‌های جراحی هم به همین دلیل موثرن و اگه فرد صرفا بره توی اطاق عمل و دکتر عمل اصلی رو انجام نده و مثلا فقط باز کنه و ببنده هم تعداد زیادی از مریضا بهبود پیدا می‌کنن. :-o

برگردیم به مسالهٔ خودمون. برای بررسی فرض دوم کاری که کردن این بوده که مساله رو برای زیرگروه‌های مختلف بررسی کردن، مثلا فرض کنید که دو تا ناحیه هستن که داده میگه به طور میانگین وضعیت پسرای ناحیهٔ اول ده هزار دلار بدتر از ناحیهٔ دومه ولی وضعیت دختراش شبیه به همه. حالا اگه بیایم و توی خانواده‌هایی که هم دختر دارن و هم پسر این تاثیر جابه‌جایی رو بررسی کنیم و ببینیم که پسرا وضعشون بهتر شده ولی دخترا فرقی نکردن می‌تونیم نتیجه بگیریم که این بهتر شدنه نمی‌تونه به خاطر علت دیگه‌ای مثل درآمد بیشتر والدین باشه و به ناحیه‌ای که بچه‌ها توش بزرگ میشن مرتبطه.

راستش خودم هنوز نفهمیدم ربط این آزمایش به Placebo های دارویی و پزشکی که بالا گفتم چیه و چرا اینجا اسمش اینه. اگه نظری داشتید خوشحال میشم بگید بهم.

خلاصه با این بررسیا به این نتیجه رسیدن دو سوم تفاوت‌های بهبود وضعیت اقتصادی بچه‌ها مربوط به جاییه که توش بزرگ میشن.

مشخصات جاهای با بهبود وضعیت اقتصادی بیشتر چیه؟

حالا که دیدیم که ناحیه‌ای که بچه‌ها توش بزرگ میشن روی بهبود وضعیت اقتصادیشون موثره این سوال مطرح میشه که ناحیه‌هایی که توی این مورد بهتر عمل می‌کنن چه ویژگی‌هایی دارن. البته باید اینجا تاکید کنم که این بررسی صرفا یه بررسی از جنس همبستگیه و مثلا اگه بفهمیم جاهایی که نرخ بولینگ بازی کردن توشون بیشتره بهبود وضعیت اقتصادی افراد هم توش بیشتره دلیل نمیشه که بریم بولینگ بازی کردن رو تشویق کنیم. (جالبه بدونید انگار بولینگ بازی کردن همچین ناهمبسته هم نیست به موضوع :)) )

قبل از این که چیزای موثر رو بررسی کنیم برای این که روش هم یکم مشخص بشه بیایم ببینیم نرخ بهبود وضعیت اقتصادی با نرخ رشد مشاغل چطوری ارتباط داره. برای این بررسی نمودار زیر رو ببینید:

میانگین درآمد فرزندای خانواده‌های کم‌درآمد نسبت به میزان رشد مشاغل برای تعدادی از شهرای بزرگ آمریکا منبع: opportunityinsights.com
میانگین درآمد فرزندای خانواده‌های کم‌درآمد نسبت به میزان رشد مشاغل برای تعدادی از شهرای بزرگ آمریکا منبع: opportunityinsights.com

این نمودار بهمون میگه که میزان رشد مشاغل به بهبود وضعیت اقتصادی فرزندای خانواده‌های کم درآمد تقریبا ربطی نداره، یعنی شهرایی هستن مثل شارلوت یا آتلانتا که نرخ رشد مشاغلشون زیاده، ولی فرزندای خانواده‌های کم‌درآمد وقتی بزرگ شدن نتونستن درآمد خوبی اونجا به دست بیارن. و خب شاید یه دلیلش این باشه که آدم‌ها از شهرای دیگه اومدن و اون مشاغل رو گرفتن و این رشد مشاغل نتونسته به بچه‌های خانواده‌های کم‌درآمد همون منطقه کمک کنه.

حالا برگردیم به این سوال که چه پارامترهایی بیشترین همبستگی رو با میزان بهبود وضعیت اقتصادی خانواده‌های کم‌درآمد داره. یعنی جاهایی که این بهبود توشون زیاد بوده توی چه عامل‌های دیگه‌ای خوب بودن و برعکس. نتایج این بررسی هم جالبه ولی من خیلی موردهاش رو باز نمی‌کنم و صرفا بهشون اشاره می‌کنم. اگه دوست داشتید برید فیلم کلاس رو ببینید و یا خود مقاله‌ای که این بخش درس از روی اونه رو بخونید.

عوامل موثری که توی کلاس بهشون اشاره می‌شه اینان:

  1. میزان جداسازی نژادی (Segregation یعنی این که چقدر آدمای با نژاد یکسان توی ناحیه‌های یکسان زندگی می‌کنن) که دیدن هر چی این جداسازی کمتر باشه نتیجهٔ فرزندا بهتره. شکل پایین این جداسازی رو برای دو تا شهر تصویر کرده.
  2. میزان نابرابری درآمدی که یه جور واریانس درآمده و این که مردم طبقهٔ متوسط چه کسری از افراد رو تشکیل میدن که دیدن هر چی این نابرابری کمتر باشه نتیجهٔ فرزندا بهتره.
  3. کیفیت مدارس که معیار دقیقی براش نیست ولی مثلا با تعداد دانش‌آموزای هر کلاس و پارامترایی شبیه این اندازه گرفتن و دیدن هر چی کیفیت مدارس بیشتر باشه نتیجهٔ فرزندا بهتر بوده.
  4. ساختار خانواده این که مثلا چه کسری از بچه‌ها فقط با یکی از والدین زندگی می‌کنن و دیدن که هر چی ساختار خانواده توی ناحیه بهتر باشه نتیجهٔ فرزندا بهتره. جالبه که حتی دیدن که فرزندایی که خودشون با هر دو والدین زندگی می‌کنن ولی توی ناحیه‌ای هستن که نرخ تک‌والد بودن زیاده هم نتایج بدتری گرفتن.
  5. سرمایهٔ اجتماعی یعنی این که چقدر توی اون ناحیه‌ها آدما به هم کمک می‌کنن و هوای همدیگه رو دارن که دیدن هر چی اون ناحیه توی این موضوع بهتر باشه نتیجهٔ فرزندا هم بهتره.
مقایسهٔ میزان جداسازی نژادی بین دو شهر آتلانتا و سکرمنتو. توی سکرمنتو جداسازی کمتره و ناحیه‌هایی که نژادهای مختلف کنار هم زندگی کنن بیشتره منبع: opportunityinsights.com
مقایسهٔ میزان جداسازی نژادی بین دو شهر آتلانتا و سکرمنتو. توی سکرمنتو جداسازی کمتره و ناحیه‌هایی که نژادهای مختلف کنار هم زندگی کنن بیشتره منبع: opportunityinsights.com

اون داستان بولینگ که بالاتر گفتم ربطش به مورد پنجمه یعنی سرمایهٔ اجتماعی. کلا اندازه گیری سرمایهٔ اجتماعی سخته و انگار یه کتاب نوشته شده توی ۱۹۹۵ هست به اسم تنهایی بولینگ کردن که توش این که آدما دارن کمتر با هم دوستی می‌کنن یا کمتر کارا اجتماعی انجام میدن رو بررسی کرده و دیده حتی آدما دارن بیشتر تنهایی بولینگ میرن و اینو گذاشته روی اسم کتاب. و خب توی پژوهشی که این بخش درس از روی اونه هم اومدن و همبستگی تعداد بولینگ‌های هر ناحیه رو با بهبود وضعیت فرزندا اندازه گرفتن و دیدن همبستگی قابل توجهی داره. ولی خب بازم باید توجه کنیم که این همبستگی دلیل نمیشه که بریم بولینگ‌ها رو زیاد کنیم.

پس چه کنیم؟

اگه این همبستگیا نمی‌تونه بهمون راه‌کار بده که چی کار کنیم پس برای این که دربارهٔ سیاست‌هایی که می‌خوایم انتخاب کنیم تصمیم بگیریم باید چی کار کنیم؟ به این سوال توی ادامهٔ این جلسه و چند تا جلسهٔ بعدی می‌پردازیم... پس منتظر باشید. (-B

ممنون از

سینا که پیشنویس رو خوند و نظرش رو گفت و کمک کرد ساختار متن بهتر بشه. همین‌طور خانم لباف که پیشنویس رو خوندن و یکم هم بحث کردیم دربارهٔ این که چطوری میشه روابط علی رو در اورد و اگه «شبه‌آزمایشا» جوابن چطوری باید یه «شبه‌آزمایش» خوب طراحی کنیم. به نظرم سوال مهمیه که خودم هم هنوز جوابش رو نمی‌دونم و امیدوارم با دیدن مسائل بیشتر و جلوتر رفتن به جوابش برسیم. دربارهٔ ربط Placebo ی اینجا و پزشکی هم یه چیزایی پیدا کردن که قرار شد خودشون تو پاسخ‌ها بنویسن. :)


این پست از مجموعه پستاییه که توش مسیر خودم توی درس Using Big Data to Solve Economic and Social Problems و چیزایی که ازش یاد می‌گیرم و برام جالبه رو به اشتراک می‌ذارم. پست اول این مجموعه رو می‌تونید از اینجا ببینید و پست قبلی رو از اینجا ببینید.

خیلی خوبه اگه نظری داشتید یا جایی نکته‌ای میدید که من بهش توجه نکرده بودم یا مشکلی توی روند استدلالا بود توی قسمت پاسخ‌ها مطرح کنید تا دربارش حرف بزنیم.

کلا هم اگه این نوشته براتون جالب بود یا فکر می‌کردید کسی رو میشناسید که به این موضوعا علاقه داره و این متن به کارش میاد باهاش به اشتراک بذارید. :)


پست بعدی رو می‌تونید از اینجا ببینید:

https://vrgl.ir/U2Re6
داده‌کاویعلوم اجتماعی محاسباتیعلوم اجتماعیعلم داده
شاید از این پست‌ها خوشتان بیاید