عرفان لقمانی
عرفان لقمانی
خواندن ۹ دقیقه·۵ سال پیش

ادامهٔ جلسهٔ اول: بررسی فرصت برابر بهبود وضعیت اقتصادی

این دومین پست از سری پستاییه که توش دارم یافته‌هام رو از درس Using Big Data to Solve Economic and Social Problems می‌نویسم.

قبل از شروع بگم که توی کامنتای متن قبلی بحث خوبی با آرش شکل گرفت که خوندنش رو توصیه می‌کنم و توش دربارهٔ فایدهٔ این جور مطالعه‌ها صحبت خوبی کردیم.

توی متن قبلی که بخش اول جلسهٔ اول درس رو پوشش می‌داد انگیزهٔ درس و این که این درس چرا و چجوری می‌تونه بهمون کمک کنه رو دیدیم. از اونجایی که روند درس مساله محوره یعنی توی هر بخش به یه مسالهٔ اقتصادی-اجتماعی می‌پردازه و در کنارش چیزای آموزشی که لازمه رو هم می‌گنجونه درس خیلی سریع وارد اولین مساله یعنی «فرصت برابر برای افراد» توی جامعهٔ آمریکا میشه.

فرصت برابر برای افراد

بذارید یه بار دیگه به تعریف درس از فرصت برابر یا رویای آمریکایی اشاره کنم. تعریف میگه: «اگه تو سخت کار کنی شانس اینو داری که توی توزیع درآمد از والدینت پیشی بگیری.» قبلا دیدیم که با این تعریف تقریبا میشه گفت روند کلی جامعهٔ آمریکا در طول زمان رو به افته یعنی درصد بچه‌هایی که از والدینشون درآمد بیشتری دارن در طول زمان داره کم میشه که توی نمودار زیر می‌تونید روندش رو ببینید.

درصد فرزندان متولد شده در هر سال که درآمدشون توی سی‌سالگی بیشتر از والدیندشون توی همون سن بوده منبع: opportunityinsights.org
درصد فرزندان متولد شده در هر سال که درآمدشون توی سی‌سالگی بیشتر از والدیندشون توی همون سن بوده منبع: opportunityinsights.org

این نمودار هر چند روند کلی رو بهمون نشون می‌ده ولی هنوز نمی‌تونه کمک کنه سوالامون مثل این که چرا روند نزولیه یا چطوری می‌تونیم بهبودش بدیم رو جواب بده. برای جواب دادن به این سوالا نیازه داده‌های بیشتری داشته باشیم.

سوال اول

اولین سوالی که بهش می‌پردازیم اینه که میزان پیشرفت فرزندایی که والدینشون درآمد کمی داشتن توی مناطق مختلف آمریکا چطوری فرق می‌کنه. این مشاهده بهمون کمک می‌کنه تفاوت‌های این مناطق رو بررسی کنیم تا شاید بتونیم علت‌های این تفاوت رو بفهمیم.

داده‌هایی که استفاده می‌کنیم

اگه بتونیم دادهٔ درآمد والدین و فرزندا رو به ازای هر فرزند داشته باشیم و در کنارش داده‌های جغرافیایی مکان زندگی افراد رو هم داشته باشیم می‌تونیم تحلیل‌های دقیق‌تری بکنیم و داده‌های جزئی‌تری نسبت به نمودار بالا به دست بیاریم مثل وضعیت بهبود شرایط اقتصادی افراد برای هر منطقه.

برای این کار داده‌هایی که استفاده کردن ایناست:

  • داده‌های مربوط به سرشماری‌های آمریکا که توی سال‌های ۲۰۰۰ و ۲۰۱۰ انجام شدن
  • داده‌های مالیاتی افراد که بین سال‌های ۱۹۸۹ تا ۲۰۱۵ جمع شده

از داده‌های مالیاتی استفاده کردن برای این که درآمد افراد رو به دست بیارن. و چون توی فرم هر کس بچه‌هایی که داره رو هم باید گزارش کنه (نرخ مالیات وابسته به تعداد فرزندهاست) میشه که هر فرزندی رو به والدینش وصل کرد.

جامعهٔ هدف مطالعه بچه‌هایی‌ان که بین سال‌های ۱۹۷۸ تا ۱۹۸۳ متولد شدن تا بتونیم درآمدشون رو توی حدود سی سالگی محاسبه کنیم.

با وصل کردن داده‌های سرشماری و مالیات اطلاعات لازم برای ۲۰.۵ میلیون فرزند که توی اون سال‌ها به دنیا اومدن رو داریم که ۹۶ درصد جامعهٔ هدف رو پوشش میده. دلیل این که صد درصد نیست اینه که برای بعضی بچه‌ها داده‌های مالیاتی ثبت نشده یا توی سرشماری نبودن یا... ولی در مجموع ۹۶ درصد، عدد قابل قبولیه.

روش بررسی‌مون چطوریه؟

برای درآمد والدین درآمدشون رو بین ۱۹۹۴ تا ۲۰۰۰ میانگین می‌گیریم. برای فرزندا هم درآمدشون رو توی ۲۰۱۴ و ۲۰۱۵ که آخرین سال‌های داده است میانگین می‌گیریم که میشه توی سن ۳۱ تا ۳۷ سالگی فرزندا.

یه کار خوبی که کردن اینه که توی بررسی‌ها این که هر کسی توی چه صدکی از درآمد افتاده رو درنظر گرفتن و از خود عدد درآمد استفاده نکردن. یعنی به صورت جداگونه برای والدین و برای بچه‌های متولد هر سال صدک‌بندی کردن. این کار یعنی افراد هر دسته رو مرتب کنی و توی صد دسته با تعداد برابر دسته‌بندی کنی و برای هر نفر شمارهٔ دستش رو در نظر بگیری. یعنی کسی که بیشترین درآمد رو داشته توی صدک صدم و کسی که از نصف آدما درآمد بیشتری داشته توی صدک پنجاهم قرار می‌گیرن.

حالا بیایم رابطهٔ صدک والدین و بچه‌هاشون رو توی هر منطقه بررسی کنیم مثلا برای شیکاگو نمودار زیر رو ببینید.

رابطهٔ صدک درآمدی فرزندها با صدک درآمدی والدینشون برای بچه‌هایی که توی شیکاگو بزرگ شدن منبع: opportunityinsights.com
رابطهٔ صدک درآمدی فرزندها با صدک درآمدی والدینشون برای بچه‌هایی که توی شیکاگو بزرگ شدن منبع: opportunityinsights.com

توی این نمودار برای هر صدک درآمدی والدین، صدک درآمدی فرزندای اونا رو میانگین گرفتیم. یعنی این نمودار صد تا نقطه به ازای هر صدک درآمدی والدین داره که هر کدوم میانگین درآمد فرزندای اون صدک رو مشخص می‌کنه. روند کلی نمودار با شهودی که از جامعه داریم همخونی داره و توش می‌بینیم که فرزندایی که توی خانواده‌های مرفه‌تر به دنیا اومدن به طور میانگین درآمد خودشون هم بیشتر بوده. به این مشاهده «دوام بین نسلی» (intergenerational persistence) می‌گن.

چیزی از این نمودار که برای سوالمون به دردمون می‌خوره اینه که فرزندای افراد صدک‌های پایین توی مناطق مختلف خودشون وقتی بزرگ شدن توی چه صدکی قرار گرفتن. برای این کار صدک ۲۵ ام رو به عنوان نماینده از صدک‌های پایین نمودار در نظر می‌گیریم. حالا می‌تونیم عدد مربوط به صدک ۲۵ ام رو به عنوان نمایندهٔ بچه‌هایی که والدینشون درآمد کمی دارن گزارش کنیم. ولی به نظرتون این کار، کار خوبیه؟ مثلا این نمودار که مال یه ناحیهٔ کوچیکه رو ببینید:

رابطهٔ صدک درآمدی فرزندها با صدک درآمدی والدینشون برای بچه‌هایی که توی یه ناحیهٔ خاص بزرگ شدن منبع: opportunityinsights.com
رابطهٔ صدک درآمدی فرزندها با صدک درآمدی والدینشون برای بچه‌هایی که توی یه ناحیهٔ خاص بزرگ شدن منبع: opportunityinsights.com

توی این نمودار می‌بینیم که نقاط از اون شمای کلی که با افزایش درآمد والدین، درآمد فرزندا بیشتر میشه پیروی می‌کنن. ولی نقاط این نمودار نسبت به نمودار قبلی پراکنده‌ترن و مثلا صدک بیست و چهارم و بیست و پنجم (که روی خط زرده) اختلاف زیادی دارن. این پراکندگی به خاطر اینه که تعداد خانواده‌ها توی این ناحیه نسبت به کل شیکاگو کمتره و عوامل تصادفی بیشتر ممکنه باعث بشن دو تا صدک متوالی اختلاف زیادی داشته باشن. برای این که بتونیم این اختلاف‌های تصادفی رو حل کنیم و حساسیتمون رو بهشون کم کنیم با توجه به این که داده‌ها شکل خطی دارن میایم و یه خط روی این نمودار برازش (fit) می‌کنیم. بعدش نقطهٔ روی ۲۵ این خط رو برای هر ناحیه گزارش می‌کنیم. مثلا توی این شکل و شکل قبلی تخمینمون برای بچه‌هایی که والدینشون توی صدک ۲۵ ام بودن اینه که به طور میانگین درآمدشون توی صدک ۴۰ میافته که حدودا معادل درآمد سی هزار دلار در ساله.

نتیجه

خب پس تا الان برای هر ناحیهٔ جغرافیایی یه عدد داریم که بچه‌هایی که والدینشون توی صدک ۲۵ ام درآمدی بودن خودشون به طور میانگین توی چه صدک درآمدی بودن. اگه بیایم این داده رو به صورت رنگی روی نقشهٔ آمریکا تصویر کنیم به این شکل می‌رسیم:

نقشهٔ میزان بهبود وضعیت اقتصادی در ناحیه‌های مختلف آمریکا برای فرزندانی که در خانواده‌های کم درآمد بزرگ شدن منبع: opportunityinsights.com
نقشهٔ میزان بهبود وضعیت اقتصادی در ناحیه‌های مختلف آمریکا برای فرزندانی که در خانواده‌های کم درآمد بزرگ شدن منبع: opportunityinsights.com

توی نگاه اول چیزی که مشاهده میشه اینه که این میزان بهبود وضعیت اقتصادی توی آمریکا بین مناطق مختلف خیلی فرق می‌کنه. راستش چون الان اطلاعات دقیقی از وضعیت و جغرافیای آمریکا ندارم نمی‌دونم این حرفم چقدر درسته ولی به نظر می‌رسه مناطق میانی و شمالی که اوضاع بهتری دارن جاهایین که زمین‌های زراعی بیشتری دارن. یه نکتهٔ جالب دیگه‌ای که توی نقشه هست اینه که اگه به وسط و یکم بالای نقشه نگاه کنید توی یکی از ایالتا که اسمش داکوتای جنوبیه هر چند بیشتر ایالت آبیه ولی دو تا ناحیه به طرز بدی قرمزن. توی کلاس یکی از دانشجوها می‌پرسه داستان اونا چی بوده؟ و انگار اون دو تا جا از جاهایین توی آمریکا که برای سرخپوستا اختصاص داده شده. (indian reservation)

این نقشه رو به صورت تعاملی هم در دسترس گذاشتن که می‌تونید شما هم ببینید و حتی توی ناحیه‌های مختلف دقیق شید و زوم کنید و تفاوتا رو توی ناحیه‌های کوچیک ببینید. یا پارامترایی مثل نرخ رشد منطقه یا درصد افراد زندانی توی منطقه رو هم بررسی کنید.

https://opportunityatlas.org/

توی این سایت یه سری داستان هم از روی این داده‌ها تعریف می‌کنه. یعنی مثلا توی یه ناحیه دقیق‌تر میشه و یه سری چیز رو بررسی می‌کنه که دیدنش جالبه مثلا داستانش دربارهٔ ناحیهٔ شارلوت یا تبعیض نژادی جالبن و توصیه‌ می‌کنم ببینید.

توی ادامهٔ درس اینو بررسی می‌کنیم که چه چیزایی می‌تونه باعث این تفاوت‌ها شده باشه مثلا آموزش چقدر می‌تونه موثر بوده باشه یا عوامل دیگه... بعدش هم سراغ این می‌ریم که چه سیاستایی می‌تونه وضعیت رو بهبود بده. به نظرم مباحث جالبی رو در پیش رو داریم. منتظر باشید :)

ممنون از

سینای عزیز که متنای قبلی رو که خوند گفت پیش‌نویس این رو هم براش بفرستم و کمک کرد جاهایی از متن که مبهمه رو بهبود بدم. و البته دوست دیگه‌ای که اولین کسی بود که پیش‌نویس رو خوند و نظرای خوب و سازنده‌ای داد ولی نمی‌خواست اسمش فاش بشه :)


این پست از مجموعه پستاییه که توش مسیر خودم توی درس Using Big Data to Solve Economic and Social Problems و چیزایی که ازش یاد می‌گیرم و برام جالبه رو به اشتراک می‌ذارم. پست اول این مجموعه رو می‌تونید از اینجا ببینید و پست قبلی رو از اینجا ببینید.

حتما اگه نظری داشتید یا نکته‌‌ای به نظرتون می‌رسید توی قسمت پاسخ‌ها باهام در میون بذارید. اگر هم کسی رو می‌شناختید که به این موضوعا علاقه‌منده و این پست ممکنه براش جذاب باشه خیلی خوبه اگه براش بفرستید.

پست بعدی رو می‌تونید از اینجا ببینید:

https://virgool.io/@erfan.loghmani/%D8%A8%D8%AE%D8%B4-%D8%A7%D9%88%D9%84-%D8%AC%D9%84%D8%B3%D9%87%D9%94-%D8%AF%D9%88%D9%85-%D8%AA%D9%81%D8%A7%D9%88%D8%AA%D9%87%D8%A7-%D8%A7%D8%B2-%DA%A9%D8%AC%D8%A7-%D9%85%DB%8C%D8%A7%D8%AF-sz0sbpektuk5





داده‌کاویعلوم اجتماعی محاسباتیعلوم اجتماعیعلم داده
شاید از این پست‌ها خوشتان بیاید