این دومین پست از سری پستاییه که توش دارم یافتههام رو از درس Using Big Data to Solve Economic and Social Problems مینویسم.
قبل از شروع بگم که توی کامنتای متن قبلی بحث خوبی با آرش شکل گرفت که خوندنش رو توصیه میکنم و توش دربارهٔ فایدهٔ این جور مطالعهها صحبت خوبی کردیم.
توی متن قبلی که بخش اول جلسهٔ اول درس رو پوشش میداد انگیزهٔ درس و این که این درس چرا و چجوری میتونه بهمون کمک کنه رو دیدیم. از اونجایی که روند درس مساله محوره یعنی توی هر بخش به یه مسالهٔ اقتصادی-اجتماعی میپردازه و در کنارش چیزای آموزشی که لازمه رو هم میگنجونه درس خیلی سریع وارد اولین مساله یعنی «فرصت برابر برای افراد» توی جامعهٔ آمریکا میشه.
بذارید یه بار دیگه به تعریف درس از فرصت برابر یا رویای آمریکایی اشاره کنم. تعریف میگه: «اگه تو سخت کار کنی شانس اینو داری که توی توزیع درآمد از والدینت پیشی بگیری.» قبلا دیدیم که با این تعریف تقریبا میشه گفت روند کلی جامعهٔ آمریکا در طول زمان رو به افته یعنی درصد بچههایی که از والدینشون درآمد بیشتری دارن در طول زمان داره کم میشه که توی نمودار زیر میتونید روندش رو ببینید.
این نمودار هر چند روند کلی رو بهمون نشون میده ولی هنوز نمیتونه کمک کنه سوالامون مثل این که چرا روند نزولیه یا چطوری میتونیم بهبودش بدیم رو جواب بده. برای جواب دادن به این سوالا نیازه دادههای بیشتری داشته باشیم.
اولین سوالی که بهش میپردازیم اینه که میزان پیشرفت فرزندایی که والدینشون درآمد کمی داشتن توی مناطق مختلف آمریکا چطوری فرق میکنه. این مشاهده بهمون کمک میکنه تفاوتهای این مناطق رو بررسی کنیم تا شاید بتونیم علتهای این تفاوت رو بفهمیم.
اگه بتونیم دادهٔ درآمد والدین و فرزندا رو به ازای هر فرزند داشته باشیم و در کنارش دادههای جغرافیایی مکان زندگی افراد رو هم داشته باشیم میتونیم تحلیلهای دقیقتری بکنیم و دادههای جزئیتری نسبت به نمودار بالا به دست بیاریم مثل وضعیت بهبود شرایط اقتصادی افراد برای هر منطقه.
برای این کار دادههایی که استفاده کردن ایناست:
از دادههای مالیاتی استفاده کردن برای این که درآمد افراد رو به دست بیارن. و چون توی فرم هر کس بچههایی که داره رو هم باید گزارش کنه (نرخ مالیات وابسته به تعداد فرزندهاست) میشه که هر فرزندی رو به والدینش وصل کرد.
جامعهٔ هدف مطالعه بچههاییان که بین سالهای ۱۹۷۸ تا ۱۹۸۳ متولد شدن تا بتونیم درآمدشون رو توی حدود سی سالگی محاسبه کنیم.
با وصل کردن دادههای سرشماری و مالیات اطلاعات لازم برای ۲۰.۵ میلیون فرزند که توی اون سالها به دنیا اومدن رو داریم که ۹۶ درصد جامعهٔ هدف رو پوشش میده. دلیل این که صد درصد نیست اینه که برای بعضی بچهها دادههای مالیاتی ثبت نشده یا توی سرشماری نبودن یا... ولی در مجموع ۹۶ درصد، عدد قابل قبولیه.
برای درآمد والدین درآمدشون رو بین ۱۹۹۴ تا ۲۰۰۰ میانگین میگیریم. برای فرزندا هم درآمدشون رو توی ۲۰۱۴ و ۲۰۱۵ که آخرین سالهای داده است میانگین میگیریم که میشه توی سن ۳۱ تا ۳۷ سالگی فرزندا.
یه کار خوبی که کردن اینه که توی بررسیها این که هر کسی توی چه صدکی از درآمد افتاده رو درنظر گرفتن و از خود عدد درآمد استفاده نکردن. یعنی به صورت جداگونه برای والدین و برای بچههای متولد هر سال صدکبندی کردن. این کار یعنی افراد هر دسته رو مرتب کنی و توی صد دسته با تعداد برابر دستهبندی کنی و برای هر نفر شمارهٔ دستش رو در نظر بگیری. یعنی کسی که بیشترین درآمد رو داشته توی صدک صدم و کسی که از نصف آدما درآمد بیشتری داشته توی صدک پنجاهم قرار میگیرن.
حالا بیایم رابطهٔ صدک والدین و بچههاشون رو توی هر منطقه بررسی کنیم مثلا برای شیکاگو نمودار زیر رو ببینید.
توی این نمودار برای هر صدک درآمدی والدین، صدک درآمدی فرزندای اونا رو میانگین گرفتیم. یعنی این نمودار صد تا نقطه به ازای هر صدک درآمدی والدین داره که هر کدوم میانگین درآمد فرزندای اون صدک رو مشخص میکنه. روند کلی نمودار با شهودی که از جامعه داریم همخونی داره و توش میبینیم که فرزندایی که توی خانوادههای مرفهتر به دنیا اومدن به طور میانگین درآمد خودشون هم بیشتر بوده. به این مشاهده «دوام بین نسلی» (intergenerational persistence) میگن.
چیزی از این نمودار که برای سوالمون به دردمون میخوره اینه که فرزندای افراد صدکهای پایین توی مناطق مختلف خودشون وقتی بزرگ شدن توی چه صدکی قرار گرفتن. برای این کار صدک ۲۵ ام رو به عنوان نماینده از صدکهای پایین نمودار در نظر میگیریم. حالا میتونیم عدد مربوط به صدک ۲۵ ام رو به عنوان نمایندهٔ بچههایی که والدینشون درآمد کمی دارن گزارش کنیم. ولی به نظرتون این کار، کار خوبیه؟ مثلا این نمودار که مال یه ناحیهٔ کوچیکه رو ببینید:
توی این نمودار میبینیم که نقاط از اون شمای کلی که با افزایش درآمد والدین، درآمد فرزندا بیشتر میشه پیروی میکنن. ولی نقاط این نمودار نسبت به نمودار قبلی پراکندهترن و مثلا صدک بیست و چهارم و بیست و پنجم (که روی خط زرده) اختلاف زیادی دارن. این پراکندگی به خاطر اینه که تعداد خانوادهها توی این ناحیه نسبت به کل شیکاگو کمتره و عوامل تصادفی بیشتر ممکنه باعث بشن دو تا صدک متوالی اختلاف زیادی داشته باشن. برای این که بتونیم این اختلافهای تصادفی رو حل کنیم و حساسیتمون رو بهشون کم کنیم با توجه به این که دادهها شکل خطی دارن میایم و یه خط روی این نمودار برازش (fit) میکنیم. بعدش نقطهٔ روی ۲۵ این خط رو برای هر ناحیه گزارش میکنیم. مثلا توی این شکل و شکل قبلی تخمینمون برای بچههایی که والدینشون توی صدک ۲۵ ام بودن اینه که به طور میانگین درآمدشون توی صدک ۴۰ میافته که حدودا معادل درآمد سی هزار دلار در ساله.
خب پس تا الان برای هر ناحیهٔ جغرافیایی یه عدد داریم که بچههایی که والدینشون توی صدک ۲۵ ام درآمدی بودن خودشون به طور میانگین توی چه صدک درآمدی بودن. اگه بیایم این داده رو به صورت رنگی روی نقشهٔ آمریکا تصویر کنیم به این شکل میرسیم:
توی نگاه اول چیزی که مشاهده میشه اینه که این میزان بهبود وضعیت اقتصادی توی آمریکا بین مناطق مختلف خیلی فرق میکنه. راستش چون الان اطلاعات دقیقی از وضعیت و جغرافیای آمریکا ندارم نمیدونم این حرفم چقدر درسته ولی به نظر میرسه مناطق میانی و شمالی که اوضاع بهتری دارن جاهایین که زمینهای زراعی بیشتری دارن. یه نکتهٔ جالب دیگهای که توی نقشه هست اینه که اگه به وسط و یکم بالای نقشه نگاه کنید توی یکی از ایالتا که اسمش داکوتای جنوبیه هر چند بیشتر ایالت آبیه ولی دو تا ناحیه به طرز بدی قرمزن. توی کلاس یکی از دانشجوها میپرسه داستان اونا چی بوده؟ و انگار اون دو تا جا از جاهایین توی آمریکا که برای سرخپوستا اختصاص داده شده. (indian reservation)
این نقشه رو به صورت تعاملی هم در دسترس گذاشتن که میتونید شما هم ببینید و حتی توی ناحیههای مختلف دقیق شید و زوم کنید و تفاوتا رو توی ناحیههای کوچیک ببینید. یا پارامترایی مثل نرخ رشد منطقه یا درصد افراد زندانی توی منطقه رو هم بررسی کنید.
توی این سایت یه سری داستان هم از روی این دادهها تعریف میکنه. یعنی مثلا توی یه ناحیه دقیقتر میشه و یه سری چیز رو بررسی میکنه که دیدنش جالبه مثلا داستانش دربارهٔ ناحیهٔ شارلوت یا تبعیض نژادی جالبن و توصیه میکنم ببینید.
توی ادامهٔ درس اینو بررسی میکنیم که چه چیزایی میتونه باعث این تفاوتها شده باشه مثلا آموزش چقدر میتونه موثر بوده باشه یا عوامل دیگه... بعدش هم سراغ این میریم که چه سیاستایی میتونه وضعیت رو بهبود بده. به نظرم مباحث جالبی رو در پیش رو داریم. منتظر باشید :)
سینای عزیز که متنای قبلی رو که خوند گفت پیشنویس این رو هم براش بفرستم و کمک کرد جاهایی از متن که مبهمه رو بهبود بدم. و البته دوست دیگهای که اولین کسی بود که پیشنویس رو خوند و نظرای خوب و سازندهای داد ولی نمیخواست اسمش فاش بشه :)
این پست از مجموعه پستاییه که توش مسیر خودم توی درس Using Big Data to Solve Economic and Social Problems و چیزایی که ازش یاد میگیرم و برام جالبه رو به اشتراک میذارم. پست اول این مجموعه رو میتونید از اینجا ببینید و پست قبلی رو از اینجا ببینید.
حتما اگه نظری داشتید یا نکتهای به نظرتون میرسید توی قسمت پاسخها باهام در میون بذارید. اگر هم کسی رو میشناختید که به این موضوعا علاقهمنده و این پست ممکنه براش جذاب باشه خیلی خوبه اگه براش بفرستید.
پست بعدی رو میتونید از اینجا ببینید: