توی پست قبل گفتم که میخوام درس Using Big Data to Solve Economic and Social Problems رو ببینم و چیزایی که ازش یاد میگیرم یا به نظرم جذابن رو اینجا به اشتراک بذارم.
جلسهٔ اول مثل بیشتر درسا از این شروع میشه که اصلا چرا این درس وجود داره و مسیر درس از کجاها میگذره و توش چیا یاد میگیریم. با یه مثال شروع میکنیم.
نمیدونم دربارش شنیدید یا نه، من قبلا فقط عبارتش به گوشم خورده بود و هیچ وقت روش دقیق نشده بودم. به نظرم خوبه یه سر به ویکیپدیاش بزنید.
اگه بخوام برداشتم رو از چیزی که ویکیپدیا گفته بگم میشه:
امکان سعادت و موفقیت و ارتقای وضعیت اجتماعی اقتصادی برای خانوادهها و فرزندان با تلاش به دست بیاد و توی این مسیر هیچ مانع اجتماعی وجود نداشته باشه.
یا سادهتر این که هر کسی بخواد به موفقیت برسه اگه تلاش بکنه بتونه. کلا رویای آمریکایی میتونه تعریفهای مختلفی داشته باشه و هر کسی به صورت متفاوتی تعبیرش کنه. تعبیری که آقای چتی توی درس استفاده میکنه اینه: «اگه تو سخت کار کنی شانس اینو داری که توی توزیع درآمد از والدینت پیشی بگیری.» و تلاش میکنه بررسی کنه چقدر این رویای آمریکایی محقق شده. این نمودار رو ببینید:
هر نقطه از نمودار نشون میده چه درصدی از بچههایی که توی اون سال به دنیا اومدن از والدینشون درآمدشون بیشتره. درآمد فرزندا و والدین رو هم توی وسطای دههٔ چهارم یعنی بین ۳۰ تا ۴۰ سالگی در نظر میگیره و برای همین آخرین نقطه ۱۹۸۴ ه که بچههای متولد اون سن تا ۲۰۱۷ که این مقاله منتشر شده به سی سالگی رسیده باشن. چیزی که نمودار میگه اینه که این درصد داره کم و کمتر میشه و یه جورایی میشه گفت که رویای آمریکایی داره کمرنگ میشه. البته نتیجهگیری فقط با این نمودار ایرادایی داره که دوست دارم بهش فکر کنید و ایراداش رو بگید.
سوالایی که برای یه جامعهشناس یا سیاستمدار یا به طور کلی برای هر کسی که این نمودار رو میبینه به ذهن میرسه و دوست داره جواباشون رو بدونه این دو تاست:
با این دادهٔ کم نمیتونیم به این سوال جواب بدیم. چون عاملهای مختلفی ممکنه توی این اتفاق تاثیر داشته باشه و این نمودار صرفا چند تا عدد داره که چیزی بیشتر از وضعیت کل آمریکا و روند کلی ازش نمیشه فهمید.
تا الان که جامعهشناسی و اقتصاد جلو اومدن دسترسی به داده زیاد نبوده برای همین بیشتر نظریههای جامعه شناسی موجود حرفهای کیفیان و یا توی اقتصاد بیشتر ابزارها مدلهای ریاضیان که تلاش میکنن رفتارها رو باهاش توضیح بدن و ازشون استفاده کنن تا پیشنهادایی برای بهبود شرایط بدن. مثلا برای سوالهای بالا مدلهای اقتصادی ممکنه تحلیل کنن که نرخ مالیات باید تغییر کنه یا نظریههای جامعه شناسی مشکل رو توی جهانیشدن ببینن.
این رویکردهای تئوری هر چند خیلی برای فهم مساله کمککنندهان ولی یه مشکل بزرگ دارن. بیشترشون تست نشدن و یا نتیجهگیریشون از روی دادههای کم بوده. و برای همینه که ممکنه برای یه سوال پنج تا اقتصاددان هر کدوم ۵ تا جواب متفاوت بدن. و خب همین دلیله که باعث میشه سوالایی که باید جواب علمی یکتایی داشته باشن مثل این که «آیا ساختن مسکن دولتی باعث رکود بازار مسکن میشه؟» توسط آدمای مختلف جوابای مختلفی میگیره و هر دیدگاه سیاسی یه جوری بهش جواب میده.
اخیرا توی اینستاگرام یه فیلمی خیلی بازنشر میشد که ممکنه دیده باشید. و توش به تست MBTI همین ایراد رو میگرفت که نتیجهگیریش مبتنی بر دادههای کافی نبوده... البته حملههای دیگهای هم به این تست میکرد. البته من خودم هنوز بررسی دقیقی روش نکردم ولی به نظرم حملهها مطرح بود و باید ببینیم که تحقیقای جدیدی روی این موضوع هست یا نه. میتونید از اینجا ببینید فیلم رو:
خبر خوب اینه که علوم انسانی داره به سمت تجربی و دادهمحورتر شدن حرکت میکنه و تلاش میشه که تئوریهای قبلی رو با دادهها ارزیابی کرد. مثلا درصد مقالههای دادهمحور اقتصادی توی سالای مختلف اینطوری تغییر کرده:
که خب آخرین نقطهٔ نمودار مال سال ۲۰۱۱ ه و احتمالا تا الان درصد بیشتر هم شده باشه.
۱. اول این که از نظرسنجیها قابلاطمینانتره. مثلا فرض کنید من بخوام تعداد بارهایی که هر شخص توی هفته میره میوهفروشی رو در بررسی کنم. اگه اینو نظرسنجی بکنم ممکنه فرد به دلایلی مثل بد بودن حافظه یا تخمین بد عدد اشتباهی رو گزارش کنه. یا توی بعضی سوالا به دلیل اعتماد نداشتن اصلا جواب درستی نده. در مقابل اگه مثلا به تراکنشهای کارت بانکی افراد دسترسی داشته باشم میتونم اطلاعات دقیقتری داشته باشم. (البته اینجا مسائل حریم شخصی هم مهم میشه)
۲. میتونم چیزایی رو اندازه بگیرم که قبلا نمیتونستم، مثلا الان با وجود شبکههای اجتماعی میتونم احساسات افراد دربارهٔ یه موضوع رو هم اندازه بگیرم.
۳. به دلیل حجم زیاد داده میتونم پوشش سراسری داشته باشم و حتی همهٔ جامعه رو بررسی کنم و اگه هم خواستم روی یه گروه خاص از آدما دقیق بشم و دربارشون صحبت کنم.
۴. چون دادههای زیادی دارم میتونم حتی آزمایشها علمی تقریبی روی داده طراحی کنم. توی روش علمی مثلا وقتی میخواستیم ببینیم آدمایی که تختشون رو مرتب نمیکنن اگه تختشون رو مرتب کنن چقدر عملکردشون بهتر میشه میومدیم و این آدما رو به صورت تصادفی دو دسته میکردیم و به یه عده میگفتیم تختشون رو مرتب کنن و بعد چیزی که میخواستیم رو اندازه میگرفتیم. اما الان اگه دادههای کافی داشته باشیم (مثلا فرض کنید دادههای موفقیت و مرتب کردن تخت افراد رو داشته باشیم) میتونیم بدون این که واقعا آزمایش رو انجام بدیم اون رو شبیهسازی کنیم و این تغییر رفتار رو از روی داده اندازه بگیریم. البته این کار جزئیاتی داره و حواسمون باید به یه سری چیزا باشه که در ادامه میبینیمش.
یکی از جاهایی که منو بیشتر علاقهمند کرد که درس رو ادامه بدم مسائلی بود که قراره توی درس بررسی کنیم که موضوعای جالبیان و بعضیاشون برای خودمم دغدغه بودن. مسئلهها اینا هستن:
که خب واقعا عنوانهای مهم و جذابین و اگه واقعا بشه به صورت علمی و دادهمحور بهشون حمله کرد و نتایج خوبی به دست اورد میتونن تاثیرای خوبی داشته باشن.
خب تقریبا نیمهٔ اول جلسهٔ اول یعنی The Geography of Upward Mobility in America رو با هم دیدیم. من تلاش کردم چیزایی که به نظرم کلیدیتر بود رو انتخاب کنم. منابع کامل درس اینجا هست.
این پست از مجموعه پستاییه که توش مسیر خودم توی درس Using Big Data to Solve Economic and Social Problems و چیزایی که ازش یاد میگیرم و برام جالبه رو به اشتراک میذارم. پست اول این مجموعه رو میتونید از اینجا ببینید:
حتما اگه نظری داشتید بهم بگید یا اگه کسی رو میشناختید که به این موضوعات علاقهمنده و به نظرتون این پستا براش مفیده بهش معرفی کنید. :)
پست بعدی رو میتونید از اینجا بخونید: