خواندن ۷ دقیقه·۶ سال پیش

جلسهٔ اول: چرا استفاده از داده؟

توی پست قبل گفتم که می‌خوام درس Using Big Data to Solve Economic and Social Problems رو ببینم و چیزایی که ازش یاد می‌گیرم یا به نظرم جذابن رو اینجا به اشتراک بذارم.

جلسهٔ اول مثل بیشتر درسا از این شروع میشه که اصلا چرا این درس وجود داره و مسیر درس از کجاها می‌گذره و توش چیا یاد می‌گیریم. با یه مثال شروع می‌کنیم.

رویای آمریکایی

نمی‌دونم دربارش شنیدید یا نه، من قبلا فقط عبارتش به گوشم خورده بود و هیچ وقت روش دقیق نشده بودم. به نظرم خوبه یه سر به ویکی‌پدیاش بزنید.

https://en.wikipedia.org/wiki/American_Dream

اگه بخوام برداشتم رو از چیزی که ویکی‌پدیا گفته بگم میشه:

امکان سعادت و موفقیت و ارتقای وضعیت اجتماعی اقتصادی برای خانواده‌ها و فرزندان با تلاش به دست بیاد و توی این مسیر هیچ مانع اجتماعی وجود نداشته باشه.

یا ساده‌تر این که هر کسی بخواد به موفقیت برسه اگه تلاش بکنه بتونه. کلا رویای آمریکایی می‌تونه تعریف‌های مختلفی داشته باشه و هر کسی به صورت متفاوتی تعبیرش کنه. تعبیری که آقای چتی توی درس استفاده می‌کنه اینه: «اگه تو سخت کار کنی شانس اینو داری که توی توزیع درآمد از والدینت پیشی بگیری.» و تلاش می‌کنه بررسی کنه چقدر این رویای آمریکایی محقق شده. این نمودار رو ببینید:

درصد فرزندان متولد شده در هر سال که درآمدشون توی سی‌سالگی بیشتر از والدیندشون توی همون سن بوده منبع: opportunityinsights.org

هر نقطه از نمودار نشون میده چه درصدی از بچه‌هایی که توی اون سال به دنیا اومدن از والدینشون درآمدشون بیشتره. درآمد فرزندا و والدین رو هم توی وسطای دههٔ چهارم یعنی بین ۳۰ تا ۴۰ سالگی در نظر می‌گیره و برای همین آخرین نقطه ۱۹۸۴ ه که بچه‌های متولد اون سن تا ۲۰۱۷ که این مقاله منتشر شده به سی سالگی رسیده باشن. چیزی که نمودار میگه اینه که این درصد داره کم و کم‌تر میشه و یه جورایی می‌شه گفت که رویای آمریکایی داره کم‌رنگ میشه. البته نتیجه‌گیری فقط با این نمودار ایرادایی داره که دوست دارم بهش فکر کنید و ایراداش رو بگید.

سوالایی که برای یه جامعه‌شناس یا سیاست‌مدار یا به طور کلی برای هر کسی که این نمودار رو می‌بینه به ذهن می‌رسه و دوست داره جواباشون رو بدونه این دو تاست:

چرا این اتفاق افتاده و این درصد داره کم میشه؟
چی کار می‌تونیم بکنیم که اوضاع نمودار بهتر بشه؟

با این دادهٔ کم نمی‌تونیم به این سوال جواب بدیم. چون عامل‌های مختلفی ممکنه توی این اتفاق تاثیر داشته باشه و این نمودار صرفا چند تا عدد داره که چیزی بیشتر از وضعیت کل آمریکا و روند کلی ازش نمیشه فهمید.

روی‌کرد علوم انسانی تئوری برای این سوالا

تا الان که جامعه‌شناسی و اقتصاد جلو اومدن دسترسی به داده زیاد نبوده برای همین بیشتر نظریه‌های جامعه شناسی موجود حرف‌های کیفی‌ان و یا توی اقتصاد بیشتر ابزارها مدل‌های ریاضی‌ان که تلاش می‌کنن رفتارها رو باهاش توضیح بدن و ازشون استفاده کنن تا پیشنهادایی برای بهبود شرایط بدن. مثلا برای سوال‌های بالا مدل‌های اقتصادی ممکنه تحلیل کنن که نرخ مالیات باید تغییر کنه یا نظریه‌های جامعه شناسی مشکل رو توی جهانی‌شدن ببینن.

این روی‌کرد‌های تئوری هر چند خیلی برای فهم مساله کمک‌کننده‌ان ولی یه مشکل بزرگ دارن. بیشترشون تست نشدن و یا نتیجه‌گیریشون از روی داده‌های کم بوده. و برای همینه که ممکنه برای یه سوال پنج تا اقتصاددان هر کدوم ۵ تا جواب متفاوت بدن. و خب همین دلیله که باعث میشه سوالایی که باید جواب علمی یکتایی داشته باشن مثل این که «آیا ساختن مسکن دولتی باعث رکود بازار مسکن می‌شه؟» توسط آدمای مختلف جوابای مختلفی می‌گیره و هر دیدگاه سیاسی یه جوری بهش جواب می‌ده.

اخیرا توی اینستاگرام یه فیلمی خیلی بازنشر می‌شد که ممکنه دیده‌ باشید. و توش به تست MBTI همین ایراد رو می‌گرفت که نتیجه‌گیریش مبتنی بر داده‌های کافی نبوده... البته حمله‌های دیگه‌‌ای هم به این تست می‌کرد. البته من خودم هنوز بررسی دقیقی روش نکردم ولی به نظرم حمله‌ها مطرح بود و باید ببینیم که تحقیقای جدیدی روی این موضوع هست یا نه. می‌تونید از اینجا ببینید فیلم رو:

https://www.youtube.com/watch?v=_NQqSnkI32A&feature=emb_logo

خبر خوب

خبر خوب اینه که علوم انسانی داره به سمت تجربی و داده‌محورتر شدن حرکت می‌کنه و تلاش می‌شه که تئوری‌های قبلی رو با داده‌ها ارزیابی کرد. مثلا درصد مقاله‌های داده‌محور اقتصادی توی سالای مختلف اینطوری تغییر کرده:

درصد تعداد مقالات داده‌محور در نشریات اقتصادی پیشرو منبع: opportunityinsights.com

که خب آخرین نقطهٔ نمودار مال سال ۲۰۱۱ ه و احتمالا تا الان درصد بیشتر هم شده باشه.

استفاده از داده چه مزیتایی داره؟

۱. اول این که از نظرسنجی‌ها قابل‌اطمینان‌تره. مثلا فرض کنید من بخوام تعداد بارهایی که هر شخص توی هفته میره میوه‌فروشی رو در بررسی کنم. اگه اینو نظرسنجی بکنم ممکنه فرد به دلایلی مثل بد بودن حافظه یا تخمین بد عدد اشتباهی رو گزارش کنه. یا توی بعضی سوالا به دلیل اعتماد نداشتن اصلا جواب درستی نده. در مقابل اگه مثلا به تراکنش‌های کارت بانکی افراد دسترسی داشته باشم می‌تونم اطلاعات دقیق‌تری داشته باشم. (البته اینجا مسائل حریم شخصی هم مهم میشه)

۲. می‌تونم چیزایی رو اندازه بگیرم که قبلا نمی‌تونستم، مثلا الان با وجود شبکه‌های اجتماعی می‌تونم احساسات افراد دربارهٔ یه موضوع رو هم اندازه بگیرم.

۳. به دلیل حجم زیاد داده می‌تونم پوشش سراسری داشته باشم و حتی همهٔ جامعه رو بررسی کنم و اگه هم خواستم روی یه گروه خاص از آدما دقیق بشم و دربارشون صحبت کنم.

۴. چون داده‌های زیادی دارم می‌تونم حتی آزمایش‌ها علمی تقریبی روی داده طراحی کنم. توی روش علمی مثلا وقتی می‌خواستیم ببینیم آدمایی که تختشون رو مرتب نمی‌کنن اگه تختشون رو مرتب کنن چقدر عملکردشون بهتر میشه میومدیم و این آدما رو به صورت تصادفی دو دسته می‌کردیم و به یه عده می‌گفتیم تختشون رو مرتب کنن و بعد چیزی که می‌خواستیم رو اندازه می‌گرفتیم. اما الان اگه داده‌های کافی داشته باشیم (مثلا فرض کنید داده‌های موفقیت و مرتب کردن تخت افراد رو داشته باشیم) می‌تونیم بدون این که واقعا آزمایش رو انجام بدیم اون رو شبیه‌سازی کنیم و این تغییر رفتار رو از روی داده اندازه بگیریم. البته این کار جزئیاتی داره و حواسمون باید به یه سری چیزا باشه که در ادامه می‌بینیمش.

چه مسائلی رو بررسی می‌کنیم؟

یکی از جاهایی که منو بیشتر علاقه‌مند کرد که درس رو ادامه بدم مسائلی بود که قراره توی درس بررسی کنیم که موضوعای جالبی‌ان و بعضیاشون برای خودمم دغدغه بودن. مسئله‌ها اینا هستن:

فرصت برابر برای افراد (همین مسالهٔ رویای آمریکایی)
آموزش
نابرابری‌های نژادی
سلامت
عدالت کیفری
سیاست‌های مالیاتی
تغییرات اقلیمی
توسعهٔ اقتصادی و تغییر در سازمان

که خب واقعا عنوان‌های مهم و جذابین و اگه واقعا بشه به صورت علمی و داده‌محور بهشون حمله کرد و نتایج خوبی به دست اورد می‌تونن تاثیرای خوبی داشته باشن.

خب تقریبا نیمهٔ اول جلسهٔ اول یعنی The Geography of Upward Mobility in America رو با هم دیدیم. من تلاش کردم چیزایی که به نظرم کلیدی‌تر بود رو انتخاب کنم. منابع کامل درس اینجا هست.

این پست از مجموعه پستاییه که توش مسیر خودم توی درس Using Big Data to Solve Economic and Social Problems و چیزایی که ازش یاد می‌گیرم و برام جالبه رو به اشتراک می‌ذارم. پست اول این مجموعه رو می‌تونید از اینجا ببینید:

https://virgool.io/@erfan.loghmani/%D8%AF%D8%A7%D8%AF%D9%87-%D8%A8%D8%B1%D8%A7%DB%8C-%D8%AD%D9%84-%D9%85%D8%B3%D8%A7%D8%A6%D9%84-boxeiqch5ejj

حتما اگه نظری داشتید بهم بگید یا اگه کسی رو می‌شناختید که به این موضوعات علاقه‌منده و به نظرتون این پستا براش مفیده بهش معرفی کنید. :)

پست بعدی رو می‌تونید از اینجا بخونید:

https://virgool.io/@erfan.loghmani/%D8%A7%D8%AF%D8%A7%D9%85%D9%87%D9%94-%D8%AC%D9%84%D8%B3%D9%87%D9%94-%D8%A7%D9%88%D9%84-%D8%A8%D8%B1%D8%B1%D8%B3%DB%8C-%D9%81%D8%B1%D8%B5%D8%AA-%D8%A8%D8%B1%D8%A7%D8%A8%D8%B1-%D8%A8%D9%87%D8%A8%D9%88%D8%AF-%D9%88%D8%B6%D8%B9%DB%8C%D8%AA-%D8%A7%D9%82%D8%AA%D8%B5%D8%A7%D8%AF%DB%8C-zj9py9kmaifj