در یادداشت قبلی (خطای تیر چراغ) گفتم که ما خیلی از اوقات از دادهها برای فهم و حل مساله استفاده میکنیم، صرفاً چون به آنها به راحتی دسترسی داریم؛ نه چون واقعاً به مسالهی ما ربطی دارند. داستان مرد مستی که کلیدهایش را در پارک گم کرده بود و زیر تیر چراغِ آن طرف خیابان دنبالشان میگشت را هم مرور کردیم.
در مقابل، پژوهش مشهور دکتر جان گاتمن دربارهی «طلاق» نمونهی موفقی از پیدا کردن دادههای مناسب است. او میخواست فرایند منجر به طلاق را بفهمد تا بتواند خانوادههای در معرض خطر را شناسایی کند. به همین دلیل، هزاران زوج را به آزمایشگاهش دعوت کرد و نحوهی رفتارشان با یکدیگر را ثبت کرد.
او این زوجها را به سه دسته تقسیم کرده بود:
گاتمن مجموع دادههای ثبتشده از این هزاران نفر را در کنار هم گذاشت و به مدلی برای تحلیل و پیشبینی طلاق دست پیدا کرد. مدل گاتمن آنقدر کارآمد است که میتواند تنها با پانزده دقیقه مشاهده و گفتگو، وقوع طلاق طی چهار سال آینده را با دقت 93/6 درصد پیشبینی کند.
این یعنی گاتمن توانسته بدون درگیر کردن خودش با جزییات و دادههای انبوه و نامربوط، به دقیقترین مدل کنونی برسد. در حالی که مثلاً اگر همین پروژه را به فرد ناواردی واگذار کنید، ممکن است انبوهی از دادههای فعالیت زن و شوهر در اینستاگرام و توییتر و ویژگیهای تحصیلی و آزمونهای روانسنجی را کنار هم بگذارد و مجموعهای از نمودارهای رنگارنگ ترکیبی ترسیم کند و دستِ آخر هم نتواند احتمالِ طلاق یک زوج را با دقت زیاد پیشبینی کند.
اساساً فراموش نکنید که در مدلسازیهای دادهبنیاد، بهویژه از نوع اجتماعیاش، هرچه میتوانید شاخصههای کمتری را درگیر کنید. بیشتر شدنِ تعداد شاخصهها هم تعداد و تنوع دادههای مورد نیاز را افزایش میدهد، هم فرایند گردآوری دادهها را پرهزینهتر و زمانبرتر میکند و هم احتمال بروز خطا به خاطر افزایش «عدم قطعیت» را بالا میبرد.
اگر به جزییات پروژهی گاتمن علاقه داشتید، میتوانید پایگاه اینترنتی خود او را ببینید: