استفاده از هوش مصنوعی و تحلیلهای ماشینی در پژوهشهای اجتماعی و انسانی همیشه هم راهگشا و دقیق نیست. حتی در پژوهشهای علوم طبیعی (مثلاً پزشکی) هم نمیشود چشمبسته عمل کرد. بیایید دو نمونه را مرور کنیم.
از ما خواستهاند با استفاده از دادههای ده سال گذشتهی سبک زندگی، سبد غذایی، داروهای مصرفی و بیماریهای کنونیِ یک میلیون نفر از مردم، احتمال ابتلای ایشان به نارسایی کلیوی را پیشبینی کنیم. ما افراد را به دو گروه تقسیم میکنیم: کسانی که هماکنون به نارسایی کلیوی مبتلا هستند و کسانی که مبتلا نیستند.
حالا بیایید سایر دادههای این دو گروه را به ماشین هوشمندمان بدهیم تا موثرترین ویژگیهای افرادی که طی ده سال گذشته به نارسایی کلیوی مبتلا نشدهاند را شناسایی کند و الگویی در اختیار ما بگذارد که با تطبیق آن بر دادههای افراد جدید، احتمال ابتلای آنها در آینده به دست بیاید.
رایانه کارش را به خوبی انجام میدهد و فهرستی از شاخصها را بنا به شدت تاثیرگذاری در احتمال ابتلا تهیه میکند. اما صبر کنید. ما انتظار داشتید شاخصهایی مثل ورزش روزانه، غذای سالم و ... در رتبهی نخست قرار بگیرند. اما رایانه میگوید کسانی که به شکل روزانه داروهای شیمیایی (با عوارض جانبی برای کلیه) مصرف کنند، کمتر به نارسایی کلیوی مبتلا خواهند شد.
اگر سیاستگذاری سلامت را به هوش مصنوعی سپرده باشیم یا بخواهیم کورکورانه بر اساس این نتایج تصمیم بگیریم، همهی مردم باید همیشه دارو بخورند؛ حتی اگر بیمار نباشند. اما قاعدتاً نباید اینطور میشد.
اگر پژوهشگران ما باهوشتر باشند، این نکته را به خاطر خواهد آورند که اگر کسی در حال مصرف مداوم داروهای شیمیایی است، پس حتما بیماری دیگری دارد و به همان دلیل، به شکل مستمر زیر نظر پزشک است. پس آنچه موجب کاهش احتمال ابتلای او به نارسایی کلیوی است، مصرف داروهای شیمیایی نیس؛ بلکه نظارت مستمر پزشک بر وضعیت جسمی وی است.
از ما خواستهاند که با استفاده از دادههای ده سال گذشتهی خرید مردم در فروشگاههای زنجیرهای، میزان نفوذ تلفن همراه و آمارهای پلیس، تحلیل خود از علل افزایش یا کاهش جرایم کودکان را بیان کنیم. ما همهی دادههای در دسترس را در اختیار رایانه میگذاریم را تا آنها را روی خط زمان مرتب کند و روندهای کم و زیاد شدن تعداد جرایم را با روند تغییرات سایر شاخصها بسنجد.
رایانهی هوشمند ما اینبار هم کارش را به خوبی بلد است و به سرعت گزارشی از تطابق این روندها تهیه میکند. اما این گزارش هم شامل نتایج عجیبی است.
بر اساس محاسبات رایانهای، مرتبطترین شاخص با میزان وقوع جرایم کودکان، فروش بستنی است. به عبارت دیگر، رایانه میگوید که هرچه بستنی بیشتری خریده شده، جرم بیشتری هم اتفاق افتاده و سایر شاخصها تاثیر اندکی داشتهاند. وقتی روندهای زمانی مصرف بستنی و وقوع جرم را هم بررسی میکنیم، به همین نتیجه میرسیم. اما این دفعه هم قاعدتاً باید دنبال علت دیگری بگردیم.
یکی از همکاران باهوشتر ما متوجه اصل مساله شد. کودکان که بنا به قوانین کشور ما زیر هجده سال هستند، همگی دانشآموزند. دانشآموزها همهی روزهای سال را به مدرسه میروند و وقت اندکی برای کوچهگردی، فعالیتهای پرجنبوجوش و هر کاری دیگری دارند؛ به جز تابستان. کودکان تابستانها وقت اضافهی زیادی دارند و خیلیهایشان این وقت را در کوچه و خیابان میگذرانند. پس احتمال وقوع درگیری، دعوا و ... بیشتر میشود. از قضا بازار بستنی هم در همین فصل رونق میگیرد. پس آنچه موجب افزایش ارتکاب جرایم شده، مصرف بستنی نیست؛ بلکه بیکاریِ بیبرنامهی کودکان در تعطیلات تابستانی است.
من هر دوی این مثالها را فقط برای اشاره به این اشتباه رایج نوشتم و جزییات آنها دقیق نیست. اما جالب است بدانید که ارتباط مستقیم بین مصرف بستنی و وقع جرایم، مثلاً خودکشی، در پژوهشهای واقعی مختلفی به اثبات رسیده است.
مثالهای واقعی دیگری هم وجود دارند که به جهت حفظ اختصار، از توضیحشان میگذرم. اما اگر خواستید بیشتر بدانید، پیشنهاد میکنیم ماجرای حساسیت خودرهای پونتیاک به بستنی وانیلی را هم بخوانید.
نکتهی مشترک همهی این نمونهها چیست؟ این که پژوهشگر باید بتواند تفاوت بین همزمانی و علیت را درک کند. به عبارت دیگر، هر دو پدیدهای که همزمان رخ میدهند یا همزمان کم و زیاد میشوند، لزوماً ارتباطی با هم ندارند. فراموش نکنید که فهمیدنِ این که خیلی از پدیدههای اجتماعیِ همزمان، رابطهی علیت دارند یا خیر، آسان نیست و شما به راحتی به اشتباه خواهید افتاد. این یکی از رایجترین اشتباههای پژوهشگران دادهبنیاد و آمارمحور است.