مشاهدات کسی که به تماشا ایستاده | تحلیلگر داده
پیشبینی دقیق گوگلترندز از نتیجه آرای فینال عصر جدید پیش از اعلام نتایج
آیا پیش از اعلام نتایج آرای مردم به فینالیستهای عصر جدید، میتوانستیم با استفاده از گوگلترندز نتیجه را پیشبینی کنیم؟ جواب مثبت است
روی این لینک کلیک کنید. در این صفحه، روند جستجوی عبارات زیر در فرصت زمانی رای دادن به فینالیستهای برنامه استعدادیابی عصر جدید (از زمان پخش فینال در دوشنبه ۲۸ مرداد تا پایان فرصت رایدهی در بامداد ۱ شهریور ۹۸) در منطقه جغرافیایی ایران نشان داده شده است.کلمات کلیدی شامل الگوی «کد + اسم فینالیست» است که عبارتند از: کد پارسا خائف - کد فاطمه عبادی - کد محمد زارع - کد دختران نینجا - کد سعید فتحی. در انتهای این مطلب توضیح دادهام که چرا از این الگو برای جستجو استفاده کردهام.
همانطور که در صفحه فوق از گوگلترندز و تصویر زیر از همان صفحه میبینید، روند جستجوی این عبارات به ترتیب فراوانی به این صورت است:
۱- کد فاطمه عبادی (رتبه اول و بیشترین جستجو)
۲- کد محمد زارع (رتبه دوم)
۳- کد پارسا خائف (رتبه سوم)
۴ و ۵- کد دختران نینجا و کد سعید فتحی (رتبه چهارم و پنجم با اختلاف بسیار کم).
و این دقیقا همان ترتیبی است که در پایان به عنوان نتیجه آرای مردمی به فینالیستهای عصرجدید اعلام شد. روند جستجوی مردم در گوگل در طول دوره رایدهی دقیقا منطبق با نتیجه آرای آنهاست و این بار گوگل توانسته قبل از تجمیع و اعلام آرا توسط برنامهسازان، نتیجه را به ما نشان دهد. ولی چرا و چگونه چنین چیزی امکانپذیر است؟
«عصر جدید» برگزیدگانش را شناخت: فاطمه عبادی برنده اولین دوره مسابقه استعدادیابی عصرجدید
با اعلام نتایج آرای مردمی، نتیجه نخستین فصل مسابقه «عصر جدید» مشخص شد و فاطمه عبادى با ٦٥٤٤٩٦٤تعداد رای، به قهرمانی دست یافت.دومین استعداد برتر، محمد زارع با ٥٩١٦٣٦٢رای شد. مقام سوم، به پارسا خائف با ٥٧١٧٠٦٤ رای تعلق گرفت. چهارمین و پنجمین استعداد هم به ترتیب، سعيد فتحى روشن با ٣١٤٨٤٣١ رای و دختران نينجا با٣٠٧٨٧٨٧ رای شدند. ~کانال رسمی برنامه در تلگرام
گوگل، جستجو، دادههای بزرگ و شعبده واقعی ذهنخوانی
گوگلترندز چیست؟
گوگل ترندز (Google Trends) یکی از امکانات تحت وب شرکت گوگل و بر اساس جستجو در گوگل است که میزان محبوبیت جستجوی کلیدواژه در موتور جستجوی گوگل را به نمایش میگذارد. گوگل ترندز این قابلیت را به کاربران میدهد تا نتایج را بر اساس یک موقعیت جغرافیایی یا یک زبان خاص فیلترگذاری کنند. (اطلاعات بیشتر از ویکیپدیا فارسی- انگلیسی)
چرا گوگلترندز میتواند بینش عمیقی از نظرات مردم ارائه دهد؟
پاسخ دمدستی به این پرسش این است که مردم همه چیز را از گوگل میپرسند. پس میتوان از برخی روندها در جستجوی عبارات مختلف نتایجی از واقعیت افکار مردم گرفت که در دنیای واقعی به دست آوردن چنین بینشهایی تقریبا غیرممکن است.
برای پاسخ مفصلتر به این سوال توصیه میکنم کتاب «همه دروغ میگویند» را بخوانید یا خلاصه آن را از پادکست بیپلاس گوش دهید. همچنین در سایت ترجمان مصاحبهای با نویسندگان این کتاب (ست استفنز-دیویدویتز) با عنوان « مردم به گوگل چیزهایی میگویند که به هیچکس دیگر نمیگویند» منتشر شده است. نوشتهی « چگونه جستجوی گوگل سیاهترین رازهای ما را آشکار میکند؟» در سایت زومیت هم در این باره خواندنیست.
نکته مهم در این باره این است که استفاده مکرر من از عبارت «پیشبینی» در این نوشته از نظر علمی درست نیست. آنچه ما از روند جستجوی مردم در گوگل ( و از طریق گوگلترندز) مشاهده میکنیم، بینشی عمیقتر به آن چیزیست که مردم به آن فکر میکنند؛ نه پیشبینی رویدادی در آینده که کسی از آن خبر ندارد. بنابراین منظور از عبارت پیشبینی در این نوشته همان بینش عمیقیست که از افکار پنهان مردم به دست میآید. این بینش در داستان «رایگیری برندگان عصرجدید»، نتیجه را پیش از اعلام آن برملا میکند؛ چیزی که از نگاه ژورنالیسیتی میتوان به آن گفت پیشبینی ولی در عمل این چنین نیست.
چگونه و با چه شرایطی نتایج گوگلترندز برای پیشبینی نتیجه عصرجدید معتبر است؟
برای آنکه بتوان چنین استنتاجهایی را از گوگلترندز به دست آورد باید بسیار مراقب بود و شرایط مختلف آن را مهیا کرد. من در ادامه روند تحلیل سادهی فوق را شرح میدهد. روندی که در آن خودم هم در ابتدا دچار اشتباه شدم.
در این روش چند پیشفرض اساسی وجود دارد:
۱. با وجود اینکه در ظاهر در عصر استیلای شبکههای اجتماعی هستیم، ولی هنوز بسیاری از مردم برای یافتن اطلاعات مورد نیازشان روی وب جستجو میکنند. شبکههای اجتماعی مرجع خوبی برای دسترسی به اطلاعاتی هستند که شما قبلا منابع آن را در شبکه خود دستچین کردهاید ولی مرجع خوبی برای جستجوی بیطرفانه اطلاعات از منابع ناشناخته نیستند؛ منابعی که توزیعشدهتر بوده و چه بسا اعتبار بیشتری هم دارند. این نیاز همچنان با قدرت توسط موتورهای جستجو روی وب پاسخ داده میشود. مثلا شما اگر بخواهید بفهمید چگونه میتوانید دستگاه قهوهسازتان را تعمیر کنید، بعید است در اینستاگرام، تلگرام یا هر شبکه اجتماعی یا پیامرسان دیگری جستجو کنید. بیشتر مردم صفحه گوگل را باز کرده و سوال خود را تایپ میکنند و تمام.
۲. در هیچ تحقیقات بازاریابی نمیتوان از همه افراد یک جامعه آمار گرفت. ما به یک نمونه مناسب از جامعه نیاز داریم که حجم کافی داشته، در دسترس باشند و تصادفی انتخاب شده باشند. آیا همه مردم برای رای دادن به فینالیستهای عصرجدید جستجو میکنند؟ قطعا نخیر ولی آن دسته از افرادی که جستجو میکنند جامعه آماری مناسبی برای همه جامعه هستند. چون هم تعدادشان به اندازه کافی زیاد است و هم اینکه تصادفی هستند. یعنی همبستگی مشخصی بین «سلیقه و تمایل افراد در رای دادن» و «سلیقه افراد در روش جستجوی اطلاعات» وجود ندارد. در واقع نمیتوان ادعا کرد افرادی که از گوگل جستجو میکنند چون این ویژگی (تمایل به جستجو در وب) را دارند پس تمایل زیادی به رای دادن به فرد Aیا B دارند. اگر بتوان چنین همبستگی را تصور کرد، این پیشفرض نقض شده و از این جامعه آماری نمیتوان در نتیجهگیری تعمیميافته استفاده کرد.
تلاش ناکام اول قبل از اعلام برندهها
بعد از اینکه پذیرفتیم مردم چه چیزی را و چرا جستجو میکنند باید به پرسش اساسیتری پاسخ داد که بیشترین تاثیر را در دقت و صحت نتیجه دارد. مردم چگونه جستجو میکنند؟ یعنی کسانی که قصد رای دادن دارند دقیقا از چه عبارتی برای جستجو استفاده میکنند؟
پاسخ اشتباه به این سوال باعث شد در بررسی اولیهام درست قبل از اعلام نتایج فینال، اشتباه بزرگی را مرتکب شوم. ماجرا از این قرار بود که در تلاش اول کلمات کلیدی زیر را در گوگلترندز وارد کرده و نتایج را بررسی کردم: پارسا خائف - فاطمه عبادی - محمد زارع - دختران نینجا - سعید فتحی. تفاوتی که این کلمات کلیدی با کلمات کلیدی گفته شده در ابتدای نوشته دارند، در اضافه شدن کلمه «کد» به ابتدای آنهاست.
این بررسی نشان میداد که مردم به ترتیب زیر در طول مدت زمان بین پخش فینال تا اتمام رایگیری جستجو کردهاند. ۱-پارسا خائف ۲-محمد زارع ۳-فاطمه عابدی ۴- سعید فتحی و ۵-دختران نینجا
همین باعث شد توییت زیر را قبل از اعلام نتایج منتشر کنم و منتظر باشم ببینم نتیجه چقدر دقیق خواهد بود. نتایج اعلام شد که به این صورت بود و نتیجه با آن چیزی که از طریق گوگلترندز به دست آماده بود اختلاف فاحشی وجود داشت.
https://twitter.com/mahdinasseri/status/1164617414757277699
اعتراف میکنم اصلا انتظار چنین اشتباهی را نداشتم. از طرفی واکنشها به این توییت باعث شد که دوباره با دقت بیشتری به کل فرایند نگاه کنم.
اشتباه من این بود که عبارات کلیدی درستی را برای بررسی انتخاب نکرده بودم. در واقع پیشفرضم این بود که بین کلمات کلیدی «اسم فینالیست» و میزان محبوبیت او همبستگی مستقیمی وجود دارد. در حالی که این پیشفرض درست نبود و نقد دوستان در توییتر هم کاملا به جا بود. در واقع مولفههای دیگری هم وجود داشتند که من آنها را نادیده گرفته بود.
جستجوی مستقیم اسم فنالیست ممکن است به خاطر ناشناختهتر بودن یا عجیبتر بود فینالیست هم اتفاق افتاده باشد و لزوما به معنای محبوبت بیشتر او نیست. تحلیل من این است که علت فراوانی جستجوی پارسا خائف با خاطر سن و سالش است. مردم دوست داشتند بار دیگر ببینند این کودک ۱۴ ساله چه استعدادی داشته که توانسته تا فینال پیش بیایید و لزوما نیت رای دادن به او را نداشتند. یک دلیل دیگر برای این نتیجه آن است که مردم استان اردبیل به طرز چشمگیری (همانطور که نتایج گوگلترندز هم نشان میدهد) نسبت به بقیه استانها و بقیه شرکتکنندگان، اسم پارسا خائف را جستجو کرده بودند.
برای اصلاح این خطا، به کلمات کلیدی مرتبطی که با اسم افراد جستجو شده بود نگاه کردم و متوجه شدم یک الگوی پرتکرار بین همه عبارات وجود دارد و آن استفاده از الگوی کد+اسم فینالیست است. در واقع کسی که تصمیمش را گرفته و میداند به چه کسی میخواهد رای دهد احتمال بیشتری دارد این عبارت را جستجو کرده باشد. این افراد از فیلتر اولیه (شناخت درست فینالیست) گذشتهاند و حالا فقط میخواهد اقدام نهایی را برای رای دادن انجام دهند.
پس در تلاش دومم از الگوی «کد + اسم فینالیست» استفاده کردم و نتیجه دقیقی که در ابتدای این نوشته توضیح دادم به دست آمد.
هشدار: گوگل خدای جدید نیست
استفاده از گوگلترندز برای شناخت بیشتر افکار عمومی، در صورت استفاده افسارگسیخته و بدون تفکر انتقادی نسبت به روال و نتایج میتواند دستاویز عدهای برای تبدیل آن به شبهعلم و سواستفاده در موقعیتهای مختلف باشد. قطعا این طور نیست که از این به بعد بتوان برای درک افکار عمومی به گوگلترندز مراجعه کرد. در این صورت این ابزار تبدیل به راهی برای فرار از سختی تحقیقات میدانی، کیفی و دقیقتر شده و بعد از مدتی ابزاری میشود برای توجیه نتایج از پیش تعیینشده برای اعمال سلیقه در بحثها و تصمیمگیریها. من شخصا موافق آن نیستم.
رفتار مردم روی وب به مرور در حال تغییر است. جستجوی گوکل ممکن است بعد از مدتی جایگاه کنونی خود را از دست بدهد. از طرفی سلیقه مردم در استفاده از ابزارهای جایگزین ممکن است به مرور پررنگتر شده و نتایج را دستخوش اشتباهات فراوان بکند. در نهایت انجام این نوع تحلیلها نیازمند رعایت اصول و شرایط اولیهای در درک ذهنیت مخاطبان دارد که ممکن است به راحتی نادیده گرفته شود. پس اگر تحت تاثیر این پیشبینی قرار گرفتید مواظب باشید؛ خطاهای زیادی در انتظار شماست.
مطلبی دیگر از این انتشارات
سینمای ایران به روایت آمار، از سال ۸۷ تا ۹۷
مطلبی دیگر از این انتشارات
یلدا و ولنتاین یک تغییر پارادایم؛ تحلیلی بر روند محبوبیت مناسبتها در ایران
مطلبی دیگر از این انتشارات
جستاری تحلیلی از خیزش و افول وبلاگستان فارسی با تعیین تاریخ مرگ وبلاگستان