پیش‌بینی دقیق گوگل‌ترندز از نتیجه آرای فینال عصر جدید پیش از اعلام نتایج

آیا پیش از اعلام نتایج آرای مردم به فینالیست‌های عصر جدید، می‌توانستیم با استفاده از گوگل‌ترندز نتیجه را پیش‌بینی کنیم؟ جواب مثبت است

فینالیست‌های اولین دوره عصر جدید در سال ۱۳۹۸
فینالیست‌های اولین دوره عصر جدید در سال ۱۳۹۸

روی این لینک کلیک کنید. در این صفحه، روند جستجوی عبارات زیر در فرصت زمانی رای دادن به فینالیست‌های برنامه استعدادیابی عصر جدید (از زمان پخش فینال در دوشنبه ۲۸ مرداد تا پایان فرصت رای‌دهی در بامداد ۱ شهریور ۹۸) در منطقه جغرافیایی ایران نشان داده شده است.کلمات کلیدی شامل الگوی «کد + اسم فینالیست» است که عبارتند از: کد پارسا خائف - کد فاطمه عبادی - کد محمد زارع - کد دختران نینجا - کد سعید فتحی. در انتهای این مطلب توضیح داده‌ام که چرا از این الگو برای جستجو استفاده کرده‌ام.

همانطور که در صفحه فوق از گوگل‌ترندز و تصویر زیر از همان صفحه می‌بینید، روند جستجوی این عبارات به ترتیب فراوانی به این صورت است:

۱- کد فاطمه عبادی (رتبه اول و بیشترین جستجو)

۲- کد محمد زارع (رتبه دوم)

۳- کد پارسا خائف (رتبه سوم)

۴ و ۵- کد دختران نینجا و کد سعید فتحی (رتبه چهارم و پنجم با اختلاف بسیار کم).

پیش‌بینی نتیجه آرای فینال عصرجدید در گوگل‌ترندز
پیش‌بینی نتیجه آرای فینال عصرجدید در گوگل‌ترندز

و این دقیقا همان ترتیبی است که در پایان به عنوان نتیجه آرای مردمی به فینالیست‌های عصرجدید اعلام شد. روند جستجوی مردم در گوگل در طول دوره رای‌دهی دقیقا منطبق با نتیجه آرای آنهاست و این بار گوگل توانسته قبل از تجمیع و اعلام آرا توسط برنامه‌سازان، نتیجه را به ما نشان دهد. ولی چرا و چگونه چنین چیزی امکان‌پذیر است؟

فراوانی جستجوی کلمات کلیدی مرتبط با فینالیست‌های عصرجدید و پیش‌بیتی مقام آنها
فراوانی جستجوی کلمات کلیدی مرتبط با فینالیست‌های عصرجدید و پیش‌بیتی مقام آنها


«عصر جدید» برگزیدگانش را شناخت: فاطمه عبادی برنده اولین دوره مسابقه استعدادیابی عصرجدید
با اعلام نتایج آرای مردمی، نتیجه نخستین فصل مسابقه «عصر جدید» مشخص شد و فاطمه عبادى با ٦٥٤٤٩٦٤تعداد رای، به قهرمانی دست یافت.دومین استعداد برتر، محمد زارع با ٥٩١٦٣٦٢رای شد. مقام سوم، به پارسا خائف با ٥٧١٧٠٦٤ رای تعلق گرفت. چهارمین و پنجمین استعداد هم به ترتیب، سعيد فتحى روشن با ٣١٤٨٤٣١ رای و دختران نينجا با٣٠٧٨٧٨٧ رای شدند. ‍~کانال رسمی برنامه در تلگرام
فاطمه عبادی نفر اول عصرجدید
فاطمه عبادی نفر اول عصرجدید

گوگل، جستجو، داده‌های بزرگ و شعبده واقعی ذهن‌خوانی

گوگل‌ترندز چیست؟

گوگل ترندز (Google Trends) یکی از امکانات تحت وب شرکت گوگل و بر اساس جستجو در گوگل است که میزان محبوبیت جستجوی کلیدواژه در موتور جستجوی گوگل را به نمایش می‌گذارد. گوگل ترندز این قابلیت را به کاربران می‌دهد تا نتایج را بر اساس یک موقعیت جغرافیایی یا یک زبان خاص فیلترگذاری کنند. (اطلاعات بیشتر از ویکی‌پدیا فارسی- انگلیسی)

چرا گوگل‌ترندز می‌تواند بینش عمیقی از نظرات مردم ارائه دهد؟

پاسخ دم‌دستی به این پرسش این است که مردم همه چیز را از گوگل می‌پرسند. پس‌ ‌می‌توان از برخی روندها در جستجوی عبارات مختلف نتایجی از واقعیت افکار مردم گرفت که در دنیای واقعی به دست آوردن چنین بینش‌هایی تقریبا غیرممکن است.

برای پاسخ مفصل‌تر به این سوال توصیه می‌کنم کتاب «همه دروغ می‌گویند» را بخوانید یا خلاصه آن را از پادکست بی‌پلاس گوش دهید. همچنین در سایت ترجمان مصاحبه‌ای با نویسندگان این کتاب (ست استفنز-دیویدویتز) با عنوان « مردم به گوگل چیزهایی می‌گویند که به هیچ‌کس دیگر نمی‌گویند» منتشر شده است. نوشته‌ی « چگونه جستجوی گوگل سیاه‌ترین رازهای ما را آشکار می‌کند؟» در سایت زومیت هم در این باره خواندنی‌ست.

نکته مهم در این باره این است که استفاده مکرر من از عبارت «پیش‌بینی» در این نوشته از نظر علمی درست نیست. آنچه ما از روند جستجوی مردم در گوگل ( و از طریق گوگل‌ترندز) مشاهده می‌کنیم، بینشی عمیق‌تر به آن چیزی‌ست که مردم به آن فکر می‌کنند؛ نه پیش‌بینی رویدادی در آینده که کسی از آن خبر ندارد. بنابراین منظور از عبارت پیش‌بینی در این نوشته همان بینش عمیقی‌ست که از افکار پنهان مردم به دست می‌آید. این بینش در داستان «رای‌گیری برندگان عصرجدید»، نتیجه را پیش از اعلام آن برملا می‌کند؛ چیزی که از نگاه ژورنالیسیتی می‌توان به آن گفت پیش‌بینی ولی در عمل این چنین نیست.

چگونه و با چه شرایطی نتایج گوگل‌ترندز برای پیش‌بینی نتیجه عصرجدید معتبر است؟

برای آنکه بتوان چنین استنتاج‌هایی را از گوگل‌ترندز به دست آورد باید بسیار مراقب بود و شرایط مختلف آن را مهیا کرد. من در ادامه روند تحلیل ساده‌ی فوق را شرح می‌دهد. روندی که در آن خودم هم در ابتدا دچار اشتباه شدم.

در این روش چند پیش‌فرض اساسی وجود دارد:

۱. با وجود اینکه در ظاهر در عصر استیلای شبکه‌های اجتماعی هستیم، ولی هنوز بسیاری از مردم برای یافتن اطلاعات مورد نیازشان روی وب جستجو می‌کنند. شبکه‌های اجتماعی مرجع خوبی برای دسترسی به اطلاعاتی هستند که شما قبلا منابع آن را در شبکه خود دستچین‌ کرده‌اید ولی مرجع خوبی برای جستجوی بی‌طرفانه اطلاعات از منابع ناشناخته نیستند؛ منابعی که توزیع‌شده‌تر بوده و چه بسا اعتبار بیشتری هم دارند. این نیاز همچنان با قدرت توسط موتورهای جستجو روی وب پاسخ داده می‌شود. مثلا شما اگر بخواهید بفهمید چگونه می‌توانید دستگاه قهوه‌سازتان را تعمیر کنید، بعید است در اینستاگرام، تلگرام یا هر شبکه اجتماعی یا پیام‌رسان دیگری جستجو کنید. بیشتر مردم صفحه گوگل را باز کرده و سوال خود را تایپ می‌کنند و تمام.

۲. در هیچ تحقیقات بازاریابی نمی‌توان از همه افراد یک جامعه آمار گرفت. ما به یک نمونه مناسب از جامعه نیاز داریم که حجم کافی داشته، در دسترس باشند و تصادفی انتخاب شده باشند. آیا همه مردم برای رای دادن به فینالیست‌های عصرجدید جستجو می‌کنند؟ قطعا نخیر ولی آن دسته از افرادی که جستجو می‌کنند جامعه آماری مناسبی برای همه جامعه هستند. چون هم تعدادشان به اندازه کافی زیاد است و هم اینکه تصادفی هستند. یعنی همبستگی مشخصی بین «سلیقه و تمایل افراد در رای دادن» و «سلیقه افراد در روش جستجوی اطلاعات» وجود ندارد. در واقع نمی‌توان ادعا کرد افرادی که از گوگل جستجو می‌کنند چون این ویژگی (تمایل به جستجو در وب) را دارند پس تمایل زیادی به رای دادن به فرد Aیا B دارند. اگر بتوان چنین همبستگی را تصور کرد، این پیش‌فرض نقض شده و از این جامعه آماری نمی‌توان در نتیجه‌گیری تعمیم‌يافته استفاده کرد.

تلاش ناکام اول قبل از اعلام برنده‌ها

بعد از اینکه پذیرفتیم مردم چه چیزی را و چرا جستجو می‌کنند باید به پرسش اساسی‌تری پاسخ داد که بیشترین تاثیر را در دقت و صحت نتیجه دارد. مردم چگونه جستجو می‌کنند؟ یعنی کسانی که قصد رای دادن دارند دقیقا از چه عبارتی برای جستجو استفاده می‌کنند؟

پاسخ اشتباه به این سوال باعث شد در بررسی اولیه‌ام درست قبل از اعلام نتایج فینال، اشتباه بزرگی را مرتکب شوم. ماجرا از این قرار بود که در تلاش اول کلمات کلیدی زیر را در گوگل‌ترندز وارد کرده و نتایج را بررسی کردم: پارسا خائف - فاطمه عبادی - محمد زارع - دختران نینجا - سعید فتحی. تفاوتی که این کلمات کلیدی با کلمات کلیدی گفته شده در ابتدای نوشته دارند، در اضافه شدن کلمه «کد» به ابتدای آنهاست.

این بررسی نشان می‌داد که مردم به ترتیب زیر در طول مدت زمان بین پخش فینال تا اتمام رای‌گیری جستجو کرده‌اند. ۱-پارسا خائف ۲-محمد زارع ۳-فاطمه عابدی ۴- سعید فتحی و ۵-دختران نینجا

کلمات کلیدی اشتباه باعث نتیجه‌گیری اشتباه من شد
کلمات کلیدی اشتباه باعث نتیجه‌گیری اشتباه من شد

همین باعث شد توییت زیر را قبل از اعلام نتایج منتشر کنم و منتظر باشم ببینم نتیجه چقدر دقیق خواهد بود. نتایج اعلام شد که به این صورت بود و نتیجه با آن چیزی که از طریق گوگل‌ترندز به دست آماده بود اختلاف فاحشی وجود داشت.

https://twitter.com/mahdinasseri/status/1164617414757277699

اعتراف می‌کنم اصلا انتظار چنین اشتباهی را نداشتم. از طرفی واکنش‌ها به این توییت باعث شد که دوباره با دقت بیشتری به کل فرایند نگاه کنم.

اشتباه من این بود که عبارات کلیدی درستی را برای بررسی انتخاب نکرده بودم. در واقع پیش‌فرضم این بود که بین کلمات کلیدی «اسم فینالیست» و میزان محبوبیت او همبستگی مستقیمی وجود دارد. در حالی که این پیش‌فرض درست نبود و نقد دوستان در توییتر هم کاملا به جا بود. در واقع مولفه‌های دیگری هم وجود داشتند که من آنها را نادیده گرفته بود.

جستجوی مستقیم اسم فنالیست ممکن است به خاطر ناشناخته‌تر بودن یا عجیب‌تر بود فینالیست هم اتفاق افتاده باشد و لزوما به معنای محبوبت بیشتر او نیست. تحلیل من این است که علت فراوانی جستجوی پارسا خائف با خاطر سن و سالش است. مردم دوست داشتند بار دیگر ببینند این کودک ۱۴ ساله چه استعدادی داشته که توانسته تا فینال پیش بیایید و لزوما نیت رای دادن به او را نداشتند. یک دلیل دیگر برای این نتیجه آن است که مردم استان اردبیل به طرز چشمگیری (همانطور که نتایج گوگل‌ترندز هم نشان می‌دهد) نسبت به بقیه استان‌ها و بقیه شرکت‌کنندگان، اسم پارسا خائف را جستجو کرده بودند.

برای اصلاح این خطا، به کلمات کلیدی مرتبطی که با اسم افراد جستجو شده بود نگاه کردم و متوجه شدم یک الگوی پرتکرار بین همه عبارات وجود دارد و آن استفاده از الگوی کد+اسم فینالیست است. در واقع کسی که تصمیم‌ش را گرفته و می‌داند به چه کسی می‌خواهد رای دهد احتمال بیشتری دارد این عبارت را جستجو کرده باشد. این افراد از فیلتر اولیه (شناخت درست فینالیست) گذشته‌اند و حالا فقط می‌خواهد اقدام نهایی را برای رای دادن انجام دهند.

پس در تلاش دومم از الگوی «کد + اسم فینالیست» استفاده کردم و نتیجه دقیقی که در ابتدای این نوشته توضیح دادم به دست آمد.

هشدار: گوگل خدای جدید نیست

استفاده از گوگل‌ترندز برای شناخت بیشتر افکار عمومی، در صورت استفاده افسارگسیخته و بدون تفکر انتقادی نسبت به روال و نتایج می‌تواند دستاویز عده‌ای برای تبدیل آن به شبه‌علم و سواستفاده در موقعیت‌های مختلف باشد. قطعا این طور نیست که از این به بعد بتوان برای درک افکار عمومی به گوگل‌ترندز مراجعه کرد. در این صورت این ابزار تبدیل به راهی برای فرار از سختی تحقیقات میدانی، کیفی و دقیق‌تر شده و بعد از مدتی ابزاری می‌شود برای توجیه نتایج از پیش تعیین‌شده برای اعمال سلیقه در بحث‌ها و تصمیم‌گیری‌ها. من شخصا موافق آن نیستم.

رفتار مردم روی وب به مرور در حال تغییر است. جستجوی گوکل ممکن است بعد از مدتی جایگاه کنونی خود را از دست بدهد. از طرفی سلیقه مردم در استفاده از ابزارهای جایگزین ممکن است به مرور پررنگ‌تر شده و نتایج را دستخوش اشتباهات فراوان بکند. در نهایت انجام این نوع تحلیل‌ها نیازمند رعایت اصول و شرایط اولیه‌ای در درک ذهنیت مخاطبان دارد که ممکن است به راحتی نادیده گرفته شود. پس اگر تحت تاثیر این پیش‌بینی قرار گرفتید مواظب باشید؛ خطاهای زیادی در انتظار شماست.