تحلیل‌های آماری در پس پرده A/B Testing

یکی از روش‌های تست محصول انجام متد A/B Test است. A/B Test از دسته تست‌های کمّی (Quantitative) است که تمرکز متخصص تجربه کاربری را بر روی رفتار کاربر در هنگام استفاده از محصول قرار می‌دهد و معمولا در مرحله ارزیابی محصول انجام می‌شود. روش انجام این تست به این شکل است که معمولا دو نسخه (که البته می‌تواند تا ۴ یا ۵ نسخه نیز افزایش پیدا کند) از یک صفحه یا المان از محصول را به نمایش می‌گذارند. یک نسخه، نسخه اصلی محصول یا A است و نسخه دیگر همان صفحه‌ای است که در حال تست آن هستیم که آن را B می‌نامیم. این دو نسخه به طور کاملا تصادفی برای کاربرانی که به آن صفحه از محصول وارد می‌شوند نمایش داده می‌شود. بخشی از کاربران به نسخه A و باقی آنها به نسخه B منتقل می‌شوند. توجه به دو نکته در انجام این تست ضروری است:

۱- این تست باید برای مدت کافی (معمولا دو هفته) انجام شود تا تمامی فاکتور‌های جانبی که می‌توانند در نتایج این تست تغییر ایجاد کنند (مثل شرایط روانی افراد، زمان استفاده آنها از محصول و...) به حداقل برسد.

۲- تعداد افرادی که از هر نسخه از این صفحه استفاده می‌کنند به اندازه کافی بالا و با هم برابر باشد.

پس از انجام تست، وظیفه UX Researcher تحلیل و نتیجه گیری از داده‌های جمع‌آوری شده است. ولی نتیجه‌گیری از داده‌ها به این سادگی نیست که هر نسخه‌ای که درصد بیشتری از تکمیل فرایند مورد نظر را برای محصول داشت، آن را به عنوان طرح برنده انتخاب کنیم.

در این مقاله می‌خواهیم ریاضیات در پس این تحلیل‌ها را بررسی کنیم.

آزمون فرضیه

برای انجام اصولی تست‌های آماری باید ابتدا هدف تست را مشخص کرده و حالت مثبت را به عنوان فرضیه جایگزین (H1) قرار دهیم. سپس قرینه آن را به عنوان فرضیه صفر (H0) مشخص کرده و به انجام تست می‌پردازیم. توجه کنید که نتیجه به دست آمده از تست احتمال درست بودن «فرضیه صفر» را به ما نشان می‌دهد. در مورد آزمون مربوط به A/B Test، هدف آزمون این است که «آیا بین نسخه A و نسخه B از صفحه مورد نظر به اندازه کافی تفاوت وجود دارد؟». با توجه به این هدف فرضیه جایگزین و فرضیه صفر به شکل زیر تعریف می‌شود:

فرضیه جایگزین: نسخه A از صفحه مورد نظر، با نسخه B آن، به اندازه کافی تفاوت دارند.

فرضیه صفر: نسخه A و نسخه B تفاوت کافی با یکدیگر را ندارند.

جمع آوری اطلاعات

اطلاعات جمع آوری شده بایستی به صورت فایل اکسل یا گوگل شیتس در جدولی همانند جدول زیر گردآوری شده باشند. توجه کنید که ما در این مقاله از گوگل شیتس استفاده می‌کنیم ولی برای کاربرانی که از اکسل استفاده می‌کنند هم دستورات لازم برای طی کردن مراحل آورده شده است.

توجه کنید که وقتی از برابر بودن تعداد افرادی منتقل شده به هر نسخه از صفحه مورد نظر صحبت شد، منظور برابری به شکل «کاملا دقیق» نبود و تا درصدی اختلاف بین این تعداد مجاز است.

همانطور که مشاهده می‌کنید نسخه B این صفحه به اندازه ۸.۲۵ درصد بیشتر از نسخه A دارای کلیک بر روی دکمه Call-To-Action است. ولی آیا همین حد داده برای برنده اعلام کردن نسخه B کافی است؟ خیر! داده‌های اولیه آزمون A/B تنها داده‌های خام است و باید قبل از نتیجه گیری درباره برنده این آزمون این اطلاعات را از فیلتر تحلیل‌های آماری گذر داد تا اعتبار آنها تایید شود. این کار به روش آزمون «مربعِ کای» یا Chi square test انجام می‌شود.

فرض کنید نتایج (فرضی) بالا از یک A/B Test واقعی حاصل شده است. تفاوت بین دو نسخه را رنگ دکمه CTA در نظر بگیرید. در نسخه اصلی از بین ۲۹۹۸ نفری که وارد وبسایت شده‌اند، ۵۶۷ نفر بر روی دکمه این نسخه کلیک کرده‌اند. این به آن معناست که ۲۴۳۱ نفر بدون کلیک کردن بر روی این دکمه از صفحه خارج شده‌اند که نرخ تبدیل ۱۸.۹۱ درصد را به ما می‌دهد. در نسخه آزمایشی نیز از بین ۳۰۱۵ نفری که به این صفحه وارد شده‌اند، ۸۱۹ نفر بر روی دکمه کلیک و ۲۱۹۶ نفر از آن عبور کرده‌اند. یا به عبارتی ۲۷.۱۶ درصد مواقع بر روی این دکمه با موفقیت کلیک شده است. برای سنجش اعتبار این فرایند ابتدا نتایج حاصل از این آزمون را با هم جمع می کنیم و هر کدام را مقابل سطر مربوطه، زیر ستون Total می‌نویسیم. با این حساب تعداد کل کلیک‌ها بر روی CTA هر دو صفحه ۱۳۸۶، تعداد کل افرادی که بر روی دکمه‌ها کلیک نکرده‌اند ۴۶۲۷ نفر و تعداد کل ورود به هر دو صفحه ۶۰۱۳ نفر محاسبه می‌شود.

در آزمون «مربع کای» دو فاکتور نقش اساسی دارند. مقدار مشاهده شده (Observed) که آن را با O نمایش می‌دهیم و مقدار چشم‌داشتی (Expected) که آن را با E نمایش می‌دهیم. مقادیر مشاهده شده همان مقادیری هستند که از آزمون A/B حاصل شده‌اند. مقادیر چشم‌داشتی را هم می‌توان از تقسیم «مجموع تعداد کلیک‌ها» بر «تعداد کل بازدید» ضربدر «تعداد بازدید هر نسخه» محاسبه کرد. به عبارت دیگر، مقدار چشم‌داشتی نسخه اصلی برابر است با ۶۹۱ و مقدار چشم‌داشتی نسخه آزمایشی برابر است با ۶۹۵.

تا به اینجا تمام اطلاعات مورد نیاز برای محاسبه «مربع کای» را در اختیار داریم که می‌توانید در تصویر زیر مشاهده کنید.

این اعداد به این معنا هستند که اگر به عنوان مثال ۲۹۹۸ نفر وارد صفحه اصلی شوند، که هیچ تفاوت بزرگی با صفحات دیگر ندارد انتظار داریم که ۶۹۱ نفر بر روی دکمه CTA کلیک کنند و در نتیجه ۲۳۰۷ نفر از آن عبور کنند. حال با استفاده از فرمول «مربع کای» می‌توانیم به سادگی میزان اعتبار داده‌های به دست آمده را محاسبه کنیم.

علاوه بر این، می‌توانیم در اکسل و گوگل شیتس با استفاده از تابع CHITEST این مقدار را محاسبه کنیم. این تابع دو پارامتر به عنوان ورودی دریافت می‌کند: پارامتر اول گستره مقادیر مشاهده شده و پارامتر دوم گستره مقادیر چشم‌داشتی است. در تصویر زیر نحوه استفاده از این تابع را در گوگل شیتس مشاهده می‌کنید.

دقت کنید که اگر بعد از زدن دکمه Enter مقدار نشان داده شده «صفر» بود، از منوی بالای اپلیکیشن گزینه Increase decimal places را بزنید تا عدد نمایش داده شده به مقداری تعریف شده تبدیل شود.

همانطور که مشاهده می‌کنید این مقدار در این آزمایش خاص عددی بسیار کوچک است! یکی از دلایل کوچک بودن این عدد تعداد بالای شرکت‌کننده در این آزمایش است. هر چه تعداد نفراتی که در یک آزمون A/B بیشتر باشد نتایج به دست آمده دقیق‌تر است.

نتیجه حاصل از آزمون کای

همانطور که در مقدمه همین مقاله اشاره کردیم، عدد به دست آمده از این آزمون به ما احتمال درست بودن فرضیه صفر (H0) یا به عبارت دیگر احتمال اشتباه بودن فرضیه جایگزین (H1) را می‌دهد. کوچک بودن این عدد به ما ثابت می‌کند که بین نسخه A و نسخه B تفاوت کافی وجود دارد یا به عبارت دیگر اختلاف موجود در نرخ تبدیل میان دو صفحه بر اساس تصادف و شانس نیست و می‌توانیم با اطمینان بالا نسخه B را به عنوان برنده این آزمون A/B اعلام کنیم!

برای آزمون A/B که تنها دو نسخه از یک صفحه را مورد تست در مقابل هم بررسی می‌کند، عدد به دست آمده کافی است از مقدار ۰/۰۱ کوچک‌تر باشد تا از اعتبار داده‌ها اطمینان حاصل کنیم. به عبارت دیگر، نتایج حاصله با احتمال بیش از ۹۹ درصد درست هستند!

نتیجه گیری

در این مقاله دیدیم که برای انجام یک آزمون A/B:

به تعداد بالایی از شرکت‌کنندگان نیاز داریم.
این تست باید به مدت زمان کافی اجرا شود تا نتایج به دست آمده دقیق‌تر باشند.
قبل از انجام تست باید هدف، فرضیه صفر و فرضیه جایگزین خود را مشخص کرده باشیم.
افراد به صورت کاملا تصادفی به هر نسخه از صفحه مورد نظر هدایت شوند.
اطلاعات به دست آمده از این آزمون خام بوده و قبل از هر گونه نتیجه‌گیری باید این اطلاعات و داده‌ها را بیازماییم تا از صحت و دقت آنها اطمینان حاصل کنیم.

هدف از این مقاله آشنا کردن UX Researcher ها با فرایند آماری پشت آزمون A/B Testing بود. امروزه با وجود ابزار‌های آنلاین دقیق مثل Crazyegg کار UX Researcher ها به مراتب راحت‌تر شده و زحمت انجام این محاسبات آماری از روی دوش آنها برداشته شده است. ولی از طرفی دانستن بخشی از اتفاقات پشت پرده این ابزار‌ها به افراد کمک می‌کند تا درک بهتر و بیشتری از نتایج حاصل شده پیدا کنند.

در آخر از اینکه این مقاله رو خوندید تشکر می‌کنم. اگر فکر می‌کنید این مقاله میتونه به کسی کمک کنه خوشحال میشم که اون را با این افراد به اشتراک بذارید.

تحلیل‌های آماری در پس پرده A/B Testing

آزمون فرضیه

جمع آوری اطلاعات

نتیجه حاصل از آزمون کای

نتیجه گیری

اگه باب راس (لذت نقاشی) UX دیزاینر بود...

همه ی ما طراحیم!!!

متریال دیزاین لایت رقیب جدی بوت استرپ