تا حالا برایتان پیش آمده که بخواهید رنگ یک دکمه، تیتر یک ایمیل یا حتی چیدمان یک صفحه در اپلیکیشنتان را تغییر دهید، اما ندانید کدام نسخه بهتر جواب میدهد؟ آزمون A/B دقیقاً برای همین کار ساخته شده است. این روش مثل یک مسابقه عادلانه بین دو نسخه از محصول شماست تا ببینیم کدام یک در عمل موفقتر است.
تصور کنید میخواهید یک ویژگی جدید به محصولتان اضافه کنید. به جای اینکه آن را برای همه کاربران فعال کنید و امیدوار باشید که همه خوششان بیاید، میتوانید از آزمون A/B استفاده کنید.
کاربران را به دو گروه تقسیم میکنیم:
گروه A (کنترل): همان نسخه قدیمی و همیشگی را میبینند.
گروه B (آزمایش): نسخه جدیدی که تغییراتی در آن دادهاید را تجربه میکنند.
بعد از مدتی، رفتار هر دو گروه را تحلیل میکنیم تا ببینیم آیا تغییرات ما واقعاً تأثیر مثبتی داشتهاند یا نه. برای اینکه این مقایسه درست از آب دربیاید، به چند چیز نیاز داریم: یک زیرساخت خوب برای اجرای آزمایش، تعداد کافی کاربر، زمان مناسب و البته سنجههای درست برای اندازهگیری موفقیت.
یک نکته مهم این است که ما معمولاً دادهها را بر اساس هر «کاربر» جمعآوری میکنیم، نه هر «کلیک» یا «بازدید». این کار باعث میشود تحلیل ما دقیقتر باشد، چون رفتار یک کاربر در طول زمان به هم مرتبط است و نمیتوانیم هر کلیک او را یک اتفاق مستقل در نظر بگیریم.
ما با دو نوع سنجه سروکار داریم:
سنجههای ارزشی: چیزهایی که مقدار مطلق دارند، مثل «درآمد کل» یا «تعداد کل سفارشها».
سنجههای نسبی: چیزهایی که یک نسبت هستند، مثل «نرخ کلیک» (تعداد کلیک به تعداد بازدید) یا «نرخ تبدیل».
تحلیل سنجههای نسبی کمی پیچیدهتر است، چون صورت و مخرج کسر به هم وابستهاند. برای همین از روشهای آماری خاصی مثل
روش دلتا، خطیسازی یا بوتاسترپ استفاده میکنیم تا مطمئن شویم نتیجهگیری ما درست است.
در هر آزمایشی، ممکن است اشتباه کنیم. دو نوع خطای معروف وجود دارد:
خطای نوع اول (مثبت کاذب): وقتی است که فکر میکنیم تغییر ما تأثیر داشته، اما در واقعیت همهچیز تصادفی بوده است. مثل اینکه فکر کنید داروی جدیدی که ساختهاید مؤثر است، اما در حقیقت شانسی جواب داده!
خطای نوع دوم (منفی کاذب): وقتی است که تغییر ما واقعاً تأثیر مثبتی داشته، اما ما نتوانستهایم آن را تشخیص دهیم. این یعنی یک فرصت خوب را از دست دادهایم.
اینجاست که حداقل اثر قابل تشخیص (MDE) وارد میشود. MDE به ما میگوید که آزمایش ما چقدر حساس است و حداقل چقدر باید تغییری ایجاد شود تا بتوانیم آن را با اطمینان تشخیص دهیم.
یک وسوسه بزرگ در آزمون A/B این است که هر ساعت نتایج را چک کنیم و بهمحض اینکه دیدیم نسخه جدید برنده شده، آزمایش را تمام کنیم. به این کار «سرک کشیدن» یا «p-hacking» میگویند.
مشکل کجاست؟ هر بار که نتایج را چک میکنید، شانس اینکه بهصورت تصادفی یک نتیجه مثبت کاذب ببینید، بیشتر میشود. درست مثل این است که آنقدر سکه بیندازید تا بالاخره ده بار پشت سر هم «شیر» بیاید و بعد بگویید سکه شما جادویی است!
راه حل چیست؟ بهترین کار این است که از قبل حجم نمونه (تعداد کاربران) را مشخص کنید و تا آن زمان صبر کنید. یا از روشهای پیشرفتهتری مثل
آزمون دنبالهای استفاده کنید که به شما اجازه میدهد چند بار نتایج را چک کنید، اما با قواعدی خاص که جلوی خطای شما را میگیرد.
فرض کنید همزمان در حال اجرای ۱۰ آزمون A/B مختلف هستید. حتی اگر هیچکدام از تغییرات شما تأثیری نداشته باشند، احتمال اینکه حداقل یکی از آنها بهصورت تصادفی «موفق» به نظر برسد، بسیار بالاست. به این مشکل،
آزمونهای چندگانه میگویند. برای حل این مشکل، از روشهایی مثل
تصحیح بونفرونی یا کنترل نرخ کشف کاذب (FDR) استفاده میکنیم تا سطح معناداری را طوری تنظیم کنیم که گول نتایج تصادفی را نخوریم.
CUPED یک تکنیک جالب برای افزایش حساسیت آزمون است. ایده اصلی این است که از اطلاعاتی که از قبل درباره کاربران داریم (مثلاً رفتارشان در هفته گذشته) استفاده کنیم تا «نویز» دادهها را کم کنیم.
وقتی نویز کمتر باشد، سیگنالِ واقعی (یعنی تأثیر تغییرات ما) واضحتر دیده میشود. این یعنی با CUPED میتوانیم تأثیرات کوچکتر را راحتتر تشخیص دهیم یا با تعداد کاربران کمتر و در زمان کوتاهتر به نتیجه برسیم.
دو فلسفه اصلی پشت آزمون A/B وجود دارد:
نگاه فرکانسی (Frequentist): این همان روش کلاسیک است که با p-value کار میکند. به شما میگوید: «چقدر احتمال دارد این نتایج را ببینیم،
اگر هیچ تفاوتی بین دو نسخه وجود نداشته باشد؟». این روش قدرتمند است اما تفسیر نتایجش گاهی سخت است و مشکل «سرک کشیدن» دارد.
نگاه بیزی (Bayesian): این رویکرد جدیدتر و شهودیتر است. به جای p-value، مستقیماً به شما میگوید: «چقدر احتمال دارد که نسخه B بهتر از نسخه A باشد؟». این همان سؤالی است که مدیران محصول و کسبوکارها دنبال جوابش هستند! یکی از بزرگترین مزیتهای روش بیزی این است که مشکل «سرک کشیدن» ندارد و میتوانید هر زمان که خواستید نتایج را بررسی کنید.
امیدوارم این توضیحات به شما کمک کرده باشد تا با دیدی بهتر و سادهتر به دنیای آزمون A/B نگاه کنید و از این ابزار قدرتمند برای بهبود محصولات خود استفاده کنید.