ویرگول
ورودثبت نام
آیدا آقائی نیا
آیدا آقائی نیادانشجوی مهندسی نرم افزار /فعال در حوزه AI
آیدا آقائی نیا
آیدا آقائی نیا
خواندن ۱ دقیقه·۴ ماه پیش

آزمون A/B به زبان ساده: چطور بفهمیم تغییرات ما واقعاً مفید هستند؟

تا حالا برایتان پیش آمده که بخواهید رنگ یک دکمه، تیتر یک ایمیل یا حتی چیدمان یک صفحه در اپلیکیشن‌تان را تغییر دهید، اما ندانید کدام نسخه بهتر جواب می‌دهد؟ آزمون A/B دقیقاً برای همین کار ساخته شده است. این روش مثل یک مسابقه عادلانه بین دو نسخه از محصول شماست تا ببینیم کدام یک در عمل موفق‌تر است.

آزمون A/B چیست و چطور کار می‌کند؟

تصور کنید می‌خواهید یک ویژگی جدید به محصولتان اضافه کنید. به جای اینکه آن را برای همه کاربران فعال کنید و امیدوار باشید که همه خوششان بیاید، می‌توانید از آزمون A/B استفاده کنید.

کاربران را به دو گروه تقسیم می‌کنیم:

  • گروه A (کنترل): همان نسخه قدیمی و همیشگی را می‌بینند.

  • گروه B (آزمایش): نسخه جدیدی که تغییراتی در آن داده‌اید را تجربه می‌کنند.

بعد از مدتی، رفتار هر دو گروه را تحلیل می‌کنیم تا ببینیم آیا تغییرات ما واقعاً تأثیر مثبتی داشته‌اند یا نه. برای اینکه این مقایسه درست از آب دربیاید، به چند چیز نیاز داریم: یک زیرساخت خوب برای اجرای آزمایش، تعداد کافی کاربر، زمان مناسب و البته سنجه‌های درست برای اندازه‌گیری موفقیت.

یک نکته مهم این است که ما معمولاً داده‌ها را بر اساس هر «کاربر» جمع‌آوری می‌کنیم، نه هر «کلیک» یا «بازدید». این کار باعث می‌شود تحلیل ما دقیق‌تر باشد، چون رفتار یک کاربر در طول زمان به هم مرتبط است و نمی‌توانیم هر کلیک او را یک اتفاق مستقل در نظر بگیریم.

سنجه‌ها: با چه معیاری موفقیت را بسنجیم؟

ما با دو نوع سنجه سروکار داریم:

  • سنجه‌های ارزشی: چیزهایی که مقدار مطلق دارند، مثل «درآمد کل» یا «تعداد کل سفارش‌ها».

  • سنجه‌های نسبی: چیزهایی که یک نسبت هستند، مثل «نرخ کلیک» (تعداد کلیک به تعداد بازدید) یا «نرخ تبدیل».

تحلیل سنجه‌های نسبی کمی پیچیده‌تر است، چون صورت و مخرج کسر به هم وابسته‌اند. برای همین از روش‌های آماری خاصی مثل

روش دلتا، خطی‌سازی یا بوت‌استرپ استفاده می‌کنیم تا مطمئن شویم نتیجه‌گیری ما درست است.

خطاهای رایج در آزمون و مفهومی به نام MDE

در هر آزمایشی، ممکن است اشتباه کنیم. دو نوع خطای معروف وجود دارد:

  • خطای نوع اول (مثبت کاذب): وقتی است که فکر می‌کنیم تغییر ما تأثیر داشته، اما در واقعیت همه‌چیز تصادفی بوده است. مثل اینکه فکر کنید داروی جدیدی که ساخته‌اید مؤثر است، اما در حقیقت شانسی جواب داده!

  • خطای نوع دوم (منفی کاذب): وقتی است که تغییر ما واقعاً تأثیر مثبتی داشته، اما ما نتوانسته‌ایم آن را تشخیص دهیم. این یعنی یک فرصت خوب را از دست داده‌ایم.

اینجاست که حداقل اثر قابل تشخیص (MDE) وارد می‌شود. MDE به ما می‌گوید که آزمایش ما چقدر حساس است و حداقل چقدر باید تغییری ایجاد شود تا بتوانیم آن را با اطمینان تشخیص دهیم.

چرا نباید مدام به نتایج سرک بکشیم؟

یک وسوسه بزرگ در آزمون A/B این است که هر ساعت نتایج را چک کنیم و به‌محض اینکه دیدیم نسخه جدید برنده شده، آزمایش را تمام کنیم. به این کار «سرک کشیدن» یا «p-hacking» می‌گویند.

مشکل کجاست؟ هر بار که نتایج را چک می‌کنید، شانس اینکه به‌صورت تصادفی یک نتیجه مثبت کاذب ببینید، بیشتر می‌شود. درست مثل این است که آنقدر سکه بیندازید تا بالاخره ده بار پشت سر هم «شیر» بیاید و بعد بگویید سکه شما جادویی است!

راه حل چیست؟ بهترین کار این است که از قبل حجم نمونه (تعداد کاربران) را مشخص کنید و تا آن زمان صبر کنید. یا از روش‌های پیشرفته‌تری مثل

آزمون دنباله‌ای استفاده کنید که به شما اجازه می‌دهد چند بار نتایج را چک کنید، اما با قواعدی خاص که جلوی خطای شما را می‌گیرد.

وقتی چند چیز را هم‌زمان آزمایش می‌کنیم چه می‌شود؟

فرض کنید هم‌زمان در حال اجرای ۱۰ آزمون A/B مختلف هستید. حتی اگر هیچ‌کدام از تغییرات شما تأثیری نداشته باشند، احتمال اینکه حداقل یکی از آن‌ها به‌صورت تصادفی «موفق» به نظر برسد، بسیار بالاست. به این مشکل،

آزمون‌های چندگانه می‌گویند. برای حل این مشکل، از روش‌هایی مثل

تصحیح بونفرونی یا کنترل نرخ کشف کاذب (FDR) استفاده می‌کنیم تا سطح معناداری را طوری تنظیم کنیم که گول نتایج تصادفی را نخوریم.

CUPED: یک ترفند هوشمندانه برای سریع‌تر نتیجه گرفتن

CUPED یک تکنیک جالب برای افزایش حساسیت آزمون است. ایده اصلی این است که از اطلاعاتی که از قبل درباره کاربران داریم (مثلاً رفتارشان در هفته گذشته) استفاده کنیم تا «نویز» داده‌ها را کم کنیم.

وقتی نویز کمتر باشد، سیگنالِ واقعی (یعنی تأثیر تغییرات ما) واضح‌تر دیده می‌شود. این یعنی با CUPED می‌توانیم تأثیرات کوچک‌تر را راحت‌تر تشخیص دهیم یا با تعداد کاربران کمتر و در زمان کوتاه‌تر به نتیجه برسیم.

دو نگاه متفاوت: فرکانسی در برابر بیزی

دو فلسفه اصلی پشت آزمون A/B وجود دارد:

  • نگاه فرکانسی (Frequentist): این همان روش کلاسیک است که با p-value کار می‌کند. به شما می‌گوید: «چقدر احتمال دارد این نتایج را ببینیم،

    اگر هیچ تفاوتی بین دو نسخه وجود نداشته باشد؟». این روش قدرتمند است اما تفسیر نتایجش گاهی سخت است و مشکل «سرک کشیدن» دارد.

  • نگاه بیزی (Bayesian): این رویکرد جدیدتر و شهودی‌تر است. به جای p-value، مستقیماً به شما می‌گوید: «چقدر احتمال دارد که نسخه B بهتر از نسخه A باشد؟». این همان سؤالی است که مدیران محصول و کسب‌وکارها دنبال جوابش هستند! یکی از بزرگ‌ترین مزیت‌های روش بیزی این است که مشکل «سرک کشیدن» ندارد و می‌توانید هر زمان که خواستید نتایج را بررسی کنید.

امیدوارم این توضیحات به شما کمک کرده باشد تا با دیدی بهتر و ساده‌تر به دنیای آزمون A/B نگاه کنید و از این ابزار قدرتمند برای بهبود محصولات خود استفاده کنید.

بهینه سازی نرخ تبدیلمدیریت محصولتحلیل داده
۳
۰
آیدا آقائی نیا
آیدا آقائی نیا
دانشجوی مهندسی نرم افزار /فعال در حوزه AI
شاید از این پست‌ها خوشتان بیاید