شانس یا استعداد؛ هرآنچه باید درباره «معناداری آماری» بدانید!

فرض کنید در جمعی نشسته‌اید و فردی ادعا می‌کند که این قدرت را دارد که اگر دو سکه بیندازد هر دو «پشت» بیایند. اگر افراد حاضر در آن جمع با مباحث ابتدایی آمار و احتمال آشنا باشند احتمالا به این ادعا می‌خندند. چرا که احتمال وقوع دو «پشت» در پرتاب دو سکه چندان غیرممکن نیست.

گرچه احتمال وقوع این رویداد کمتر از ۵۰ درصد است، اما احتمال رخداد آن به حدی نیست که افراد متقاعد شوند یک اتفاق ویژه یا به بیان علمی یک «معناداری آماری» رخ داده است. حال فرض کنیم در همان جمع فردی مدعی شود که می‌تواند ۱۰ سکه را به‌ طور پیاپی بیندازد و هر ده سکه «پشت» بیایند. بدیهی است که اگر فرد موفق به انجام ادعای خود بشود، افراد حاضر در جمع همگی اذعان خواهند داشت که او استعداد و توانایی ویژه‌ای دارد. اکنون نگاهی به میزان احتمال وقوع این رویداد می‌اندازیم؛

در اینجا شخص مذکور موفق به انجام کاری شده است که احتمال آن ۰.۱ درصد است. بنابراین منطقی به نظر می‌رسد که برای او استعداد و توانایی ویژه‌ای قائل باشیم. اما چه اتفاقی باعث شد که رویداد اولی را یک «معناداری آماری» به حساب نیاوریم اما رخداد دوم را یک «معناداری آماری» به حساب آورده و برای آن فرد استعداد ویژه‌ای قائل باشیم. برای آشنا شدن بیشتر درباره این مفهوم بد نیست نگاهی به تاریخچه آن بیندازیم.

مهمانی سلطنتی، چای انگلیسی و کمی هم آمار و احتمال!

در انگلیس مرسوم است که چای را با شیر مخلوط کرده و می‌نوشند. در یک مهمانی سلطنتی رونالد فیشر (Ronald Fisher)آماردان بریتانیایی یک فنجان چای و شیر به بانویی تعارف می‌کند. زن از فیشر می‌پرسد که آیا ابتدا چای را ریخته و سپس به آن شیر اضافه کرده است یا آن که ابتدا شیر ریخته و سپس چای را اضافه کرده است. رونالد فیشر از این سوال جا می‌خورد، چرا که معتقد است وقتی شیر و چای با هم ترکیب شوند (مستقل از آن که کدام یک در ابتدا ریخته شده است) محصول نهایی طعم و مزه یکسانی خواهد داشت و قابل تشخیص نیست چه چیزی در ابتدا ریخته شده است.

زن در پاسخ به فیشر می‌گوید که با توجه به اصول خانواده سلطنتی روش صحیح آن است که ابتدا چای ریخته شود و سپس شیر به آن اضافه شود. زن در ادامه ادعا می‌کند که توانایی آن را دارد که پس از چشیدن طعم نوشیدنی نهایی، بگوید که آیا ابتدا چای به آن اضافه شده یا شیر؟

رونالد فیشر که یک سوژه جذاب آمار-احتمال پیدا کرده بود (احتمالا جذاب‌تر از یک مهمانی کسل کننده)، سریعا به دنبال روشی می‌گردد تا بتواند ادعای زن را صحت‌سنجی کند. او پس از کمی تامل آزمایش زیر را طراحی کرد:

او ۸ فنجان آماده کرد. در ۴ فنجان‌ ابتدا چای و سپس شیر و در ۴ فنجان دیگر ابتدا شیر و سپس چای را اضافه کرد. همچنین او سعی کرد در این هشت فنجان اصول «آزمایش کنترل‌شده تصادفی» را رعایت کند و هیچ‌کدام از فنجان‌ها تفاوت چشمگیری از لحاظ دما، میزان شیرین بودن، حجم و ... نداشته باشند. سپس او این هشت فنجان را به صورت تصادفی داخل سینی قرار داد و از زن خواست که این هشت فنجان را به ترتیب بچیند. با کمی دانش ترکیبیات می‌توانیم حساب کنیم که این ۸ فنجان می‌توانند ۷۰ چینش مختلف داشته باشند:

همچنین در نظر داشته باشید تنها ۱ حالت از این ۷۰ حالت مطلوب است. بنابراین احتمال صحیح چیدن این فنجان‌ها حدودا ۱.۴ درصد است.

بنابراین اگر بانوی سلطنتی داستان ما بخواهد که به صورت شانسی فنجان‌ها را بچیند ۷۰ روش احتمالی برای او وجود دارد و تنها یکی از این ۷۰ روش درست است، به عبارت دیگر، تنها ۱.۴ درصد احتمال دارد که او چینش صحیح را قرار دهد.

پس از انجام آزمایش در کمال تعجب رونالد فیشر، آن زن توانست فنجان‌ها را دقیقا با چینش درست قرار دهد و با توجه به احتمال کم آن که زن موفق شود به صورت شانسی چینش صحیح را قرار دهد، برای فیشر محرز شد که او استعداد ویژه‌ای در تشخیص فنجان چای و شیر دارد.

این اتفاق سبب شد تا رونالد فیشر به سراغ ایجاد مفهومی به نام «P-Value» یا «مقدار پی» برود که در سال‌های آینده آماردان‌های زیادی به تعمیم و گسترش آن پرداختند. «مقدار پی» یا «P-Value» به ما نشان می‌دهد که چه میزان احتمال دارد نتایج بدست آمده صرفا تحت تاثیر شانس یا اتفاق باشد. این موضوع یک ابزار کلیدی در فضای کسب‌وکار و آزمایشگاهی به حساب می‌آید، چرا که ابزار ریاضی نسبتا دقیقی برای صحت‌سنجی فرضیات گوناگون است.

حاشیه خطا و «معناداری آماری»

پس از ایجاد مفهوم «P-Value» این سوال برای اکثر آماردان‌ها پیش آمد که این مقدار pدقیقا چقدر باید باشد. به عبارت بهتر به چه مقداری احتمال کوچک گفته می‌شود؟ رونالد فیشر در ابتدا مقدار ۵ درصد را برای آن پیشنهاد داد که امروزه یک معیار پذیرفته شده است و در اکثر صنایع از آن استفاده می‌شود. به این مقدار حاشیه خطا یا «آلفا» گفته می‌شود که با علامت α نمایش داده می‌شود. به طور مثال اگر حاشیه خطا ۵ درصد باشد، بدین معنا است که با احتمال ۹۵ درصد می‌توانیم مطمئن باشیم که نتایج به‌دست‌آمده برحسب تصادف یا اتفاق حاصل نشده است.

در بعضی صنایع خاص و مواقعی که دقت بالا مورد نیاز است، آزمایشگران حاشیه خطا را ۱ درصد در نظر می‌گیرند. بنابراین اگر حاشیه خطا را یک درصد در نظر بگیریم (که بسیار سخت‌گیرانه است)، با توجه به اینکه «P-Value» آزمایش شیر و چای رونالد فیشر حدود ۱.۴ درصد بود، در صورتی که زن تمام فنجان‌ها را به صورت صحیح بچیند باز هم نمی‌توان برای او استعداد خاصی قائل شد. لازم به ذکر است که در این شرایط می‌بایست نوع آزمایش را تغییر داد و شرایط آزمایشی را ایجاد کرد که متناسب با حاشیه خطای ذکر شده باشد.

آشنایی با «آزمون فرضیه آماری» و «فرض صفر»

به طور کلی مبحث «معناداری آماری» بر پایه سه اصل استوار است؛

  • آزمون فرضیه
  • توزیع نرمال
  • مقدار پی یا P-Value

فرض کنید که ما ادعایی را مطرح می‌کنیم، که به آن فرض صفر (null hypothesis) می‌گویند. کاری که آزمون فرضیه انجام می‌دهد آن است که با بررسی داده‌ها صحت ادعای اولیه (فرض صفر) را بررسی می‌کند. اگر فرض صفر صحیح نبود، آنگاه به دنبال فرضیه جایگزین می‌گردیم. به منظور بررسی صحت فرض صفر از «P-Value» کمک می‌گیریم. در صورتی که داده‌ها نشان از صحیح بودن فرضیه جایگزین می‌دادند، آن گاه فرض صفر را رد می‌کنیم و فرضیه جایگزین را می‌پذیریم. به منظور درک بهتر این موضوع بهتر است یک مثال را مطرح کنیم.

سرویس جابجایی اکسپرس

یک سرویس جابجایی مرسوله در شهر مدعی آن است که سفارش هر مشتری را در کمتر از ۳۰ دقیقه به دست او می‌رساند. بنابراین آزمون فرضیه این ادعا به شرح زیر خواهد بود:

  • فرض صفر: مدت زمان رسیدن مرسوله به دست مشتری کمتر از ۳۰ دقیقه است.
  • فرضیه جایگزین: مدت زمان رسیدن مرسوله به دست مشتری ۳۰ دقیقه یا بیشتر است.

در اینجا هدف از آزمون فرضیه آن است که کدام ادعا (باتوجه به داده‌ها) صحیح‌تر است. برای صحت‌سنجی فرضیه‌ها می‌توان از آزمون Z استفاده کرد تا در نهایت با توجه به داده‌های به‌دست‌آمده یک فرضیه را تایید و دیگری را رد کرد.

آشنایی با توزیع نرمال

توزیع نرمال یا توزیع بهنجار یک تابع چگالی احتمال است که کاربرد زیادی در بسیاری از توزیع‌های داده‌ای دارد.

به طور کلی برای این تابع ۳ دسته در نظر گرفته‌ شده (قرمز-بنفش-سبز) که به شرح زیر است؛

  • ۶۸ درصد داده‌ها در دسته قرمز قرار دارند.
  • ۹۵ درصد داده‌ها در دسته قرمز و بنفش قرار دارند.
  • ۹۹.۷ درصد داده‌ها در دسته قرمز، بنفش و سبز قرار دارند.

در اکثر مسائلی که بحث محاسبه «مقدار پی» یا همان «P-Value» مطرح می‌شود، مقادیر بدست آمده در قسمت سبز و در مواردی در قسمت بنفش نمودار قرار می‌گیرد. لازم به ذکر است که اگر آزمون فرضیه یک‌سویه (one-tailed test) داشته باشیم تنها قسمت سمت راست دسته سبز یا بنفش مقدار «P-Value» ما را نمایش می‌دهد، اما اگر آزمون فرضیه دو‌سویه (two-tailed test) آنگاه هم قسمت راست و هم قسمت چپ ناحیه سبز و بنفش مقدار «P-Value» را نمایش می‌دهد.

نگاهی دقیق به «پی مقدار» یا «P-Value»

تمام مباحث قبلی که بررسی کردیم، پیش‌زمینه‌ای برای بررسی و فهم دقیق‌تر «P-Value» بود. همان‌طور که در مباحث قبلی اشاره کردیم، هر آزمون فرضیه از دو بخش «فرض صفر» و «فرضیه جایگزین» تشکیل شده است. «مقدار پی» قرار است به ما به صورت عددی نشان دهد که آیا واقعه رخ‌داده براساس شانس و حادثه بوده یا عاملی باعث رخ دادن آن شده است. اگر «مقدار پی» حاکی از وجود عاملی در رخداد واقعه باشد که به آن همان «معناداری آماری» می‌گوییم آنگاه فرض صفر را می‌پذیریم در غیر این صورت فرض صفر را رد کرده و فرضیه جایگزین را قبول می‌کنیم. هر میزان که «مقدار پی» کمتر باشد، احتمال آن که رخداد براساس شانس یا حادثه رخ داده باشد کمتر است.

در مثال فنجان چای و شیر مقدار «P-Value» حدود ۱.۴ درصد بود، این سخن بدین معنا است که تنها ۱.۴ درصد احتمال وجود دارد که این فنجان‌ها به صورت اتفاقی صحیح چیده شده باشند، بنابراین در اینجا فرض صفر را می‌پذیریم و ادعای زن (داشتن استعدادی ویژه) تایید می‌شود. پیش از آن که وارد بحث کاربردهای موضوع «مقدار پی» در فضای کسب‌و‌کار و تصمیم‌گیری داده‌محور شویم، یک مسئله جذاب و کمی چالشی از این مبحث را بررسی خواهیم کرد.

سکه سالم یا خراب

در یک آزمایش آماری، پس از ۲۰ بار پرتاب سکه ۱۴ بار «رو» آمده است. حال می‌خواهیم بررسی کنیم که آیا این سکه سالم (احتمال «رو» یا «پشت» آمدن در آن یکسان باشد) است یا خیر؟ در این مسئله حاشیه خطا یا آلفا را ۵ درصد در نظر می‌گیریم.

در گام اول یک آزمون آماری تعریف می‌کنیم؛

  • فرض صفر: این سکه سالم است و احتمال «پشت» یا «رو» آمدن در آن یکسان است
  • فرضیه جایگزین: این سکه اُریب است و متمایل به «رو» آمدن است.

اکنون باید «مقدار پی» را محاسبه کنیم. با توجه به فرضیه جایگزین که سکه را اُریب و متمایل به «رو» آمدن می‌داند، «P-Value» برابر احتمال آن است که در ۲۰ بار پرتاب سکه حداقل ۱۴ بار «رو» بیاید. بنابراین «پی مقدار» به شکل زیر خواهد بود:

و احتمال حاصل برابر خواهد بود:

لازم به ذکر است که مقدار به‌دست‌آمده برای آزمون فرضیه یک‌سویه است و اگر آزمون فرضیه را دوسویه در نظر بگیریم، یعنی فرضیه جایگزین صرفا آن باشد که سکه اُریب است و از تمایل آن به وجه خاصی سخن نگوییم مقدار «P-Value» دو برابر خواهد شد، چرا که باید مشابه همین حالت را برای «پشت» آمدن نیز حساب کنیم.

نتیجه‌گیری

با توجه به اینکه در این مسئله «P-Value» بیشتر از ۰.۰۵ است. در حقیقت «مقدار پی» این مسئله در دسته بنفش تابع نرمال قرار می‌گیرد و اگر بخاطر داشته باشید ۹۵ درصد داده‌ها در دسته قرمز و بنفش قرار داشتند. بنابراین می‌توان گفت که اتفاق عجیبی رخ نداده است و فرض صفر مبنی سالم بودن سکه صحیح است.

جالب است بدانید که اگر در پرتاب ۲۰ سکه ۱۵ بار «رو» می‌آمد، «مقدار پی» برابر ۰.۰۴۱۴ می‌شد و در دسته سبز قرار می‌گرفت و باتوجه به اینکه کمتر از ۰.۰۵ می‌شد، آن‌گاه ادعای سالم بودن سکه رد می‌شد و فرضیه اُریب بودن سکه به سمت وجه «رو» تایید می‌شد. به طور کلی استفاده از مفهوم «پی مقدار» در بحث «معنا‌داری آماری» ابزار فوق‌العاده‌ کارآمدی برای صحت‌سنجی یک ادعا است و استفاده از آن یکی از اصول اولیه «تصمیم‌گیری داده‌محور» است.

تصمیم‌گیری داده‌محور و استفاده از «معناداری آماری» در کسب‌وکار

یکی از مهم‌ترین وظایفی که مدیران محصول و مدیران ارشد در فضای کسب‌وکار با آن روبه‌‌رو هستند، تصمیم‌گیری است. این افراد روزانه با ادعاها و فرضیات مختلفی روبه‌رو هستند و باید از صحت و درستی آن‌ها اطمینان یابند تا بتوانند بهترین تصمیم را اتخاذ کنند. بدیهی است که مجموعه‌ای از تصمیم‌ها و استراتژی‌های غلط توسط مدیران محصول و ارشد به تدریج باعث شکست و در نهایت از بین رفتن سازمان خواهد شد. بنابراین در اینجا بحثی به نام «تصمیم‌گیری داده‌محور» مطرح می‌شود، تا خطای تصمیم‌گیری مدیران را به حداقل برساند.

یکی از متداول‌ترین روش‌ها برای صحت‌سنجی و ارزیابی ادعاها استفاده از «آزمون فرضیه آماری» است. به طور مثال ادعای زیر را می‌توان با «آزمون فرضیه آماری» صحت‌سنجی کرد:

  • مدیر یک فروشگاه آنلاین ادعا می‌کند که با ارائه تخفیف‌های بیشتر می‌تواند ارزش طول عمر مشتریان (CLV) را افزایش دهد.
  • یک باشگاه ورزشی در حال بستن قرارداد با یک تولیدی لباس است. این تولیدی لباس مدعی آن است که تنها ۲ درصد از تولیدات آن‌ها دچار نقص و ایراد است.
  • یک شرکت سرمایه‌گذاری به شما پیشنهاد می‌کند که به جای سرمایه‌گذاری در بازار فارکس در بازار رمزارزها سرمایه‌گذاری کنید، چرا که در سه سال گذشته بازدهی بیشتری داشته است.
  • مدیر مارکتینگ یک شرکت پوشاک باور دارد که سوییشرت‌‌ها و هودی‌های شرکت بین مردان ۱۵ تا ۳۰ سال طرفداران بیشتری دارد، بنابراین باید یک کمپین تبلیغاتی اختصاصی برای جذب این رده سنی انجام داد.
  • مشاور مدیریت یک شرکت نرم‌افزاری توصیه می‌کند که توسعه‌دهندگان کم‌تجربه و مبتدی شرکت در دوره‌های مجزای آموزشی شرکت کنند تا در مدت زمان کمتری بتوانند باتجربه و ارشد شوند.

هر یک ادعاهای ذکرشده را می‌توان با جمع‌آوری داده‌های مناسب و انجام آزمون فرضیه آماری صحت‌سنجی کرد. ایجاد فرهنگ «تصمیم‌گیری داده‌محور» در یک سازمان علاوه‌ بر اینکه باعث افزایش بازدهی و بهبود عملکرد تک‌تک بخش‌های مجموعه می‌شود، بلکه در طولانی‌مدت فرهنگ شرکت را نیز دگرگون خواهد کرد. افراد شرکت به صورت ناخودآگاه به دنبال داده‌ها و شواهد برای ادعاهای خود خواهند گشت و از بیان ادعاها‌ي شهودی و تصمیم‌گیری احساسی پرهیز خواهند کرد.