وقتی دقت اندازه‌گیری، شما را گول می‌زند!

احتمالا شما هم داستان‌هایی درباره جویندگان طلا شنیده‌اید. در اکثر این داستان‌ها افراد به کمک دستگاه‌هایی به نام طلایاب، گنج‌های عظیمی می‌یابند و به اصطلاح یک‌شبه پولدار می‌شوند.

یکی از دوستان شما دستگاه طلایاب دارد. شما نیز تصمیم گرفته‌اید به جرگه‌ی جویندگان طلا پیوسته و با دوست خود همراه شوید. بنابراین همراه با دوست خود به سراغ یک معدن رفته که در آن حدود ۱۰۰۰ سنگ وجود دارد و پیش‌بینی می‌کنید که ۱ درصد از این سنگ‌ها طلا باشد. روند کار دستگاه به شرح زیر است:

این دستگاه طلا را تشخیص داده و همیشه در نزدیکی آن بوق می‌زند.
این دستگاه با دقت ۹۰ درصد، می‌تواند طلا را از میان دیگر سنگ‌ها تشخیص دهد.

شما و دوستتان مشغول جست‌وجو در معدن می‌شوید که ناگهان دستگاه در جلوی یکی از سنگ‌ها بوق می‌زند. در صورتی که این سنگ طلا باشد، قیمت آن در بازار چیزی حدود ۱۰۰۰ دلار است. دوست شما پیشنهاد می‌دهد که ۲۵۰ دلار به او داده و سنگ را برای خود بردارید. پیشنهاد هیجان‌انگیزی به‌ نظر می‌رسد؛ چرا که اگر سنگ طلا باشد، شما سه برابر سود می‌کنید. از طرفی دقت دستگاه طلایاب نیز بالا و احتمال طلا بودن آن سنگ زیاد است. این‌ها فکرهایی هستند که در ذهن شما می‌گذرد و در نهایت منجر به این خواهد شد که ۲۵۰ دلار را به دوستتان پرداخت کرده و سنگ را برای خود بردارید.

حال بد نیست کمی از دنیای جویندگان طلا فاصله گرفته، به جهان زیبای ریاضیات بازگردیم و مسئله را موشکافانه‌تر بررسی کنیم:

باتوجه به این که حدود ۱۰۰۰ سنگ در این معدن وجود دارد و ۱ درصد آن‌ها طلا است، حدودا ۱۰ سنگ طلا در این معدن وجود دارد.
بنابراین در این معدن حدودا ۹۹۰ سنگ وجود دارد که ارزش مادی خاصی ندارد و با توجه به دقت ۹۰ درصدی این دستگاه در تشخیص طلا از سنگ، از این ۹۹۰ سنگ، به اشتباه برای حدود ۹۹ سنگ بوق می‌زند.

باتوجه به موارد یاد شده، به احتمال زیاد اگر این دستگاه را در معدن بچرخانیم، ۱۰۹ بار بوق خواهد زد که از این بین، تنها ۱۰ بوق واقعا سنگ طلا را نشان می‌دهد. این سخن بدین معنا است که تنها ۹ درصد احتمال دارد سنگی که بابت آن ۲۵۰ دلار پول داده‌ایم، طلا باشد و بدین ترتیب، معامله چندان خوبی انجام نداده‌ و به احتمال زیاد ۲۵۰ دلار پول بی‌زبان را بابت یک تکه سنگ بی‌ارزش هدر داده‌ایم. اگر بخواهیم جمع‌بندی تمام این صحبت‌ها را به صورت ریاضی نشان دهیم، خواهیم داشت:

پس از بررسی این مسئله از نگاه ریاضیات، متوجه شدیم که پارامتر «دقت اندازه‌گیری» به تنهایی برای دست‌یابی به نتیجه قابل اطمینان کافی نیست و باید موارد دیگری را نیز در نظر گرفت. این بحث در علم آمار و علوم داده با نام «پارادوکس مثبت کاذب» مطرح می‌شود. این پارادوکس معمولا زمانی رخ می‌دهد که احتمال وقوع رخداد از دقت خطای ابزاری که با آن رخداد را می‌سنجیم، کمتر باشد. برای مثال در مسئله «جویندگان طلا» ما با ابزاری با دقت ۹۰ درصد (خطا ۱۰ درصد) به دنبال بررسی رخدادی هستیم که احتمال وقوع آن حدود ۱ درصد است؛ بنابراین نتایجی به دست آمد که چندان قابل اطمینان نیست.

آشنایی با اصطلاحات

پیش از آن‌ که به سراغ بررسی مسائل مرتبط با «پارادوکس کاذب» بپردازیم، بهتر است با چند اصطلاح کاربردی در حوزه علم آمار آشنا شویم. برای آن که انتقال مفهوم راحت‌تر شود، فرض کنید که یک تست کرونا از شما گرفته شده است. نتیجه این تست چهار حالت دارد:

مثبت صحیح (True Positive): شما به ویروس کرونا واقعا مبتلا شده‌اید و نتیجه تست نیز مثبت است.

مثبت کاذب (False Positive): شما به ویروس کرونا مبتلا نشده‌اید؛ اما نتیجه تست مثبت است.

منفی صحیح (True Negative): شما به ویروس کرونا مبتلا نشده‌اید و نتیجه تست نیز منفی است.

منفی کاذب (False Negative): شما به ویروس کرونا مبتلا شده‌اید؛ اما نتیجه تست منفی است.

لازم به ذکر است که در این‌جا تست کرونا و به‌ طور کلی تست پزشکی به‌ عنوان مثال بیان شده است و این ۴ حالت، به هر رخدادی که در آن احتمالی برای وقوع خطا وجود دارد، قابل تعمیم است. در مسئله جویندگان طلا، درصد خطای مثبت کاذب دستگاه، یعنی حالتی که سنگ طلا نباشد اما دستگاه بوق بزند، ۱۰ درصد و درصد خطای منفی کاذب دستگاه، یعنی حالتی که سنگ طلا باشد اما دستگاه بوق نزند، صفر درصد بود. در ادامه این مقاله، چند مسئله دیگر از بحث «پارادوکس مثبت کاذب» را مورد برررسی قرار می‌دهیم.

ویروس ناشناخته

یک ویروس ناشناخته در شهری با جمعیت حدود ۱۰۰۰۰ نفر شیوع یافته و نزدیک به ۴۰ درصد از افراد را درگیر کرده است. شما به‌ عنوان مدیرمحصول بر روی توسعه کیت شناسایی این ویروس کار می‌کنید تا بتوان هرچه سریع‌تر افراد مبتلا را از افراد سالم جدا کرد. کیت شناسایی شما حدودا ۵ درصد خطای مثبت کاذب و ۰ درصد خطای منفی کاذب دارد. اکنون این کیت جهت شناسایی افراد مبتلا در شهر مورد استفاده قرار گرفته و پیش‌بینی شما از نتایج به شرح زیر است:

تعداد افراد تخمینی که به بیماری مبتلا شده‌اند:

تعداد نتایج آزمایشی که به اشتباه مثبت اعلام می‌شود:

همان‌طور که اشاره شد، درصد خطای منفی کاذب این کیت ۰ درصد است؛ یعنی اگر کسی به بیماری مبتلا شده باشد، حتما شناسایی می‌شود. اکنون مشخص شد که نتیجه تست حدود ۳۰۰ نفر به اشتباه مثبت اعلام شده است. در نهایت می‌توان گفت در آزمایش انجام شده، نتیجه آزمایش ۴۳۰۰ نفر مثبت اعلام شده است که در این میان ۴۰۰۰ نفر از این افراد واقعا به بیماری مبتلا شده‌اند. بنابراین دقت اندازه‌گیری این کیت چیزی حدود ۹۳ درصد است که عدد قابل قبولی است و می‌توان به آن اطمینان کرد.

اما این مسئله این‌جا به پایان نمی‌رسد! اکنون پس از موفقیت‌آمیز بودن نتایج کیت شناسایی شرکت شما، این کیت برای شناسایی ویروس در شهرهای دیگر نیز مورداستفاده قرار گرفته است.

در یکی از این شهرها جمعیت افراد حدود ۱۰۰۰ نفر است و نزدیک به ۲ درصد از افراد این شهر کوچیک درگیر این ویروس شده‌اند. برای شناسایی افراد مبتلا شده از کیت شناسایی استفاده کردند؛ اما نتایج نامطلوبی به دست آمد. اکثریت افرادی که نتیجه‌ی تست‌شان مثبت شده بود، کوچکترین نشانه‌ای از ابتلا به ویروس نداشتند و همین امر اعتبار و کیفیت کیت طراحی شده توسط شرکت شما را زیر سوال بُرده است. با کمی حساب و کتاب می‌توانیم به نتایج زیر برسیم:

تعداد افراد تخمینی که به این بیماری مبتلا شده‌اند:

تعداد نتایجی آزمایشی که به اشتباه مثبت اعلام می‌شود:

کاملا مشخص است که نتایج تست معتبر نیست. در حالی که تنها ۲۰ نفر در واقعیت به این ویروس مبتلا شده‌اند، کیت شناسایی نتیجه تست ۶۹ نفر را مثبت اعلام کرد، یعنی دقت این کیت حدود ۲۹ درصد است که برای یک تست پزشکی عدد بسیار پایینی به حساب می‌آید:

به بیان بهتر می‌توان گفت که اگر نتیجه‌ی تست فردی در این آزمایش مثبت اعلام شود، به احتمال بیشتر از ۷۰ درصد به بیماری مبتلا نشده است! در این‌جا نیز با «پارادوکس مثبت کاذب» روبه‌رو هستیم. همان‌طور که گفته شد در شرایطی که احتمال وقوع یک رخداد از درصد خطای ابزاری که آن رخداد را می‌سنجیم کمتر باشد، نتایج به‌دست‌آمده دارای اعتبار نیست. در این‌جا درصد خطای مثبت کاذب کیت شناسایی حدود ۵ درصد است، در حالی که احتمال وقوع رخداد (ابتلا به بیماری) در شهر کوچک حدود ۲ درصد است. بنابراین نتایج به‌دست‌آمده اعتبار چندانی ندارد. اکنون شما به‌ عنوان مدیرمحصول، برای آن‌ که از وقوع اتفاقات این‌ چنینی و ورود آسیب به اعتبار شرکت خود جلوگیری کنید، برای کیت شناسایی یک شیوه‌نامه و بازه اطمینان تعریف می‌کنید تا دقیقا مشخص شود که نتایج این کیت در چه محدوده‌ای قابل اتکا است.

آژیر خطر

در یکی از مراکز تجاری مهم شهری با جمعیت ۱ میلیون نفر، یک دوربین و آژیر ضدتروریست نصب شده است. این آژیر خطر یک درصد خطای مثبت کاذب و یک درصد خطای منفی کاذب دارد. به عبارت بهتر می‌توان گفت:

منفی کاذب: اگر دوربین مداربسته تروریستی را شناسایی کند، به احتمال ۹۹ درصد زنگ آژیر خطر به صدا در می‌آید.
مثبت کاذب: در مواردی که افراد عادی از مقابل دوربین رد می‌شوند، زنگ آژیر خطر به احتمال ۹۹ درصد به صدا در نمی‌آید؛ اما ۱ درصد احتمال به صدا در آمدن زنگ آژیر وجود دارد.

اکنون این سوال مطرح می‌شود که اگر روزی زنگ آژیر خطر به صدا در بیاید، چند درصد احتمال دارد که فرد تروریستی در داخل مجتمع وجود داشته باشد؟ با توجه به این که خطای مثبت کاذب و منفی کاذب این دوربین تنها ۱ درصد بوده و این دوربین از دقتی ۹۹ درصدی برخوردار است، احتمالا پاسخ اکثریت به این سوال این است، که اگر زنگ آژیر خطر به صدا در بیاید به احتمال ۹۹ درصد یک تروریست در مجتمع وجود دارد. اما برخورد با مسائل آمار-احتمال به این سادگی نیست!

فرض می‌کنیم که در شهری با حدود ۱ میلیون نفر جمعیت نزدیک به ۵۰۰ تروریست وجود داشته باشد. این فرض کاملا معقول است و با داده‌های آماری-جمعیتی سازگاری دارد. اکنون به صورت سوال باز می‌گردیم، که اگر آژیر خطر به صدا درآید چند درصد احتمال دارد تروریستی داخل مجتمع باشد. برای به‌دست‌آوردن این درصد، محاسبات زیر را انجام می‌دهیم:

۵۰۰ تروریست در شهر وجود دارد که اگر همگی از جلوی دوربین رد شوند، با توجه به دقت ۹۹ درصدی دوربین شناسایی، آژیر خطر ۴۹۵ بار به صدا در می‌آید:

۹۹۹۵۰۰ نفر مردم عادی هستند (کل جمعیت شهر منهای افراد تروریست) اگر همگی این افراد از جلوی دوربین رد شوند، باتوجه به خطای ۱ درصدی دوربین شناسایی، آژیر خطر ۹۹۹۵ به صدا در می‌آید:

بنابراین اگر تمام جمعیت شهر از جلوی این دوربین رد شوند آژیر خطر ۱۰۴۹۰ به صدا در می‌آید. این در حالی است که تنها در ۴۹۵ موارد آژیر خطر به درستی به صدا درآمده است. اکنون به‌ راحتی می‌توان محاسبه کرد که اگر آژیر خطر به‌ صدا درآمد، چند درصد احتمال دارد که یک تروریست داخل مجموعه باشد:

این محاسبات بدین معنا است که اگر آژیر خطر به صدا در بیاید، به احتمال بیش از ۹۵ درصد اشتباه بوده است و تروریستی داخل مجموعه وجود ندارد. نتیجه‌ی به‌دست‌آمده با تصور ابتدایی ما تفاوت فاحشی دارد. اکثریت افراد هنگامی که از دقت ۹۹ درصدی دوربین مطلع می‌شوند، تحت تاثیر این دقت استثنایی قرار می‌گیرند و گمان می‌کنند که غالب خروجی‌های این دستگاه صحیح خواهد بود؛ اما بار دیگر به ما ثابت شد که دقت‌ اندازه‌گیری به تنهایی کافی نیست.

در این مسئله، احتمال حضور یک تروریست در میان مردم شهر نزدیک به ۰.۰۵ درصد است؛ این در حالی است که خطای این دستگاه حدود ۱ درصد است. بنابراین در این مسئله بار دیگر با پارادوکس «مثبت کاذب» روبه‌رو هستیم که باعث ایجاد یک خروجی ناکارآمد شده است.

تست هوشیاری

مدیریت محصول یک دستگاه هوشیاری‌سنج به شما سپرده شده است. این دستگاه قرار است توسط پلیس در جهت شناسایی رانندگانی که مشروبات الکلی یا مواد مخدر مصرف کرده‌اند، مورد استفاده قرار گیرد. محصولی که توسط تیم شما توسعه داده شده است، مشخصات زیر را دارد:

خطای منفی کاذب این دستگاه صفر درصد است؛ یعنی این محصول تست تمام افرادی را که مصرف مشروبات الکلی یا مواد مخدر داشته‌اند، به ‌درستی مثبت اعلام می‌کند.
خطای مثبت کاذب این دستگاه حدود ۵ درصد است؛ یعنی این محصول در ۹۵ درصد مواقع تست افرادی را که مصرفی نداشته‌اند، به درستی منفی اعلام می‌کند و در ۵ درصد مواقع، به اشتباه تست این افراد را مثبت اعلام می‌کند.

از آن‌جایی که شما مسلط به علوم داده هستید و پیش از آن‌ که سمت مدیریت محصول را بر عهده بگیرید، دانشمند داده بوده‌اید، کمی در رونمایی از محصول تامل به‌ خرج می‌دهید و از اداره‌ پلیس می‌خواهید که گزارشی از میزان گسترش مصرف مشروبات الکلی و موادمخدر میان رانندگان ارسال کند.

پس از بررسی گزارش متوجه می‌شوید که به‌ طور میانگین از میان هر ۱۰۰۰ راننده، ۵ نفر از آن‌ها مصرف مشروبات و مواد مخدر داشته‌اند. این موضوع کمی نگران کننده است؛ چرا که اگر پلیس با محصول فعلی شما به‌ صورت رندوم از رانندگان تست بگیرد، احتمالا یک فاجعه رخ بدهد! برای درک بهتر این موضوع محاسبات زیر را انجام می‌دهیم.

از هر ۱۰۰۰ نفر، ۵ نفر مصرف مشروبات و مواد مخدر داشته‌اند و با توجه به این که خطای منفی کاذب دستگاه صفر درصد است، تست این ۵ نفر مثبت خواهد شد.

همان‌طور که گفته شد، خطای مثبت کاذب این دستگاه حدود ۵ درصد است. این سخن بدین معناست که از میان ۹۹۵ نفر راننده که مصرفی نداشته‌اند، به‌ طور حدودی تست ۵۰ نفر از آن‌ها مثبت خواهد شد:

یعنی از میان ۵۵ تست مثبتی که در میان ۱۰۰۰ نفر اعلام شده است، تنها تست ۵ نفر به درستی اعلام شده است. این یعنی دقت این تست چیزی حدود ۹ درصد است و اگر نتیجه‌ی تست کسی مثبت شود، به احتمال بالای ۹۰ درصد مصرفی نداشته و بی‌گناه است!

بنابراین واضح است که استفاده رندوم از این دستگاه به‌ شدت پرخطا خواهد بود و به اعتبار محصول شرکت شما و اداره پلیس آسیب جدی وارد خواهد کرد. برای حل این مشکل باید دایره‌ افراد را کمی محدودتر کرد. به عبارت بهتر شیوه‌نامه‌ای طراحی کرد که در آن احتمال وجود فردی که مصرف مشروبات یا مواد داشته است، از خطای دستگاه بالاتر باشد. بنابراین شیوه‌نامه‌ای را طراحی می‌کنید که در آن رفتارهایی تعریف شده که اگر راننده‌ای تعدادی از آن‌ها را انجام دهد، به احتمال ۶۰ درصد مصرف مشروبات الکلی یا مواد مخدر داشته است. بدین ترتیب خروجی دستگاه اعتبار بیشتری خواهد داشت. برای این که از این موضوع مطمئن شویم، فرض کنید یک گروه ۱۰۰ نفره راننده که مطابق شیوه‌نامه مشکوک بودند، توسط پلیس متوقف شده‌اند.

باتوجه به این که احتمال مصرف داشتن در میان این افراد ۶۰ درصد است، در یک گروه ۱۰۰ نفره، حدودا ۶۰ نفر مصرف داشته‌اند، بنابراین تست این ۶۰ نفر مثبت خواهد بود:

خطای کاذب دستگاه ۵ درصد است، بنابراین از میان ۴۰ نفره باقی‌مانده، به‌ طور حدودی تست ۲ نفر به اشتباه مثبت اعلام خواهد شد:

اکنون از میان ۶۲ تستی که مثبت اعلام شده‌اند، تست ۶۰ نفر به‌ درستی مثبت بوده و تنها نتیجه‌ی آزمایش ۲ نفر اشتباه شده است. این سخن بدین معناست که خروجی آزمایش دقتی حدود ۹۷ درصد دارد که عدد قابل قبولی به حساب می‌آید.

بنابراین مشخص شد که وجود اندکی آگاهی نسبت به فضای نمونه، چه تاثیر شگرفی بر خروجی می‌گذارد. البته موضوع آگاهی داشتن نسبت به فضای نمونه، خود یک بحث طولانی است که در مقالات بعدی به‌ صورت متمرکز به آن خواهیم پرداخت.

جمع‌بندی

با توجه به مسائلی که مورد بررسی قرار گرفت، مشخص شد که دقت اندازه‌گیری یک دستگاه به‌ تنهایی نمی‌تواند ضامن قابل اتکا بودن خروجی باشد و فضای نمونه‌ای که بررسی می‌کنیم، اهمیت چه بسا بیشتری نسبت به دقت دستگاه دارد. برای جلوگیری از وقوع «پارادوکس مثبت کاذب» باید شرایطی را فراهم کرد که در آن احتمال وقوع رخداد از خطای دستگاه بالاتر باشد. در مسئله «تست هوشیاری» با انجام چنین کاری، دقت خروجی به‌ طور شگفت‌انگیزی افزایش یافت.

وقتی دقت اندازه‌گیری، شما را گول می‌زند!

آشنایی با اصطلاحات

ویروس ناشناخته

آژیر خطر

تست هوشیاری

جمع‌بندی

چگونه می‌توانیم یک مدیر محصول خوب باشیم: سازمان‌ها در قیاس با استارتاپ‌ها

متدهای مدرن برای ساخت محصول سازمانیِ موفق

اساساً OKR چیست و چطور باید استفاده شود؟