مدیرمحصول! عاشق علوم داده و محاسبات کوانتومی
وقتی دقت اندازهگیری، شما را گول میزند!
احتمالا شما هم داستانهایی درباره جویندگان طلا شنیدهاید. در اکثر این داستانها افراد به کمک دستگاههایی به نام طلایاب، گنجهای عظیمی مییابند و به اصطلاح یکشبه پولدار میشوند.
یکی از دوستان شما دستگاه طلایاب دارد. شما نیز تصمیم گرفتهاید به جرگهی جویندگان طلا پیوسته و با دوست خود همراه شوید. بنابراین همراه با دوست خود به سراغ یک معدن رفته که در آن حدود ۱۰۰۰ سنگ وجود دارد و پیشبینی میکنید که ۱ درصد از این سنگها طلا باشد. روند کار دستگاه به شرح زیر است:
- این دستگاه طلا را تشخیص داده و همیشه در نزدیکی آن بوق میزند.
- این دستگاه با دقت ۹۰ درصد، میتواند طلا را از میان دیگر سنگها تشخیص دهد.
شما و دوستتان مشغول جستوجو در معدن میشوید که ناگهان دستگاه در جلوی یکی از سنگها بوق میزند. در صورتی که این سنگ طلا باشد، قیمت آن در بازار چیزی حدود ۱۰۰۰ دلار است. دوست شما پیشنهاد میدهد که ۲۵۰ دلار به او داده و سنگ را برای خود بردارید. پیشنهاد هیجانانگیزی به نظر میرسد؛ چرا که اگر سنگ طلا باشد، شما سه برابر سود میکنید. از طرفی دقت دستگاه طلایاب نیز بالا و احتمال طلا بودن آن سنگ زیاد است. اینها فکرهایی هستند که در ذهن شما میگذرد و در نهایت منجر به این خواهد شد که ۲۵۰ دلار را به دوستتان پرداخت کرده و سنگ را برای خود بردارید.
حال بد نیست کمی از دنیای جویندگان طلا فاصله گرفته، به جهان زیبای ریاضیات بازگردیم و مسئله را موشکافانهتر بررسی کنیم:
- باتوجه به این که حدود ۱۰۰۰ سنگ در این معدن وجود دارد و ۱ درصد آنها طلا است، حدودا ۱۰ سنگ طلا در این معدن وجود دارد.
- بنابراین در این معدن حدودا ۹۹۰ سنگ وجود دارد که ارزش مادی خاصی ندارد و با توجه به دقت ۹۰ درصدی این دستگاه در تشخیص طلا از سنگ، از این ۹۹۰ سنگ، به اشتباه برای حدود ۹۹ سنگ بوق میزند.
باتوجه به موارد یاد شده، به احتمال زیاد اگر این دستگاه را در معدن بچرخانیم، ۱۰۹ بار بوق خواهد زد که از این بین، تنها ۱۰ بوق واقعا سنگ طلا را نشان میدهد. این سخن بدین معنا است که تنها ۹ درصد احتمال دارد سنگی که بابت آن ۲۵۰ دلار پول دادهایم، طلا باشد و بدین ترتیب، معامله چندان خوبی انجام نداده و به احتمال زیاد ۲۵۰ دلار پول بیزبان را بابت یک تکه سنگ بیارزش هدر دادهایم. اگر بخواهیم جمعبندی تمام این صحبتها را به صورت ریاضی نشان دهیم، خواهیم داشت:
پس از بررسی این مسئله از نگاه ریاضیات، متوجه شدیم که پارامتر «دقت اندازهگیری» به تنهایی برای دستیابی به نتیجه قابل اطمینان کافی نیست و باید موارد دیگری را نیز در نظر گرفت. این بحث در علم آمار و علوم داده با نام «پارادوکس مثبت کاذب» مطرح میشود. این پارادوکس معمولا زمانی رخ میدهد که احتمال وقوع رخداد از دقت خطای ابزاری که با آن رخداد را میسنجیم، کمتر باشد. برای مثال در مسئله «جویندگان طلا» ما با ابزاری با دقت ۹۰ درصد (خطا ۱۰ درصد) به دنبال بررسی رخدادی هستیم که احتمال وقوع آن حدود ۱ درصد است؛ بنابراین نتایجی به دست آمد که چندان قابل اطمینان نیست.
آشنایی با اصطلاحات
پیش از آن که به سراغ بررسی مسائل مرتبط با «پارادوکس کاذب» بپردازیم، بهتر است با چند اصطلاح کاربردی در حوزه علم آمار آشنا شویم. برای آن که انتقال مفهوم راحتتر شود، فرض کنید که یک تست کرونا از شما گرفته شده است. نتیجه این تست چهار حالت دارد:
مثبت صحیح (True Positive): شما به ویروس کرونا واقعا مبتلا شدهاید و نتیجه تست نیز مثبت است.
مثبت کاذب (False Positive): شما به ویروس کرونا مبتلا نشدهاید؛ اما نتیجه تست مثبت است.
منفی صحیح (True Negative): شما به ویروس کرونا مبتلا نشدهاید و نتیجه تست نیز منفی است.
منفی کاذب (False Negative): شما به ویروس کرونا مبتلا شدهاید؛ اما نتیجه تست منفی است.
لازم به ذکر است که در اینجا تست کرونا و به طور کلی تست پزشکی به عنوان مثال بیان شده است و این ۴ حالت، به هر رخدادی که در آن احتمالی برای وقوع خطا وجود دارد، قابل تعمیم است. در مسئله جویندگان طلا، درصد خطای مثبت کاذب دستگاه، یعنی حالتی که سنگ طلا نباشد اما دستگاه بوق بزند، ۱۰ درصد و درصد خطای منفی کاذب دستگاه، یعنی حالتی که سنگ طلا باشد اما دستگاه بوق نزند، صفر درصد بود. در ادامه این مقاله، چند مسئله دیگر از بحث «پارادوکس مثبت کاذب» را مورد برررسی قرار میدهیم.
ویروس ناشناخته
یک ویروس ناشناخته در شهری با جمعیت حدود ۱۰۰۰۰ نفر شیوع یافته و نزدیک به ۴۰ درصد از افراد را درگیر کرده است. شما به عنوان مدیرمحصول بر روی توسعه کیت شناسایی این ویروس کار میکنید تا بتوان هرچه سریعتر افراد مبتلا را از افراد سالم جدا کرد. کیت شناسایی شما حدودا ۵ درصد خطای مثبت کاذب و ۰ درصد خطای منفی کاذب دارد. اکنون این کیت جهت شناسایی افراد مبتلا در شهر مورد استفاده قرار گرفته و پیشبینی شما از نتایج به شرح زیر است:
- تعداد افراد تخمینی که به بیماری مبتلا شدهاند:
- تعداد نتایج آزمایشی که به اشتباه مثبت اعلام میشود:
همانطور که اشاره شد، درصد خطای منفی کاذب این کیت ۰ درصد است؛ یعنی اگر کسی به بیماری مبتلا شده باشد، حتما شناسایی میشود. اکنون مشخص شد که نتیجه تست حدود ۳۰۰ نفر به اشتباه مثبت اعلام شده است. در نهایت میتوان گفت در آزمایش انجام شده، نتیجه آزمایش ۴۳۰۰ نفر مثبت اعلام شده است که در این میان ۴۰۰۰ نفر از این افراد واقعا به بیماری مبتلا شدهاند. بنابراین دقت اندازهگیری این کیت چیزی حدود ۹۳ درصد است که عدد قابل قبولی است و میتوان به آن اطمینان کرد.
اما این مسئله اینجا به پایان نمیرسد! اکنون پس از موفقیتآمیز بودن نتایج کیت شناسایی شرکت شما، این کیت برای شناسایی ویروس در شهرهای دیگر نیز مورداستفاده قرار گرفته است.
در یکی از این شهرها جمعیت افراد حدود ۱۰۰۰ نفر است و نزدیک به ۲ درصد از افراد این شهر کوچیک درگیر این ویروس شدهاند. برای شناسایی افراد مبتلا شده از کیت شناسایی استفاده کردند؛ اما نتایج نامطلوبی به دست آمد. اکثریت افرادی که نتیجهی تستشان مثبت شده بود، کوچکترین نشانهای از ابتلا به ویروس نداشتند و همین امر اعتبار و کیفیت کیت طراحی شده توسط شرکت شما را زیر سوال بُرده است. با کمی حساب و کتاب میتوانیم به نتایج زیر برسیم:
- تعداد افراد تخمینی که به این بیماری مبتلا شدهاند:
- تعداد نتایجی آزمایشی که به اشتباه مثبت اعلام میشود:
کاملا مشخص است که نتایج تست معتبر نیست. در حالی که تنها ۲۰ نفر در واقعیت به این ویروس مبتلا شدهاند، کیت شناسایی نتیجه تست ۶۹ نفر را مثبت اعلام کرد، یعنی دقت این کیت حدود ۲۹ درصد است که برای یک تست پزشکی عدد بسیار پایینی به حساب میآید:
به بیان بهتر میتوان گفت که اگر نتیجهی تست فردی در این آزمایش مثبت اعلام شود، به احتمال بیشتر از ۷۰ درصد به بیماری مبتلا نشده است! در اینجا نیز با «پارادوکس مثبت کاذب» روبهرو هستیم. همانطور که گفته شد در شرایطی که احتمال وقوع یک رخداد از درصد خطای ابزاری که آن رخداد را میسنجیم کمتر باشد، نتایج بهدستآمده دارای اعتبار نیست. در اینجا درصد خطای مثبت کاذب کیت شناسایی حدود ۵ درصد است، در حالی که احتمال وقوع رخداد (ابتلا به بیماری) در شهر کوچک حدود ۲ درصد است. بنابراین نتایج بهدستآمده اعتبار چندانی ندارد. اکنون شما به عنوان مدیرمحصول، برای آن که از وقوع اتفاقات این چنینی و ورود آسیب به اعتبار شرکت خود جلوگیری کنید، برای کیت شناسایی یک شیوهنامه و بازه اطمینان تعریف میکنید تا دقیقا مشخص شود که نتایج این کیت در چه محدودهای قابل اتکا است.
آژیر خطر
در یکی از مراکز تجاری مهم شهری با جمعیت ۱ میلیون نفر، یک دوربین و آژیر ضدتروریست نصب شده است. این آژیر خطر یک درصد خطای مثبت کاذب و یک درصد خطای منفی کاذب دارد. به عبارت بهتر میتوان گفت:
- منفی کاذب: اگر دوربین مداربسته تروریستی را شناسایی کند، به احتمال ۹۹ درصد زنگ آژیر خطر به صدا در میآید.
- مثبت کاذب: در مواردی که افراد عادی از مقابل دوربین رد میشوند، زنگ آژیر خطر به احتمال ۹۹ درصد به صدا در نمیآید؛ اما ۱ درصد احتمال به صدا در آمدن زنگ آژیر وجود دارد.
اکنون این سوال مطرح میشود که اگر روزی زنگ آژیر خطر به صدا در بیاید، چند درصد احتمال دارد که فرد تروریستی در داخل مجتمع وجود داشته باشد؟ با توجه به این که خطای مثبت کاذب و منفی کاذب این دوربین تنها ۱ درصد بوده و این دوربین از دقتی ۹۹ درصدی برخوردار است، احتمالا پاسخ اکثریت به این سوال این است، که اگر زنگ آژیر خطر به صدا در بیاید به احتمال ۹۹ درصد یک تروریست در مجتمع وجود دارد. اما برخورد با مسائل آمار-احتمال به این سادگی نیست!
فرض میکنیم که در شهری با حدود ۱ میلیون نفر جمعیت نزدیک به ۵۰۰ تروریست وجود داشته باشد. این فرض کاملا معقول است و با دادههای آماری-جمعیتی سازگاری دارد. اکنون به صورت سوال باز میگردیم، که اگر آژیر خطر به صدا درآید چند درصد احتمال دارد تروریستی داخل مجتمع باشد. برای بهدستآوردن این درصد، محاسبات زیر را انجام میدهیم:
۵۰۰ تروریست در شهر وجود دارد که اگر همگی از جلوی دوربین رد شوند، با توجه به دقت ۹۹ درصدی دوربین شناسایی، آژیر خطر ۴۹۵ بار به صدا در میآید:
۹۹۹۵۰۰ نفر مردم عادی هستند (کل جمعیت شهر منهای افراد تروریست) اگر همگی این افراد از جلوی دوربین رد شوند، باتوجه به خطای ۱ درصدی دوربین شناسایی، آژیر خطر ۹۹۹۵ به صدا در میآید:
بنابراین اگر تمام جمعیت شهر از جلوی این دوربین رد شوند آژیر خطر ۱۰۴۹۰ به صدا در میآید. این در حالی است که تنها در ۴۹۵ موارد آژیر خطر به درستی به صدا درآمده است. اکنون به راحتی میتوان محاسبه کرد که اگر آژیر خطر به صدا درآمد، چند درصد احتمال دارد که یک تروریست داخل مجموعه باشد:
این محاسبات بدین معنا است که اگر آژیر خطر به صدا در بیاید، به احتمال بیش از ۹۵ درصد اشتباه بوده است و تروریستی داخل مجموعه وجود ندارد. نتیجهی بهدستآمده با تصور ابتدایی ما تفاوت فاحشی دارد. اکثریت افراد هنگامی که از دقت ۹۹ درصدی دوربین مطلع میشوند، تحت تاثیر این دقت استثنایی قرار میگیرند و گمان میکنند که غالب خروجیهای این دستگاه صحیح خواهد بود؛ اما بار دیگر به ما ثابت شد که دقت اندازهگیری به تنهایی کافی نیست.
در این مسئله، احتمال حضور یک تروریست در میان مردم شهر نزدیک به ۰.۰۵ درصد است؛ این در حالی است که خطای این دستگاه حدود ۱ درصد است. بنابراین در این مسئله بار دیگر با پارادوکس «مثبت کاذب» روبهرو هستیم که باعث ایجاد یک خروجی ناکارآمد شده است.
تست هوشیاری
مدیریت محصول یک دستگاه هوشیاریسنج به شما سپرده شده است. این دستگاه قرار است توسط پلیس در جهت شناسایی رانندگانی که مشروبات الکلی یا مواد مخدر مصرف کردهاند، مورد استفاده قرار گیرد. محصولی که توسط تیم شما توسعه داده شده است، مشخصات زیر را دارد:
- خطای منفی کاذب این دستگاه صفر درصد است؛ یعنی این محصول تست تمام افرادی را که مصرف مشروبات الکلی یا مواد مخدر داشتهاند، به درستی مثبت اعلام میکند.
- خطای مثبت کاذب این دستگاه حدود ۵ درصد است؛ یعنی این محصول در ۹۵ درصد مواقع تست افرادی را که مصرفی نداشتهاند، به درستی منفی اعلام میکند و در ۵ درصد مواقع، به اشتباه تست این افراد را مثبت اعلام میکند.
از آنجایی که شما مسلط به علوم داده هستید و پیش از آن که سمت مدیریت محصول را بر عهده بگیرید، دانشمند داده بودهاید، کمی در رونمایی از محصول تامل به خرج میدهید و از اداره پلیس میخواهید که گزارشی از میزان گسترش مصرف مشروبات الکلی و موادمخدر میان رانندگان ارسال کند.
پس از بررسی گزارش متوجه میشوید که به طور میانگین از میان هر ۱۰۰۰ راننده، ۵ نفر از آنها مصرف مشروبات و مواد مخدر داشتهاند. این موضوع کمی نگران کننده است؛ چرا که اگر پلیس با محصول فعلی شما به صورت رندوم از رانندگان تست بگیرد، احتمالا یک فاجعه رخ بدهد! برای درک بهتر این موضوع محاسبات زیر را انجام میدهیم.
از هر ۱۰۰۰ نفر، ۵ نفر مصرف مشروبات و مواد مخدر داشتهاند و با توجه به این که خطای منفی کاذب دستگاه صفر درصد است، تست این ۵ نفر مثبت خواهد شد.
همانطور که گفته شد، خطای مثبت کاذب این دستگاه حدود ۵ درصد است. این سخن بدین معناست که از میان ۹۹۵ نفر راننده که مصرفی نداشتهاند، به طور حدودی تست ۵۰ نفر از آنها مثبت خواهد شد:
یعنی از میان ۵۵ تست مثبتی که در میان ۱۰۰۰ نفر اعلام شده است، تنها تست ۵ نفر به درستی اعلام شده است. این یعنی دقت این تست چیزی حدود ۹ درصد است و اگر نتیجهی تست کسی مثبت شود، به احتمال بالای ۹۰ درصد مصرفی نداشته و بیگناه است!
بنابراین واضح است که استفاده رندوم از این دستگاه به شدت پرخطا خواهد بود و به اعتبار محصول شرکت شما و اداره پلیس آسیب جدی وارد خواهد کرد. برای حل این مشکل باید دایره افراد را کمی محدودتر کرد. به عبارت بهتر شیوهنامهای طراحی کرد که در آن احتمال وجود فردی که مصرف مشروبات یا مواد داشته است، از خطای دستگاه بالاتر باشد. بنابراین شیوهنامهای را طراحی میکنید که در آن رفتارهایی تعریف شده که اگر رانندهای تعدادی از آنها را انجام دهد، به احتمال ۶۰ درصد مصرف مشروبات الکلی یا مواد مخدر داشته است. بدین ترتیب خروجی دستگاه اعتبار بیشتری خواهد داشت. برای این که از این موضوع مطمئن شویم، فرض کنید یک گروه ۱۰۰ نفره راننده که مطابق شیوهنامه مشکوک بودند، توسط پلیس متوقف شدهاند.
باتوجه به این که احتمال مصرف داشتن در میان این افراد ۶۰ درصد است، در یک گروه ۱۰۰ نفره، حدودا ۶۰ نفر مصرف داشتهاند، بنابراین تست این ۶۰ نفر مثبت خواهد بود:
خطای کاذب دستگاه ۵ درصد است، بنابراین از میان ۴۰ نفره باقیمانده، به طور حدودی تست ۲ نفر به اشتباه مثبت اعلام خواهد شد:
اکنون از میان ۶۲ تستی که مثبت اعلام شدهاند، تست ۶۰ نفر به درستی مثبت بوده و تنها نتیجهی آزمایش ۲ نفر اشتباه شده است. این سخن بدین معناست که خروجی آزمایش دقتی حدود ۹۷ درصد دارد که عدد قابل قبولی به حساب میآید.
بنابراین مشخص شد که وجود اندکی آگاهی نسبت به فضای نمونه، چه تاثیر شگرفی بر خروجی میگذارد. البته موضوع آگاهی داشتن نسبت به فضای نمونه، خود یک بحث طولانی است که در مقالات بعدی به صورت متمرکز به آن خواهیم پرداخت.
جمعبندی
با توجه به مسائلی که مورد بررسی قرار گرفت، مشخص شد که دقت اندازهگیری یک دستگاه به تنهایی نمیتواند ضامن قابل اتکا بودن خروجی باشد و فضای نمونهای که بررسی میکنیم، اهمیت چه بسا بیشتری نسبت به دقت دستگاه دارد. برای جلوگیری از وقوع «پارادوکس مثبت کاذب» باید شرایطی را فراهم کرد که در آن احتمال وقوع رخداد از خطای دستگاه بالاتر باشد. در مسئله «تست هوشیاری» با انجام چنین کاری، دقت خروجی به طور شگفتانگیزی افزایش یافت.
مطلبی دیگر از این انتشارات
اساساً OKR چیست و چطور باید استفاده شود؟
مطلبی دیگر از این انتشارات
شانس یا استعداد؛ هرآنچه باید درباره «معناداری آماری» بدانید!
مطلبی دیگر از این انتشارات
چگونه با یک سکه نتیجه انتخابات را درست پیشبینی کنیم؟