برای ساده سازی مفاهیم آمار و احتمال، معمولاً مثالهایی مانند پرتاب سکه و تاس مطرح میشود که در عمل کاربردی نیستند. این نمونههای کلاسیک برای درک بهتر فرمولها مفیدند؛ اما برای اینکه بتوان از مفاهیم آمار در زندگی روزمره استفاده کرد، ضروری است تا با مثالهای عینی در واقعیت نیز آشنا شد. با این کار مدلسازی و نگاشت واقعیت به دنیای ریاضیات سادهتر خواهد شد.
در این پست میخواهم دربارهی توزیع برنولی و دو جملهای، کاربردها و نمونههای واقعی این دو توزیع معروف توضیح دهم. قبل از اینکه ادامهی این نوشته را بخوانید، بهتر است دربارهی مفاهیم متغیر تصادفی و احتمال اطلاعات داشته باشید.
تعریف توزیع برنولی به صورت زیر است:
توزیع برنولی: اگر اتفاقی را در نظر بگیریم که تنها دو حالت دارد، در صورتی که احتمال رخداد یکی از حالت را p در نظر بگیریم، احتمال رخداد حالت مقابل برابر با q میشود (q=1-p). این تعریف آزمایش برنولی است و مثال کلاسیک آن، پرتاب یک سکه است.
در مقابل توزیع دو جملهای به این ترتیب تعریف میشود:
اگر یک آزمایش برنولی را n بار تکرار کنیم به آن توزیع دو جملهای میگوییم.مثلاً اگر یک سکه را چند بار پرتاب کنیم این یک توزیع دو جملهای است.
از توزیع دو جملهای برای بررسی رویدادهایی استفاده میشود که هدف آن شمارش تعداد موفقیتها باشد. به بیان دیگر اگر احتمال موفقیت در انجام کاری برابر p باشد و این کار n بار انجام شود، میتوان محاسبه کرد احتمال این که k بار موفقیت حاصل شود چقدر است؟
شکل زیر را در نظر بگیرید. فرض کنید n بار یک آزمایش برنولی را انجام دادیم. مواردی که با رنگ زرد هستند نشان دهندهی موفقیت هستند و موارد بنفش شکستها را نشان میدهند. فرض کنید در شکل زیر k بار رنگ زرد آمده است. میدانیم که احتمال زرد آمدن p و احتمال رنگ بنفش q است (q=1-p):
در این شکل، k تا p داریم پس n-k تا q خواهیم داشت. کافی است تمام حالتهایی که k بار حالت زرد بیاید شمرده شود. پس برای شمارش تعداد موفقیتها، انتخاب k از n را به فرمول اضافه میکنیم. بنابراین احتمال متغیر تصادفی با توزیع دوجملهای به این صورت است:
برای هر کدام از این توزیعها، میتوانید امید ریاضی و واریانس را نیز به دست آورید. برای علاقهی بیشتر، دورهی آموزش آمار و احتمال مهندسی دانشگاه شریف را در اینجا مشاهده کنید.
فرض کنید مدلی را برای یک طبقهبند دو کلاسه آموزش دادهاید و مسئلهی شما تشخیص یک بیماری باشد. دقت مدل ۹۰ درصد است. خطای این مدل میتواند به این صورت باشد: یا شخص بیمار است و مدل به اشتباه برچسب سالم میزند (false positive) و یا شخص سالم است و مدل برچسب بیمار تشخیص میدهد (false negative). اگر ۱۰۰ نفر بیمار (از قبل اطلاع دارید که بیمار هستند) را در نظر بگیرید، با تحلیل تشخیص مدل روی بیماران، می توانید نتیجه بگیرید دقت مدل برای این مسئله قابل قبول است یا خیر.
متغیر تصادفی برنولی: برچسب کلاس
احتمال تشخیص درست: ۰٫۹
متغیر تصادفی توزیع دو جملهای: چند بار بیماری درست تشخیص داده شده است؟
فرض کنید برای درمان یک بیماری، روش درمانی کشف شده که با احتمال ۱۰٪ میتواند یک بیماری را درمان کند. این دارو روی ۵۰۰ بیمار تست میشود. پس انتظار میرود که داروی مورد نظر روی ده درصد بیماران یعنی ۵۰ نفر اثر درمانی مثبت بگذارد. اما برخلاف انتظار، این دارو ۷۵ بیمار را درمان کرده است. آیا نتیجهی آزمایش شانسی بوده یا واقعاً این دارو میتواند بیماری را درمان کند؟
متغیر تصادفی برنولی: درمان یا عدم درمان بیمار
احتمال درمان بیمار: ۰٫۱
متغیر تصادفی توزیع دو جملهای: چند بیمار درمان شده است؟
یکی از مهمترین مراحل در تولید محصول، کنترل کیفیت و ارزیابی اقلام تولید شده است. سالم و یا عیبدار بودن کالا نیز میتواند به صورت یک توزیع برنولی در نظر گرفته شود. فرض کنیم در یک خط تولید، انتظار میرود که ۸۰ درصد محصولات سالم باشند. ارزیابی کالا در ۱۰۰ مورد را میتوان به صورت توزیع دو جملهای مدلسازی کرد.
متغیر تصادفی برنولی: سالم یا خراب بودن محصول
احتمال سالم بودن: ۰٫۸
متغیر تصادفی توزیع دو جملهای: چند مورد از محصولات سالم هستند؟
پرسشنامههایی که افراد باید با «بله» یا «خیر» به سوالات آن پاسخ دهند نیز میتواند به صورت توزیع دوجملهای در نظر گرفته شود. به این ترتیب میتوان میزان استفاده از یک محصول، برنامه تلویزیونی یا خدمات را ارزیابی کرد. برای نمونه فرض کنید ۶۰ درصد مشتریان از استفاده از خدمات یک شرکت رضایت دارند. بدین ترتیب متغیرها به صورت زیر تعریف میشوند:
متغیر تصادفی برنولی: پاسخ بله یا خیر
احتمال رضایت: ۰٫۶
متغیر تصادفی توزیع دو جملهای: چند نفر از محصول/خدمات/برنامه تلویزیونی راضی هستند؟