منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
توجه: در ادامه این پست منظور از A' و 'A متمم مجموعه A و منظور از B' و 'B متمم مجموعه B است.
یه مجموعه جهانی داریم که با Ω (امگا) مشخص میشه (بعضی کتابها با S نشونش میدن) و تمام پیشامدهای یک آزمایش تصادفی رو بهمون نشون میده. مثلا در آزمایش تصادفی انداختن یک تاس، اُمگا میشه:
در آزمایش تصادفی پرتاب یک سکه برای اُمگا خواهیم داشت:
و اگر آزمایش تصادفی تعداد ماشینهایی که در یک دقیقه از خیابونی که در اون ساکن هستیم از جلومون رد میشن باشه، اُمگا برابر میشه با:
تابع احتمال رو تعریف کردیم P(A) به صورتی که A یک واقعه یا رویداد است که یک زیر مجموعه از امگا میباشد. کاری که این تابع میکنه این طوره که در ورودی یک زیر مجموعه میگیره و در خروجی بهمون یک عدد میده. تابع احتمال P(A) سه تا خصوصیت داره که بهشون اصول موضوعه احتمال گفته میشه. به عبارتی دیگه، احتمال رو بر اساس این سه اصل و خصوصیت میشه تعریف کرد:
اصل سوم داره میگه اگه رویدادهای A1 و A2 و A3 و ... دو به دو از هم مجزا باشن، یعنی به ازای هر i و j داشته باشیم:
یعنی اشتراک هر دوتاییشون تهی باشه، در این صورت میتونیم بگیم که احتمال اجتماع همه Ai ها میتونه بشه حاصل جمع احتمال Ai ها.
این اصول برامون کاملاً واضح هستن. مثلاً طبق اصل اول پذیرفتیم که احتمال هیچ وقت منفی نمیشه و همواره بین 0 تا 1 هست. البته میتونیم مکتب جدیدی رو تعریف کنیم که در اون احتمال منفی هم وجود داشته باشه، اما طبق اصول کولموگروف احتمال همواره بین 0 تا 1 هست.
همچنین، اصل دوم داره میگه که مثلاً اگه یک تاس رو بندازیم یکی از وجههای 1 تا 6 میاد بالاخره و امکان نداره که موقع انداختن یک تاس حالتی پیش بیاد که خارج از این 6 تا وجه باشه. پس احتمال اینکه یکی از حالتهایی که در مجموعه جهانی وجود داره و رخ بده 1 هست. حالا اگه حالتی رخ بده که در مجموعه جهانی وجود نداره، در اون صورت مشکل از تعریف مجموعه جهانی هست و باید اون رو درست کنیم. مثلاً حالتی رو در نظر بگیرید که تاس روی لبه بیاد.
برای اصل سوم هم، همون آزمایش تصادفی تعداد ماشینهای گذرنده از یک خیابون در یک دقیقه رو در نظر بگیرید. تو این مثال امکان نداره که در یک لحظه هم 0 ماشین رد بشن، هم دو ماشین، هم تعداد دیگهای از ماشینها. مثلا اگر بخوایم نمودار ون این مثال رو رسم کنیم به صورت زیر میشه:
تو نمودار وِن بالا رویداد A1 مثلا داره احتمال گذشتن 0 ماشین در یک دقیقه از خیابون رو نشون میده. A2 همون احتمال مشابه رو برای تعداد 1 ماشین و A3 همون احتمال رو برای تعداد 2 ماشین مشخص میکنه. میدونیم که احتمال هر تعداد دیگهای از ماشینهای گذرنده در یک دقیقه اشتراکی با تعدادهای دیگه نخواهد داشت. پس الان طبق اصل سوم احتمال اجتماع هر سه حالت، معادل میشه با حاصل جمع احتمالهای تکی شون.
خلاصه، تمام مسائل موجود در احتمال رو به کمک این 3 اصل میشه اثبات کرد.
در ادامه، تعدادی مسئله بعنوان مثال آورده شدن که نحوه اثباتشون به کمک سه اصل معرفی شده در بخش قبلی ارائه شده.
مثال اول: اثبات برقراری رابطه P(A') = 1-P(A)
فرض کنید درستی رابطه بالا رو میخوایم به کمک اصولی که تا اینجا بررسی کردیم نشون بدیم. اول اینکه متمم A رو به صورت زیر تعریف میکنیم:
تو نمودار ون بالا اگه مربع مجموعه جهانی باشه و دایره مجموعه A رو مشخص کنه، متمم A میشه نواحی قرمز رنگ.
حالا میخوایم ببینیم که چطور با استفاده از اصول احتمال میشه اثبات کرد:
مراحل اثبات:
مثال دوم: اثبات برقراری رابطه P(A U B) = P(A) + P(B) - P(A ∩ B)
اول اینکه رابطه بالا خیلی شبیه اصل شمول و عدم شمول هست، منتها فرقش اینکه در اصل شمول و عدم شمول از اندازه مجموعه استفاده میکردیم به جای احتمال و رابطه به صورت زیر بود:
حالا، باید ببینیم بین اندازه مجموعهها و احتمال چه ارتباطی وجود داره. فرض کنید که در یک آزمایشی، احتمال رخداد هر پیشامد یکسان باشه. مثلاً در پرتاپ یک سکه احتمال شیر اومدن با احتمال خط اومدن یکی باشه. حالا، اگه تمام اعضای مجموعه Ω احتمال رخدادشون باهم یکسان باشه و A هم پیشامدی باشه که در Ω وجود داره، احتمال A رو میتونیم به صورت زیر تعریف کنیم:
با این تعریف، مثلاً احتمال اینکه وجهی از تاس بیاد که از 3 کمتر باشه یا زوج باشه برابر میشه با:
این تعریف همیشه صدق نمیکنه و فقط یک تعریف اولیه از احتمال هست. چون که رویدادهایی وجود دارن که احتمال رخداد هر پیشامد در آنها باهم یکسان نیست.
حالا یه سوال، به ازای هر پیشامد در یک آزمایش تصادفی، چند تا واقعه اتفاق میفته؟ مثلاً وقتی یک تاس رو میندازیم و وجه 1 میاد، چند تا واقعه اتفاق میفته؟ اگر تعداد اعضای مجموعه امگا برابر با n باشه جواب میشه:
برای مثال، فرض کنید یک تاس رو انداختیم و وجه 1 اومد. وقتی این پیشامد رخ میده، تمام واقعههایی که در اون 1 حضور داشته هم حساب میشه:
الان هدف از بیان چنین چیزی این بود که حواسمون باشه وقتی که یک پیشامدی رخ میده، همزمان چند تا واقعه باهم دیگه میتونه اتفاق بیفته. تو مثال بالا یک تاس رو انداختیم و 1 اومده، اما همزمان 32 تا واقعه رخ داده.
حالا برگردیم به مسئلهای که داشتیم. قرار بود با فرض اینکه میدونیم P یک تابع احتمال هست، رابطه زیر رو اثبات کنیم:
فرض کنید میایم دو مجموعه مجزای A و B - A رو در نظر میگیریم. از طرفی میدونیم که مجموعه B - A برابر هست با:
درستی رابطه بالا رو به سادگی میشه با نمودار ون نشون داد.
حالا چون دو مجموعه بالا از هم مجزا هستن میتونیم داشته باشیم:
از طرفی میشه به کمک نمودار ون نشون داد که رابطه زیر برقراره:
طبق روابطی که تا الان نوشتیم داریم:
مسئله هم که این بود:
الان اگر بتونیم نشون بدیم که رابطه زیر برقراره، مسئله حل شده:
حالا، میدونیم که دو مجموعه زیر هم از هم مجزا هستن:
با استفاده از نمودار ون هم میشه درستی رابطه زیر رو نشون داد:
از طرفی چون دو مجموعهی بالا از هم مجزا هستن میتونیم بنویسیم:
پس در نهایت خواهیم داشت:
مسئله مورد نظر اثبات شد و دیدیم که مشابه قانون شمول و عدم شمول برای احتمال هم وجود داره.
در قالب یک مثال میخوایم مفهوم احتمال شرطی رو بررسی کنیم.
فرض کنید یه تست پزشکی برای تشخیص یک نوع خاصی از سرطان طراحی کردیم که در صورتی که فرد بیمار باشه، تست با احتمال 99 درصد میگه طرف بیماره و جواب تستش مثبت میشه و اگر فرد سالم باشه، تست با احتمال 98 درصد میگه طرف سالمه و جواب تستش منفی میشه. از طرفی، فرض کنید یک جامعهای از افراد داریم که از هر 10 هزار نفر، 1 نفر به این سرطان خاص دچار میشه.
حالا یک نفر که در مورد شرایط بیماریش نمیدونیم تستی که طراحی کردیم رو انجام داده و جواب تست هم مثبت شده. میخوایم این رو بررسی کنیم که چقدر احتمال داره واقعاً اون آدم بیمار باشه؟
قبل اینکه به بررسی جواب مسئله بپردازیم باید مفاهیمی رو توضیح بدیم.
فرض کنید یک تاس رو میندازیم و میخوایم ببینیم چقدر احتمال داره که تاس زوج بیاد. تو این حالت جواب مسئله چی میشه؟ میشه 3/6 یا 1/2. حالا فرض کنید تاس رو میندازیم و میدونیم که 6 نیومده، حالا چقدر احتمال داره که تاس زوج اومده باشه؟ جواب میشه 2/5.
حالا یه مثال دیگه. مثلاً ازمون میپرسن چقدر احتمال داره که در شهر x بارون بیاد؟ مثلاً میگیم با احتمال 0.1. بعد بهمون میگن که فردا یک ابر بارشی وارد شهر x میشه، حالا با چه احتمالی بارون میاد؟ تو این حالت جواب ممکنه 0.6 بشه مثلاً.
خلاصه، با توجه به اطلاعاتی که از مسئله دریافت میکنیم، مقدار جوابی که برای احتمال به دست میاد تغییر میکنه. به این مفهوم احتمال شرطی میگن.
تعریفی که برای احتمال شرطی داریم به صورت زیر هست:
P(A | B)
به فارسی خونده میشه، احتمال A به شرط B و به انگلیسی خونده میشه:
Probability of A Given B → P(A) Given B
احتمال P(A | B) داره میگه چقدر احتمال داره A رخ بده وقتی که میدونیم B اتفاق افتاده. فرمول این احتمال به صورت زیر تعریف میشه:
P(A | B) = P(A ∩ B) / P(B)
اگر علاقهمند به چگونگی ارتباط بین احتمال شرطی و اصول موضوعه و نحوه اثباتش هستین، میتونید به دقیقه 45 تا 52 از ویدیو این جلسه مراجعه کنید. همچنین، قسمت احتمال شرطی از جزوهای که در گیتهاب موجود هست رو خودتون ببینید، بخشهای جالبی داره که باعث میشه شهود بهتری از مفاهیم پیدا کنید. بخش کوچیکی از مثالهای موجود در جزوه گیتهاب در کلاس نیز بررسی میشه که در صورت تمایل میتونید به دقیقه 52 تا 56 از ویدیو کلاس مراجعه کنید.
خلاصه، در احتمال شرطی وقتی که میدونیم B اتفاق افتاده، تمامی حالتهای Ω - B انگار حذف میشن و مجموعه کل برابر میشه با B.
حالا، بریم سراغ مسئلهای که در اول این بخش مطرح کردیم و حلش کنیم. واقعههای مسئله رو به صورت زیر تعریف میکنیم:
A → فرد مراجعه کننده بیمار باشد
'A → فرد مراجعه کننده سالم باشد
B → نتیجه تست مثبت باشد
'B → نتیجه تست منفی باشد
Sensitivity = 0.99 → اگر فرد بیمار باشد، احتمال اینکه نتیجه تست مثبت باشد 99 درصد است
Specificity = 0.98 → اگر فرد سالم باشد، احتمال اینکه نتیجه تست منفی باشد 98 درصد است
P(B | A) = 0.99
P(B' | A') = 0.98
P(A) = 1 / 10000 → احتمال اینکه یک فرد در جامعه بیمار باشد
حالا، تا اینجا اطلاعات مسئله رو فهمیدیم. از اینجا به بعد دنبال چی هستیم؟ سوال چی بود اصلاً؟ سوال این بود:
یک نفر که در مورد شرایط بیماریش نمیدونیم تستی که طراحی کردیم رو انجام داده و جواب تست هم مثبت شده. میخوایم این رو بررسی کنیم که چقدر احتمال داره واقعاً اون آدم بیمار باشه؟
اگر مسئله رو به زبان ریاضی بنویسیم خواهیم داشت:
P(A | B) = ?
حالا مسئلهای که داریم با اطلاعات داده شده کاملاً متفاوته. چجوری از روی اطلاعات داده شده به مسئله برسیم و حلش کنیم؟ اینجاست که قانون بیز بهمون کمک میکنه. قبل از حل ادامه مسئله ببینیم اصلاً این قاعده چی میگه و چطور تعریف میشه.
طبق تعریفی که برای احتمال شرطی کردیم برای محاسبه احتمال A به شرط اینکه B رخ داده باشه خواهیم داشت:
P(A | B) = P(A ∩ B) / P(B)
و اگر A رخ داده باشه و بخوایم احتمال B رو حساب کنیم میشه:
P(B | A) = P(A ∩ B) / P(A)
حالا، چجوری از رابطه اول به رابطه دوم برسیم؟ میتونیم بیایم رابطه اول رو در P(B) ضرب و بر P(A) تقسیم کنیم:
P(A | B) * P(B) / P(A) = (P(A ∩ B) * P(B)) / (P(B) * P(A))
پس از سادهسازی خواهیم داشت:
P(A | B) * P(B) / P(A) = P(A ∩ B) / P(A) = P(B | A)
P(A | B) * P(B) / P(A) = P(B | A)
حالا، اگه بیایم P(A | B) رو تنها کنیم خواهیم داشت:
P(A | B) = P(B | A) * P(A) / P(B)
و برای P(B | A) هم خواهیم داشت:
P(B | A) = P(A | B) * P(B) / P(A)
به دو رابطه آخری که به دست اومد قاعده بیز میگیم و کمک میکنه که با داشتن P(A | B) به P(B | A) برسیم و برعکس.
حالا، الان که با قاعده بیز آشنا شدیم برگردیم به ادامه حل مسئله.
با توجه به اطلاعات مسئله که در بخش پیش ارائه شد، میخواستیم حاصل P(A | B) رو محاسبه کنیم. طبق قاعده بیز خواهیم داشت:
P(A | B) = P(B | A) * P(A) / P(B)
حالا اگر اطلاعات مسئله رو جایگذاری کنیم:
P(A | B) = (0.99 * (1 / 10000)) / P(B)
اگر بتونیم P(B) رو هم حساب کنیم مسئله حل شده و دیگه تمومه. حالا چجوری P(B) رو پیدا کنیم؟ برای پیدا کردن این مجهول لازمه که یک سری توضیحات دیگه بدیم.
فرض کنید یک نمودار ون داریم که به صورت زیر هست:
در نمودار بالا، مجموعه مرجع از دو قسمت A و متمم A تشکیل شده و مجموعه B هم در جایی اون وسط قرار گرفته. حالا با توجه به این نمودار میتونیم P(B) رو به صورت زیر تعریف کنیم:
P(B) = P(B ∩ A) + P(B ∩ A')
حالا با توجه به تعریف احتمال شرطی که به صورت زیر تعریف میشد:
P(B | A) = P(A ∩ B) / P(A)
میتونیم برای P(B ∩ A) داشته باشیم:
P(B ∩ A) = P(B | A) * P(A)
به صورت مشابه میتونیم برای P(B ∩ A') بنویسیم:
P(B ∩ A') = P(B | A') * P(A')
در نتیجه P(B) برابر خواهد بود با:
P(B) = P(B | A) * P(A) + P(B | A') * P(A')
حالا، از نتایجی که اینجا به دست اومد میخوایم برای حل مسئله استفاده کنیم. دنبال به دست آوردن P(B) بودیم. با استفاده از رابطه بالا و اطلاعات مسئله خواهیم داشت:
P(B) = P(B | A) * P(A) + P(B | A') * P(A')
P(B) = 0.99 * (1 / 1000) + P(B | A') * (1 - P(A))
P(B) = 0.99 * (1 / 1000) + P(B | A') * (1 - (1 / 10000))
حالا، اگه بتونیم مقدار P(B | A') رو به دست بیاریم، مسئله تموم میشه. چجوری این مقدار محاسبه میشه؟ طبق اطلاعات مسئله مقدار P(B' | A') رو داریم. پس میتونیم بنویسیم:
P(B | A') = 1 - P(B' | A')
P(B | A') = 1 - 0.98 = 0.02
پس، برای P(B) خواهیم داشت:
P(B) = 0.99 * (1 / 1000) + P(B | A') * (1 - (1 / 10000))
P(B) = 0.99 * (1 / 1000) + 0.02 * (1 - (1 / 10000))
و در نهایت جواب مسئله خواهد بود:
P(A | B) = (0.99 * (1 / 10000)) / P(B)
P(A | B) = (0.99 * (1 / 10000)) / (0.99 * (1 / 1000) + 0.02 * (1 - (1 / 10000)))
P(A | B) = 0.0047
پس فرد مراجعه کننده با احتمال 0.47 درصد واقعاً بیماره! احتمالاً قبل از محاسبه این احتمال چیزی که در ذهنمون بود، این بوده که فرد با احتمال خیلی بالایی واقعاً بیماره!
تو این مسئله فرض کرده بودیم که از هر 10000 نفر 1 نفر بیماره. حالا، اگه 1 میلیون نفر بهمون مراجعه کنن، از این 1 میلیون نفر احتمالاً 100 نفر بیمار هستن و 999900 هم سالم هستن. حالا، با احتمال 99 درصد اگر فرد بیمار بوده باشه، به درستی میگیم که بیماره. یعنی، از بین این 100 نفر بیمار، 99 نفر بیمار هستن و داریم درست میگیم که بیمارن و جواب تست براشون مثبت میشه؛ 1 نفر رو که بیمار بوده اشتباهی گفتیم بیمار نیست و جواب تست براش منفی میشه. همچنین، برای افراد سالم هم تست با احتمال 98 درصد داره میگه فرد واقعاً سالمه. پس برای 999900 نفر که سالم بودن، 979902 رو درست داریم تشخیص میدیم که سالم هستن و براشون تست منفی میشه؛ برای 19998 نفر هم تست داره اشتباهی میگه که بیمار هستن و جوابشون مثبت شده، در حالیکه سالمن. خلاصه توضیحات در تصویر زیر نشون داده شده:
حالا، اگر یک فرد مراجعهکننده رندوم با جواب تست مثبت داشته باشیم، چقدر احتمال داره که واقعا بیمار باشه؟ چون جواب تست مثبت شده، انگار مجموعه جهانیمون میشه فقط تعداد افرادی که جواب تست براشون مثبت شده، یعنی 99 + 19998 = 20097 نفر. حالا میخوایم ببینیم چقدر احتمال داره که از بین این همه تعداد جواب تستش مثبت بوده باشه، پس خواهیم داشت 20097 / 99 = 0.0049 که خیلی نزدیک هست به عددی که در مراحل قبلی برای مسئله داده شده به دست آوردیم.
در مورد احتمال شرطی و قانون بیز صحبت کردیم و به کمکشون یک مسئله جالب رو حل کردیم.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.