منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
در جلسه گذشته دیدیم که متغیرهای تصادفی گسسته (Discrete Random Variable) میتونن از یک سری توزیع (Distribution) تبعیت کنن و هر کدوم از این توزیعها میتونن معادل با PMF یا CDF باشن برای اون متغیر تصادفی.
همچنین، با توزیع برنولی آشنا شدیم. دیدیم که معادل هست با پرتاب یک سکه به طوری که با احتمال p شیر بیاد و با احتمال q=1-p خط بیاد. موارد زیر رو هم برسی کردیم:
if X ~ Ber(p), then: → E(X) = p → Var(X) = pq = p(1-p)
خط اول در عبارات بالا داره میگه "اگه X از توزیع برنولی اومده باشه".
توزیع دومی که بررسی کردیم، توزیع دو جملهای بود که معادل بود با تعداد دفعات (مثلاً) شیر آمدن برای n بار پرتاب مستقل یک سکه با احتمالِ شیر آمدن p. موارد زیر رو هم براش بررسی کردیم:
if X ~ Binomial(n, p), then: → P(X=k) = C(k, n) p^k (1-p)^(n-k) → E(X) = np → Var(X) = npq = np(1-p)
در ادامه این جلسه قراره با توزیعهای هندسی، فوق هندسی و پوآسون آشنا بشیم.
فرض کنید دهکدهای وجود داره و مردم دهکده تعصب دارن روی این قضیه که هر خانواده حتماً باید یک دختر داشته باشه. یعنی انقدر بچهدار میشن تا به یک دختر برسن و بعد دیگه بچهدار نمیشن. حالا ما قراره E(X) رو به صورتی محاسبه کنیم که X برابر هست با تعداد فرزندانی که در این دهکده وجود دارن. این مثالی هست از توزیع هندسی.
مثال دیگه برای این توزیع به این صورت هست که فرض کنید قراره یک کاری رو انجام بدیم که با احتمال p اون کار با موفقیت انجام میشه و با احتمال 1 منهای p شکست میخوریم. انقدر اون کار رو پشت سر هم انجام میدیم تا موفق بشیم و بعد کسب اولین موفقیت تموم میشه و دیگه کار رو انجام نمیدیم. حالا قراره توزیعی رو به دست بیاریم که نشون بده چند بار اون کار رو انجام میدیم.
حالا یک مثال دیگه. فرض کنید قراره از یک شبکه یه پکتی ارسال بشه. ارسال پکت با احتمال p موفقیت آمیز هست و با احتمال 1 منهای p با شکست مواجه میشه. حالا سوال اینکه چند بار باید بسته به طور متوسط ارسال بشه تا عملیات ارسال یک بار موفقیت آمیز باشه؟ در واقع دنبال E(X) هستیم تو این مثال و میخوایم ببینیم X از چه توزیعی میاد. به عبارتی دیگه میخوایم ببینیم آیا رابطه زیر برقرار هست یا خیر:
X ~ Geometric(P)
تو رابطه بالا X متناظر هست با متغیر تصادفیای که نشون میده بسته چند بار ارسال بشه تا ارسالش موفقیت آمیز باشه.
حالا، برای جواب دادن به این سوال فرض کنید که تو هر دفعه ارسال یک پکت، این که عملیات ارسال موفقیت آمیز باشه یا با شکست مواجه بشه از هم مستقل هستند و ما دنبال این هستیم تا احتمال P(X=k) رو محاسبه کنیم. داریم:
P(X=k) = ((1-p)^(k-1)) * p
حالا میخوایم E(X) رو حساب کنیم:
E(X) = ∑ x P(x) = ∑ k * ((1-P)^(k-1)) * P E(X) = 1 * (1-P)^(0) * P + 2 * (1-P)^(1) * P + 3 * (1-P)^(2) * P + ... E(X) = P + 2P * (1-P) + 3P * (1-P)^2 + ... E(X) = [P + P(1-P) + P(1-P)^2 + ...] + [P(1-P) + P(1-P)^2 + ...] + [P(1-P)^2 + P(1-P)^3 + ...] + ... E(X) = [P/(1-(1-P))] + [P(1-P)/(1-(1-P))] + [P(1-P)^2/(1-(1-P))] + ... E(X) = [1] + [1-P] + [(1-P)^2] + ... E(X) = 1/(1-(1-P)) = 1/P
یه توضیحی در مورد روابط نوشته شده بدم. از ریاضی دبیرستان میدونیم که جمع یک دنباله هندسی با جمله اولیه a و قدر نسبت q برابر هست با:
SUM = a / (1-q)
حالا، از همین استفاده کردیم برای اینکه بتونیم بدون انتگرال گرفتن E(X) رو حساب کنیم. اولِ اول اومدیم سیگما رو باز کردیم و چند تا جمله اول رو براش نوشتیم. بعد اومدیم ترتیب نوشتن جملات رو یه جورایی تغییر دادیم و هر عبارتی که داخل [] وجود داره خودش به تنهایی داره یک دنباله هندسی رو نشون میده که جمله اولیه و قدر نسبت خودشون رو دارن. قدر نسبت تو همه دنبالهها برابره و فقط جمله اول متفاوته. بعد برای هر [] فرمول جمع دنباله هندسی نوشته شده و در نهایت به یک دنباله هندسی رسیدیم با جمله اولیه 1 و قدر نسبت 1 منهای P. در نهایت عدد حاصل برابر شده با:
1/P
حالا شهود این عدد چیه؟ داره میگه هر چقدر احتمال موفقیت بیشتر باشه به صورت میانگین در تعداد دفعات کمتری به جواب میشه رسید. مثلاً میخوایم یک پکت رو ارسال کنیم. اگر احتمال موفقیت 1 باشه داریم:
E(X) = 1/P = 1/1 = 1
یعنی اینکه اگه تو بیای پکت رو 1 بار ارسال کنی، همون یک بار ارسال پکت با موفقیت انجام میشه و میانگینش هم 1 شده. حالا اگه احتمال موفقیت کمتر بشه، به این معنی هست که باید تعداد دفعات بیشتری به صورت میانگین پکت ارسال بشه تا موفق باشه. مثلاً اگه P=1/2 باشه، داریم:
E(X) = 1 / (1/2) = 2
یعنی اینکه وقتی احتمال موفقیت 1/2 هست تو باید بیای به صورت میانگین 2 بار پکت رو ارسال کنی تا ارسالش با موفقیت انجام بشه.
نمودار PMF توزیع هندسی با احتمال موفقیت 1/3 به صورت زیر هست:
برای توزیع هندسی دو مدل تعریف وجود داره. یکی از تعریفها همینی هست که تا اینجا دیدیم. یه تعریف دیگه هم وجود داره که میگه بیا بگو تعداد شکستها قبل از اولین موفقیت چند تا هست. تو این تعریف جدید به جای اینکه بیایم k رو در نظر بگیریم انگار k-1 رو در نظر گرفتیم. به همین ترتیب برای P(X=k) داریم:
P(X=k) = (1-P)^(k) * P
با یه مثال این توزیع رو توضیح میدیم. فرض کنید دهکدهای وجود داره که کلا 50 نفر جمعیت داره. از این تعداد 30 نفر آقا هستن و 20 نفر خانم. یه بیماری تو دهکده شیوع پیدا کرده و در کل 20 نفر به این بیماری مبتلا شدن. حالا فرض کنید این بیماری جوری هست که هیچ ربطی به جنسیت نداره و با احتمال یکسانی خانمها و آقایون بهش مبتلا میشن. حالا انتظار میره که چند نفر از آقایون به این بیماری دچار شده باشن؟ به عبارت دیگه اگر داشته باشیم:
X = تعداد آقایان بیمار
دنبال این هستیم که احتمال زیر رو پیدا کنیم:
P(X = k) = ?
حالا به شما گفتن این بیماری جوری هست که آقایون بیشتر از خانوما بهش مبتلا میشن و شما میخواید صحبت این قضیه رو بررسی کنید. برای این کار میشه E(X) رو محاسبه کرد و بعد مقایسه انجام داد. محاسبه E(X) بهمون میگه که انتظار داریم چند تا آقا بیمار شده باشن در کل، بعد میتونیم نتیجهی این رو مقایسه کنیم با تعداد آقایونی که بیمار شدن و بعد اگر تعدادشون بیشتر از حد انتظار ما بود، به این نتیجه برسیم که آره این بیماری طوری هست که آقایون رو بیشتر از خانوما درگیر میکنه.
یه مثال دیگه. قبل از اینکه یه دارویی تولید بشه میان تست میکنن که برای بهبود بیماری اون دارو چقدر موثر هست. برای اینکه این مورد رو ارزیابی کنن یه تستی انجام میشه. تست به این صورته که دو دسته آدم در نظر میگیرن با همون بیماریای که براش دارو تولید شده. به یک سری شون داروی تولید شده رو میدن و به یک سری دیگهشون یک داروی بی اثر با همون شکل و ظاهر رو میدن. فرض کنید تو هر دسته 50 نفر داریم و بهمون گفتن که 20 نفر داروی واقعی رو خوردن و روشون اثر کرده و خوب شدن و 16 نفر داروی الکی رو خوردن و خوب شدن. حالا چجوری میخوایم بفهمیم دارومون خوب هست یا نه؟ تولید کنیم یا نه؟ (تو بخش آمار درس این قسمتها بیشتر مورد تحلیل قرار میگیرن).
یه مثال دیگه. فرض کنید به تعداد N تا توپ داریم. N1 تاش قرمزه و N2 تا آبی. به تعداد n تا از این توپها برداشتیم، حالا میخوایم احتمال این رو حساب کنیم که از بین این n تا توپ، x تاش دقیقا قرمز باشه چقدر هست؟ داریم:
P(X=x) = (C(x, N1) * C(n-x, N2)) / C(n, N1+N2)
مثل یه رویدادی میمونه که در طول زمان رخ بده. مثلاً فرض کنید بخوایم هر 5 دقیقه بشمریم ببینیم چند تا ماشین از یه خیابونی رد میشه. یا مثلاً فرض کنید میخوایم ببینیم تو هر یک ساعت چند تا مشتری به یه بانک مراجعه میکنن. کلاً هرچیزی که تو یه بازه زمانی رخ بده و بخوایم بشمریم ببینیم که چندبار اتفاق افتاده، جزو توزیع پوآسون به حساب میاد.
مثال شمردن ماشینهارو در نظر بگیرید. فرض کنید یه بازه زمانی کوچیک مثل h داریم که تو این بازه زمانی هیچ دو ماشینی باهم دیگه نمیتونن از خیابون رد بشن. یعنی انگار رد شدن یه ماشین تو بازه زمانی h مستقل هست از رد شدن ماشین تو بازه زمانی h+1. از طرفی احتمال رد شدن یه ماشین تو این بازه برابر با p هست. حالا میخوایم ببینیم در کل تو این بازههای زمانی (H) چند تا ماشین رد شده. این توزیع یه جورایی معادل هست با توزیع دو جملهای.
اگه بخوایم توزیع رو بنویسیم اینجوری میشه:
P(X=k) = C(H/h, k) p^k (1-p)^(H/h - k)
حالا اگه تعداد کل ماشینهایی که تو بازه زمانی H رد میشن برابر با L باشه برای محاسبه p داریم:
p = L / (h / H) = Lh / H
در واقع L برابر هست با E(X).
در نهایت اگر p رو در فرمول بالا جایگذاری کنیم داریم:
P(X=k) = C(H/h, k) (Lh / H)^k (1-(Lh / H))^(H/h - k)
برای توضیح بهتر مثال تعداد ماشینهارو با جزییات بیشتری بررسی میکنیم. توزیع پوآسون داره میگه اگر فرض کنیم تعداد ماشینهایی که در بازه زمانی H از یه خیابونی رد میشه برابر با 5 باشه، احتمال اینکه 0 تا ماشین رد بشه، احتمال اینکه 1 ماشین رد بشه، احتمال اینکه 2 ماشین رد بشه و ... همگی در نمودار زیر مشخص شدن.
با توزیع هندسی، فوق هندسی و پوآسون آشنا شدیم.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.