هانیه مهدوی
هانیه مهدوی
خواندن ۹ دقیقه·۲ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه هشتم - توزیع هندسی، فوق هندسی و پوآسون

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


مروری بر مباحث جلسه گذشته

در جلسه گذشته دیدیم که متغیرهای تصادفی گسسته (Discrete Random Variable) می‌تونن از یک سری توزیع‌ (Distribution) تبعیت کنن و هر کدوم از این توزیع‌ها می‌تونن معادل با PMF یا CDF باشن برای اون متغیر تصادفی.

همچنین، با توزیع برنولی آشنا شدیم. دیدیم که معادل هست با پرتاب یک سکه به طوری که با احتمال p شیر بیاد و با احتمال q=1-p خط بیاد. موارد زیر رو هم برسی کردیم:

if X ~ Ber(p), then: → E(X) = p → Var(X) = pq = p(1-p)

خط اول در عبارات بالا داره میگه "اگه X از توزیع برنولی اومده باشه".

توزیع دومی که بررسی کردیم، توزیع دو جمله‌ای بود که معادل بود با تعداد دفعات (مثلاً) شیر آمدن برای n بار پرتاب مستقل یک سکه با احتمالِ شیر آمدن p. موارد زیر رو هم براش بررسی کردیم:

if X ~ Binomial(n, p), then: → P(X=k) = C(k, n) p^k (1-p)^(n-k) → E(X) = np → Var(X) = npq = np(1-p)

در ادامه این جلسه قراره با توزیع‌های هندسی، فوق هندسی و پوآسون آشنا بشیم.

توزیع هندسی

فرض کنید دهکده‌ای وجود داره و مردم دهکده تعصب دارن روی این قضیه که هر خانواده حتماً باید یک دختر داشته باشه. یعنی انقدر بچه‌دار میشن تا به یک دختر برسن و بعد دیگه بچه‌دار نمیشن. حالا ما قراره E(X) رو به صورتی محاسبه کنیم که X برابر هست با تعداد فرزندانی که در این دهکده وجود دارن. این مثالی هست از توزیع هندسی.

مثال دیگه برای این توزیع به این صورت هست که فرض کنید قراره یک کاری رو انجام بدیم که با احتمال p اون کار با موفقیت انجام میشه و با احتمال 1 منهای p شکست میخوریم. انقدر اون کار رو پشت سر هم انجام میدیم تا موفق بشیم و بعد کسب اولین موفقیت تموم میشه و دیگه کار رو انجام نمیدیم. حالا قراره توزیعی رو به دست بیاریم که نشون بده چند بار اون کار رو انجام میدیم.

حالا یک مثال دیگه. فرض کنید قراره از یک شبکه یه پکتی ارسال بشه. ارسال پکت با احتمال p موفقیت آمیز هست و با احتمال 1 منهای p با شکست مواجه میشه. حالا سوال اینکه چند بار باید بسته به طور متوسط ارسال بشه تا عملیات ارسال یک بار موفقیت آمیز باشه؟ در واقع دنبال E(X) هستیم تو این مثال و می‌خوایم ببینیم X از چه توزیعی میاد. به عبارتی دیگه می‌خوایم ببینیم آیا رابطه زیر برقرار هست یا خیر:

X ~ Geometric(P)

تو رابطه بالا X متناظر هست با متغیر تصادفی‌ای که نشون میده بسته چند بار ارسال بشه تا ارسالش موفقیت آمیز باشه.

حالا، برای جواب دادن به این سوال فرض کنید که تو هر دفعه ارسال یک پکت، این که عملیات ارسال موفقیت آمیز باشه یا با شکست مواجه بشه از هم مستقل هستند و ما دنبال این هستیم تا احتمال P(X=k) رو محاسبه کنیم. داریم:

P(X=k) = ((1-p)^(k-1)) * p

حالا می‌خوایم E(X) رو حساب کنیم:

E(X) = ∑ x P(x) = ∑ k * ((1-P)^(k-1)) * P E(X) = 1 * (1-P)^(0) * P + 2 * (1-P)^(1) * P + 3 * (1-P)^(2) * P + ... E(X) = P + 2P * (1-P) + 3P * (1-P)^2 + ... E(X) = [P + P(1-P) + P(1-P)^2 + ...] + [P(1-P) + P(1-P)^2 + ...] + [P(1-P)^2 + P(1-P)^3 + ...] + ... E(X) = [P/(1-(1-P))] + [P(1-P)/(1-(1-P))] + [P(1-P)^2/(1-(1-P))] + ... E(X) = [1] + [1-P] + [(1-P)^2] + ... E(X) = 1/(1-(1-P)) = 1/P

یه توضیحی در مورد روابط نوشته شده بدم. از ریاضی دبیرستان می‌دونیم که جمع یک دنباله هندسی با جمله اولیه a و قدر نسبت q برابر هست با:

SUM = a / (1-q)

حالا، از همین استفاده کردیم برای اینکه بتونیم بدون انتگرال گرفتن E(X) رو حساب کنیم. اولِ اول اومدیم سیگما رو باز کردیم و چند تا جمله اول رو براش نوشتیم. بعد اومدیم ترتیب نوشتن جملات رو یه جورایی تغییر دادیم و هر عبارتی که داخل [] وجود داره خودش به تنهایی داره یک دنباله هندسی رو نشون میده که جمله اولیه و قدر نسبت خودشون رو دارن. قدر نسبت تو همه دنباله‌ها برابره و فقط جمله اول متفاوته. بعد برای هر [] فرمول جمع دنباله هندسی نوشته شده و در نهایت به یک دنباله هندسی رسیدیم با جمله اولیه 1 و قدر نسبت 1 منهای P. در نهایت عدد حاصل برابر شده با:

1/P

حالا شهود این عدد چیه؟ داره میگه هر چقدر احتمال موفقیت بیشتر باشه به صورت میانگین در تعداد دفعات کمتری به جواب میشه رسید. مثلاً می‌خوایم یک پکت رو ارسال کنیم. اگر احتمال موفقیت 1 باشه داریم:

E(X) = 1/P = 1/1 = 1

یعنی اینکه اگه تو بیای پکت رو 1 بار ارسال کنی، همون یک بار ارسال پکت با موفقیت انجام میشه و میانگینش هم 1 شده. حالا اگه احتمال موفقیت کمتر بشه، به این معنی هست که باید تعداد دفعات بیشتری به صورت میانگین پکت ارسال بشه تا موفق باشه. مثلاً اگه P=1/2 باشه، داریم:

E(X) = 1 / (1/2) = 2

یعنی اینکه وقتی احتمال موفقیت 1/2 هست تو باید بیای به صورت میانگین 2 بار پکت رو ارسال کنی تا ارسالش با موفقیت انجام بشه.

نمودار PMF توزیع هندسی با احتمال موفقیت 1/3 به صورت زیر هست:

برای توزیع هندسی دو مدل تعریف وجود داره. یکی از تعریف‌ها همینی هست که تا اینجا دیدیم. یه تعریف دیگه هم وجود داره که میگه بیا بگو تعداد شکست‌ها قبل از اولین موفقیت چند تا هست. تو این تعریف جدید به جای اینکه بیایم k رو در نظر بگیریم انگار k-1 رو در نظر گرفتیم. به همین ترتیب برای P(X=k) داریم:

P(X=k) = (1-P)^(k) * P

توزیع فوق هندسی

با یه مثال این توزیع رو توضیح میدیم. فرض کنید دهکده‌ای وجود داره که کلا 50 نفر جمعیت داره. از این تعداد 30 نفر آقا هستن و 20 نفر خانم. یه بیماری تو دهکده شیوع پیدا کرده و در کل 20 نفر به این بیماری مبتلا شدن. حالا فرض کنید این بیماری جوری هست که هیچ ربطی به جنسیت نداره و با احتمال یکسانی خانم‌ها و آقایون بهش مبتلا میشن. حالا انتظار میره که چند نفر از آقایون به این بیماری دچار شده باشن؟ به عبارت دیگه اگر داشته باشیم:

X = تعداد آقایان بیمار

دنبال این هستیم که احتمال زیر رو پیدا کنیم:

P(X = k) = ?

حالا به شما گفتن این بیماری جوری هست که آقایون بیشتر از خانوما بهش مبتلا میشن و شما میخواید صحبت این قضیه رو بررسی کنید. برای این کار میشه E(X) رو محاسبه کرد و بعد مقایسه انجام داد. محاسبه E(X) بهمون میگه که انتظار داریم چند تا آقا بیمار شده باشن در کل، بعد میتونیم نتیجه‌ی این رو مقایسه کنیم با تعداد آقایونی که بیمار شدن و بعد اگر تعدادشون بیشتر از حد انتظار ما بود، به این نتیجه برسیم که آره این بیماری طوری هست که آقایون رو بیشتر از خانوما درگیر میکنه.

یه مثال دیگه. قبل از اینکه یه دارویی تولید بشه میان تست میکنن که برای بهبود بیماری اون دارو چقدر موثر هست. برای اینکه این مورد رو ارزیابی کنن یه تستی انجام میشه. تست به این صورته که دو دسته آدم در نظر میگیرن با همون بیماری‌ای که براش دارو تولید شده. به یک سری شون داروی تولید شده رو میدن و به یک سری دیگه‌شون یک داروی بی اثر با همون شکل و ظاهر رو میدن. فرض کنید تو هر دسته 50 نفر داریم و بهمون گفتن که 20 نفر داروی واقعی رو خوردن و روشون اثر کرده و خوب شدن و 16 نفر داروی الکی رو خوردن و خوب شدن. حالا چجوری می‌خوایم بفهمیم دارومون خوب هست یا نه؟ تولید کنیم یا نه؟ (تو بخش آمار درس این قسمت‌ها بیشتر مورد تحلیل قرار می‌گیرن).

یه مثال دیگه. فرض کنید به تعداد N تا توپ داریم. N1 تاش قرمزه و N2 تا آبی. به تعداد n تا از این توپ‌ها برداشتیم، حالا می‌خوایم احتمال این رو حساب کنیم که از بین این n تا توپ، x تاش دقیقا قرمز باشه چقدر هست؟ داریم:

P(X=x) = (C(x, N1) * C(n-x, N2)) / C(n, N1+N2)

توزیع پوآسون

مثل یه رویدادی می‌مونه که در طول زمان رخ بده. مثلاً فرض کنید بخوایم هر 5 دقیقه بشمریم ببینیم چند تا ماشین از یه خیابونی رد میشه. یا مثلاً فرض کنید می‌خوایم ببینیم تو هر یک ساعت چند تا مشتری به یه بانک مراجعه می‌کنن. کلاً هرچیزی که تو یه بازه زمانی رخ بده و بخوایم بشمریم ببینیم که چندبار اتفاق افتاده، جزو توزیع پوآسون به حساب میاد.

مثال شمردن ماشین‌هارو در نظر بگیرید. فرض کنید یه بازه زمانی کوچیک مثل h داریم که تو این بازه زمانی هیچ دو ماشینی باهم دیگه نمی‌تونن از خیابون رد بشن. یعنی انگار رد شدن یه ماشین تو بازه زمانی h مستقل هست از رد شدن ماشین تو بازه زمانی h+1. از طرفی احتمال رد شدن یه ماشین تو این بازه برابر با p هست. حالا می‌خوایم ببینیم در کل تو این بازه‌های زمانی (H) چند تا ماشین رد شده. این توزیع یه جورایی معادل هست با توزیع دو جمله‌ای.

اگه بخوایم توزیع رو بنویسیم اینجوری میشه:

P(X=k) = C(H/h, k) p^k (1-p)^(H/h - k)

حالا اگه تعداد کل ماشین‌هایی که تو بازه زمانی H رد میشن برابر با L باشه برای محاسبه p داریم:

p = L / (h / H) = Lh / H

در واقع L برابر هست با E(X).

در نهایت اگر p رو در فرمول بالا جایگذاری کنیم داریم:

P(X=k) = C(H/h, k) (Lh / H)^k (1-(Lh / H))^(H/h - k)

برای توضیح بهتر مثال تعداد ماشین‌هارو با جزییات بیشتری بررسی می‌کنیم. توزیع پوآسون داره میگه اگر فرض کنیم تعداد ماشین‌هایی که در بازه زمانی H از یه خیابونی رد میشه برابر با 5 باشه، احتمال اینکه 0 تا ماشین رد بشه، احتمال اینکه 1 ماشین رد بشه، احتمال اینکه 2 ماشین رد بشه و ... همگی در نمودار زیر مشخص شدن.

جمع‌بندی مطالب ارائه شده

با توزیع هندسی، فوق هندسی و پوآسون آشنا شدیم.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه هفتم)

جزوه جلسه بعدی (جلسه نهم)

توزیع هندسیتوزیع فوق هندسیتوزیع پوآسون
من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید