هانیه مهدوی
هانیه مهدوی
خواندن ۱۱ دقیقه·۲ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه پانزدهم - جمع متغیرهای تصادفی مستقل

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


خیلی وقت‌ها به جای اینکه متغیرهای تصادفی به صورت تنها مورد توجه ما باشن، نیاز داریم تا با جمع اون‌ها سر و کله بزنیم. مثلاً فرض کنید یک سالن تاتر داریم که به افراد مختلف بلیط می‌فروشه. مثلاً تعداد آقایونی که بلیط می‌خرن با X مشخص میشه و تعداد خانم‌هایی که بلیط تهیه می‌کنن با Y. هر دو X و Y هم از توزیع پوآسون میان با این تفاوت که پارامتر ʎ متفاوت دارن:

X ~ Poisson(ʎ1) Y ~ Poisson(ʎ2)

حالا، ما دنبال این هستیم که ببینیم توزیع همه افرادی که اومدن و بلیط تهیه کردن به چه صورت بوده، به عبارتی دیگه دنبال Z = X + Y هستیم.

به عنوان یه مثال دیگه، فرض کنید که یک وب سرور برای بانک نوشتیم و تعداد انواع مختلف تراکنش بانکی رو در یک ثانیه محاسبه کردیم. مثلاً تعداد انواع مختلف تراکنش در یک ثانیه به شرح زیر بوده:

X1 ~ Poisson(ʎ1 = 1000) = گرفتن مانده حساب X2 ~ Poisson(ʎ2 = 5000) = انتقال کارت به کارت ... Xn ~ Poisson(ʎn = 50) = خرید شارژ

حالا فرض کنید همه متغیرهای تصادفی بالا از هم مستقل هستن. حالا دنبال این هستیم که توزیع تعداد کل تراکنش‌ها در یک ثانیه رو محاسبه کنیم مثلاً:

Z = X1 + X2 + ... + Xn

و این توزیع برای ما ناشناخته‌ست و تو این جلسه دنبال این هستیم که این توزیع رو پیدا کنیم.

از اونجایی که متغیرهای تصادفی‌مون مستقل از هم هستن می‌تونیم امید ریاضی و واریانس توزیع Z رو به دست بیاریم و داریم:

E(Z) = SUM(E(Xi)) Var(Z) = SUM(Var(Xi))

حالا، اومدیم میانگین و واریانس Z رو پیدا کردیم. هرچند همچنان خود توزیع Z برامون ناشناخته‌س. با وجود محاسبه این دو مورد، چرا اصلاً نیازه که توزیع Z رو پیدا کنیم؟ همینقدر که میانگین و واریانس رو بدونیم کافی نیست؟

نه کافی نیست. چرا؟ فرض کنید نیاز داریم که در مورد همین مثال بانک یک سرور تهیه کنیم و دو تا گزینه داریم:

  • سروری که حداکثر 50000 تراکنش رو در ثانیه جواب میده و ارزون‌تره
  • سروری که حداکثر 100000 تراکنش رو در ثانیه جواب میده و گرون‌تره

حالا مسئله اینکه کدوم سرور بهمون جواب میده؟ برای جواب به این سوال باید احتمالات زیر رو محاسبه کنیم:

  • چقدر احتمال داره که تعداد تراکنش‌ها در یک ثانیه از 50000 تا بیشتر بشه؟
  • چقدر احتمال داره که تعداد تراکنش‌ها در یک ثانیه از 100000 تا بیشتر بشه؟

حالا، برای محاسبه این احتمالات نیاز داریم بدونیم که Z از چه توزیعی پیروی می‌کنه و صرفاً دونستن میانگین و واریانس Z کافی نیست.

برگردیم به همون مثال بلیط تاتر فروشی و ببینیم چطور میشه توزیع Z رو محاسبه کرد. تو اون مثال داشتیم:

X ~ Poisson(ʎ1) Y ~ Poisson(ʎ2) Z = X + Y

اول از همه بیایم ببینیم حاصل P(Z=z) چی میشه. از اونجایی که X و Y از هم دیگه مستقل هستن، داریم:

چرا تونستیم احتمال‌های بالا رو در هم ضرب کنیم؟ چون می‌دونستیم که احتمال P(X=k) و P(Y = z-k) از هم مستقل هستن، به همین دلیل می‌تونیم این کار رو بکنیم. حالا توزیع هر دو احتمال رو باز می‌کنیم و چون توزیع هر دو پواسون هست داریم:

رابطه بالا رو میشه تغییر داد و به صورت زیر نوشت:

ممکنه سوال پیش بیاد که چجوری در مخرج فاکتوریل Z ظاهر شده. دلیلش اینکه صورت و مخرج کسر در فاکتوریل Z ضرب شدن تا بشه عبارت رو ساده‌تر کرد. در نهایت حاصل عبارت بالا برابر خواهد بود با:

رابطه بالا چه توزیعی رو نشون میده؟ توزیع پواسون هست با پارامتر ʎ1 + ʎ2.

تا به اینجا چه چیزی رو بررسی کردیم؟ اثبات کردیم که اگر تو تا متغیر تصادفی داشته باشیم که هر کدوم از یک توزیع پواسون با یه ʎ خاص بیان، بیایم این متغیرهای تصادفی رو جمع بزنیم، توزیع جواب نهایی هم از یک توزیع پواسون میاد که پارامتر ʎ‌ش برابر هست با جمع دو پارامتر ʎ.

می‌تونیم چیزی که گفتیم رو در عمل هم ببینیم. کدهای زیر رو در نظر بگیرید:

نمودار مرتبط با کدهای بالا به صورت زیر میشه:

حالا اگر بیایم نمودار توزیع پواسون با پارامتر ʎ=13 رو هم رسم کنیم خواهیم داشت:

دو نمودار توزیع‌های کاملاً یکسان دارن.

تا اینجا یک مثال گسسته رو بررسی کردیم. در ادامه یک مثال پیوسته رو خواهیم دید.

فرض کنید دو متغیر تصادفی و مستقل از هم X و Y داریم که از توزیع یکنواخت میان. دنبال این هستیم که توزیع Z رو به صورتی پیدا کنیم که داشته باشیم:

قبل از اینکه مثال رو ادامه بدیم، بریم سراغ نمایش دادن نمودارهاشون و ببینیم به چه صورت هستن. کدهای زیر رو در نظر بگیرید:

نموداری که از جمع این دو متغیر تصادفی به دست میاد به صورت زیر میشه:

اگر تعداد نمونه‌هارو از 10000 تا به 100000 تا برسونیم نمودار به صورت زیر تغییر می‌کنه:

در واقع توزیعی که بهمون میده یک توزیع مثلث شکل هست. حالا چطور میشه این رو اثبات کرد و به این توزیع رسید؟ اگر بخواهیم F_Z رو محاسبه کنیم داریم:

چون X و Y از هم مستقل هستن داریم:

پ
پ

می‌تونیم انتگرال‌های بالا رو کمی جابجا کنیم و داریم:

تا اینجا F_Z رو محاسبه کردیم. در ادامه میریم سراغ محاسبه f_Z. داریم:

رابطه‌ بالا در نهایت داره چه چیزی رو بهمون نشون میده؟ کانولوشن دو تابع f و g رو در نظر بگیرید:

بنابراین جواب نهایی که برای f_Z محاسبه کردیم مثل این میمونه که انگار بیایم کانولوشن محاسبه کنیم.

این نکته رو هم در نظر داشته باشید که روابطی که تا اینجا محاسبه کردیم صرفاً برای توزیع یونیفورمی که تو مثال آورده بودیم نیست و به صورت کلی نوشته شدن و اگر دو تا متغیر تصادفی پیوسته صرفاً مستقل از هم دیگه باشن این روابط در موردشون صادقه.

ممکنه سوال پیش بیاد که کانولوشن چیه و چه چیزی رو نشون میده. در ادامه این رو بررسی خواهیم کرد تا شهود بهتری نسبت بهش به دست آورد.

اول کانولوشن رو در خصوص مثالی که داشتیم (متغیر تصادفی از توزیع یکنواخت) بررسی می‌کنیم. تصویر زیر رو در نظر بگیرید. می‌خوایم ببینیم چرا وقتی دو تا توزیع مستطیل شکل رو در هم کانوالو می‌کنیم حاصل یک توزیع مثلث شکل میشه.

وقتی دو تا متغیر تصادفی از توزیع یونیفورم داریم و این متغیرها بین 0 و 1 هستن، احتمال اینکه جمع این دوتا متغیر نزدیک به 0 باشه یا نزدیک به 2 باشه خیلی کمتره، نسبت به اینکه جمعشون نزدیک به 1 باشه. برای همین وقتی دو تا توزیع رو در هم کانوالو می‌کنیم در نهایت به یک توزیع مثلثی می‌رسیم.

به عبارتی دیگه، مثل این می‌مونه که توزیع Y رو ثابت نگه داریم، توزیع X رو برعکس کنیم و به اندازه z بیایم توزیع برعکس شده X رو به توزیع Y نزدیک کنیم و حاصل ضرب دو توزیع رو محاسبه کنیم. دو عکس زیر رو در نظر بگیرید. مستطیل قرمز توزیع Y رو نشون میده و مستطیل سبز توزیع برعکس شده X هست. قسمت زرد رنگ هم حاصل ضرب دو توزیع رو مشخص می‌کنه (که در واقع همون انتگرالی هست که تو فرمول بالا ارائه شده).

حالا اگر سه تا متغیر تصادفی از توزیع یکنواخت داشتیم چی؟

اول باید بیایم کانوالو دو تاشونو حساب کنیم، بعد حاصل رو با متغیر تصادفی سوم کانوالو کنیم. در واقع دنبال پیدا کردن علامت سوال تو شکل زیر هستیم:

طول و عرض مستطیل در واقع برابر با 1 هست و مثلث هم ارتفاع 1 و قاعده 2 داره. حالا اگر در هم کانوالوشون کنیم به صورت زیر تغییر می‌کنن:

مساحت ناحیه زرد تو حالتی که z=1 هست برابر هست با مساحت مثلثی با قاعده 1 و ارتفاع 1:

S = 1/2 * 1 * 1 = 1/2

مساحت ناحیه زرد تو حالتی که z=1.5 هست برابر هست با نصف مساحت مستطیل و مساحت مثلث بالاش:

S = 1/2 * 1 + 1/2 * 1 * 1/2 = 1/2 + 1/4 = 3/4

مساحت ناحیه زرد تو حالتی که z=2 هست برابر هست با مساحت مثلثی با قاعده 1 و ارتفاع 1:

S = 1/2 * 1 * 1 = 1/2

اگر نمودارش رو بکشیم به چنین چیزی می‌رسیم در نهایت:

اگه نمودار واقعی‌شو با R رسم کنیم خواهیم داشت:

آیا چیزی که حدس می‌زدیم یکسان بود با واقعیت؟ بله :))

میشه نمودارش رو به صورت دیگه‌ای هم کشید:

خب، تا اینجا حالت دو متغیره و سه متغیره رو برای توزیع یکنواخت بررسی کردیم. یعنی دو تا متغیر تصادفی از توزیع یکنواخت رو باهم جمع کردیم و نمودار توزیعش رو دیدیم و این کارو با سه متغیر تصادفی هم کردیم. حالا در ادامه، می‌خوایم ببینیم با بیشتر کردن تعداد متغیرهای تصادفی از توزیع یکنواخت، نمودار توزیع نهایی به چه شکلی در میاد.

اگر 30 تا متغیر تصادفی از توزیع یکنواخت رو جمع بزنیم نمودار توزیع نهایی به صورت زیر در میاد:

حالا یک سوال. اگر به جای توزیع یکنواخت، توزیع دیگه‌ای داشته باشیم باز هم نمودار توزیع نهایی شبیه توزیع نرمال خواهد شد؟ جواب بله هستو مستقل از اینکه چه نوع توزیعی داریم، اگر تعداد زیادی توزیع یکسان رو باهم جمع بزنیم در نهایت به توزیع نرمال می‌رسیم.

مثلاً 30 تا متغیر تصادفی از توزیع نمایی با نرخ 5 رو جمع زدیم و نمودارش به صورت زیر شده:

حالا اگر توزیع پواسون با لامبدای 5 داشتیم چی؟ بازم نمودار توزیع نهایی شبیه توزیع نرمال میشه:

حالا، اگر X و Y رو داشته باشیم که دو تا متغیر تصادفی و مستقل از هم باشن که از توزیع نرمال اومده باشن، توزیع Z=X+Y به چه صورت میشه؟ می‌دونیم که توزیع نرمال میشه ولی می‌خوایم اثباتش کنیم.

یک راهش رو برای اثبات بررسی کردیم تا اینجا. بیایم کانولوشن X در Y رو محاسبه کنیم. حالا راه دیگه چیه؟ می‌بینیم.

خب. دو متغیر تصادفی X و Y که از هم مستقل هستن رو داریم که از توزیع نرمال اومدن:

X, Y ~ N(0, 1)

دنبال نشون دادن این هستیم که توزیع Z = aX+bY یک توزیع نرماله. می‌دونیم که میانگین Z برابر هست جمع میانگین X و Y و واریانس Z برابر هست با جمع واریانس X و Y.

در گام اول میایم سراغ محاسبه F_Z(z):

در جلسات گذشته دیدیم که تابع phi(X) (کوچیک) برابر هست با همون تابع چگالی توزیع استاندارد و مقدارش برابر هست با:

تابع Phi(X) (بزرگ) هم داریم که برابر هست با CDF توزیع نرمال:

حالا برگردیم سراغ انتگرال. اگر تابع phi(X) و phi(Y) رو باز کنیم داریم:

حالا، انتگرال بالا چی داره میگه؟ داره میگه بیا مساحت زیر نمودار خط ax+by ⩽ z رو محاسبه کن. یعنی انتگرال رو روی همه نقاطی که تو صفحه زرد رنگ قرار می‌گیرن اجرا کن.

حالا بیاید یه نقطه دلخواه (x, y) رو روی این قسمت زرد رنگ در نظر بگیرید:

با توجه به انتگرال فقط نقطه x^2 + y^2 برای ما مهم میشه. به عبارتی دیگه، یعنی فقط توان دوم فاصله نقطه (x, y) از مبدا برامون مهمه. تو این حالت حتی اگر بیایم صفحه مختصات رو هم بچرخونیم و فضا رو عوض کنیم بازم تغییری در فاصله نقطه (x, y) از مبدا ایجاد نمیشه. فرض کنید محور مختصات رو می‌چرخونیم و محورهای جدید رو با رنگ آبی نشون میدیم و نقطه تلاقی محور جدید با خط قرمز رو d می‌نامیم:

حالا انتگرال رو با توجه به محورهای جدید بازنویسی می‌کنیم. بازه y میشه از منفی بی‌نهایت تا d و بازه x میشه از منفی بی‌نهایت تا مثبت بی‌نهایت:


می‌دونیم که phi(x) تو بازه منفی بی‌نهایت تا مثبت بی‌نهایت برابر با 1 میشه. پس انتگرال ساده‌تر میشه و داریم:

حالا، جواب انتگرال بالا چی میشه؟ جوابش همون CDF(d) هست که میشه:

حالا d برابر با چیه؟ d یک نقطه هست روی خط ax+by=z. اگر بیایم فاصله d از مبدا مختصات رو حساب کنیم برای d داریم:

d = |ax + by - z| / radical(a^2 + b^2) x = 0, y = 0 d = | -z | / radical(a^2 + b^2) = | z | / radical(a^2 + b^2)

چون میشه خط ax+by-z=0 رو هر جایی در نظر گرفت، می‌تونیم قدر مطلق رو حذف کنیم و در نهایت برای d داریم:

این به چه معنی هست؟ اگر بیایم یک متغیری رو بر انحراف از معیارش تقسیم کنیم، در نهایت بهمون یک نرمال استاندارد میده. یعنی چی؟

بالاتر دیدیم که Z = aX + bY هست. یعنی واریانس Z برابر میشه با:

a^2 + b^2

حالا وقتی Z تقسیم بشه بر انحراف از معیارش (یعنی همون d) انگار داره به صورت یک نرمال استاندارد در میاد. پس CDF(d) که در نهایت بهش رسیدیم، در واقع برابر هست با CDF یک نرمال استاندارد.

جمع‌بندی مطالب ارائه شده

با جمع متغیرهای تصادفی مستقل آشنا شدیم و دیدیم که هرچند تا متغیر مستقل از یک توزیع رو باهم جمع بزنیم در نهایت به یک توزیع نرمال می‌رسیم.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه چهاردهم)

جزوه جلسه بعدی (جلسه شانزدهم)

توزیع نرمال
من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید