منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
خیلی وقتها به جای اینکه متغیرهای تصادفی به صورت تنها مورد توجه ما باشن، نیاز داریم تا با جمع اونها سر و کله بزنیم. مثلاً فرض کنید یک سالن تاتر داریم که به افراد مختلف بلیط میفروشه. مثلاً تعداد آقایونی که بلیط میخرن با X مشخص میشه و تعداد خانمهایی که بلیط تهیه میکنن با Y. هر دو X و Y هم از توزیع پوآسون میان با این تفاوت که پارامتر ʎ متفاوت دارن:
X ~ Poisson(ʎ1) Y ~ Poisson(ʎ2)
حالا، ما دنبال این هستیم که ببینیم توزیع همه افرادی که اومدن و بلیط تهیه کردن به چه صورت بوده، به عبارتی دیگه دنبال Z = X + Y هستیم.
به عنوان یه مثال دیگه، فرض کنید که یک وب سرور برای بانک نوشتیم و تعداد انواع مختلف تراکنش بانکی رو در یک ثانیه محاسبه کردیم. مثلاً تعداد انواع مختلف تراکنش در یک ثانیه به شرح زیر بوده:
X1 ~ Poisson(ʎ1 = 1000) = گرفتن مانده حساب X2 ~ Poisson(ʎ2 = 5000) = انتقال کارت به کارت ... Xn ~ Poisson(ʎn = 50) = خرید شارژ
حالا فرض کنید همه متغیرهای تصادفی بالا از هم مستقل هستن. حالا دنبال این هستیم که توزیع تعداد کل تراکنشها در یک ثانیه رو محاسبه کنیم مثلاً:
Z = X1 + X2 + ... + Xn
و این توزیع برای ما ناشناختهست و تو این جلسه دنبال این هستیم که این توزیع رو پیدا کنیم.
از اونجایی که متغیرهای تصادفیمون مستقل از هم هستن میتونیم امید ریاضی و واریانس توزیع Z رو به دست بیاریم و داریم:
E(Z) = SUM(E(Xi)) Var(Z) = SUM(Var(Xi))
حالا، اومدیم میانگین و واریانس Z رو پیدا کردیم. هرچند همچنان خود توزیع Z برامون ناشناختهس. با وجود محاسبه این دو مورد، چرا اصلاً نیازه که توزیع Z رو پیدا کنیم؟ همینقدر که میانگین و واریانس رو بدونیم کافی نیست؟
نه کافی نیست. چرا؟ فرض کنید نیاز داریم که در مورد همین مثال بانک یک سرور تهیه کنیم و دو تا گزینه داریم:
حالا مسئله اینکه کدوم سرور بهمون جواب میده؟ برای جواب به این سوال باید احتمالات زیر رو محاسبه کنیم:
حالا، برای محاسبه این احتمالات نیاز داریم بدونیم که Z از چه توزیعی پیروی میکنه و صرفاً دونستن میانگین و واریانس Z کافی نیست.
برگردیم به همون مثال بلیط تاتر فروشی و ببینیم چطور میشه توزیع Z رو محاسبه کرد. تو اون مثال داشتیم:
X ~ Poisson(ʎ1) Y ~ Poisson(ʎ2) Z = X + Y
اول از همه بیایم ببینیم حاصل P(Z=z) چی میشه. از اونجایی که X و Y از هم دیگه مستقل هستن، داریم:
چرا تونستیم احتمالهای بالا رو در هم ضرب کنیم؟ چون میدونستیم که احتمال P(X=k) و P(Y = z-k) از هم مستقل هستن، به همین دلیل میتونیم این کار رو بکنیم. حالا توزیع هر دو احتمال رو باز میکنیم و چون توزیع هر دو پواسون هست داریم:
رابطه بالا رو میشه تغییر داد و به صورت زیر نوشت:
ممکنه سوال پیش بیاد که چجوری در مخرج فاکتوریل Z ظاهر شده. دلیلش اینکه صورت و مخرج کسر در فاکتوریل Z ضرب شدن تا بشه عبارت رو سادهتر کرد. در نهایت حاصل عبارت بالا برابر خواهد بود با:
رابطه بالا چه توزیعی رو نشون میده؟ توزیع پواسون هست با پارامتر ʎ1 + ʎ2.
تا به اینجا چه چیزی رو بررسی کردیم؟ اثبات کردیم که اگر تو تا متغیر تصادفی داشته باشیم که هر کدوم از یک توزیع پواسون با یه ʎ خاص بیان، بیایم این متغیرهای تصادفی رو جمع بزنیم، توزیع جواب نهایی هم از یک توزیع پواسون میاد که پارامتر ʎش برابر هست با جمع دو پارامتر ʎ.
میتونیم چیزی که گفتیم رو در عمل هم ببینیم. کدهای زیر رو در نظر بگیرید:
نمودار مرتبط با کدهای بالا به صورت زیر میشه:
حالا اگر بیایم نمودار توزیع پواسون با پارامتر ʎ=13 رو هم رسم کنیم خواهیم داشت:
دو نمودار توزیعهای کاملاً یکسان دارن.
تا اینجا یک مثال گسسته رو بررسی کردیم. در ادامه یک مثال پیوسته رو خواهیم دید.
فرض کنید دو متغیر تصادفی و مستقل از هم X و Y داریم که از توزیع یکنواخت میان. دنبال این هستیم که توزیع Z رو به صورتی پیدا کنیم که داشته باشیم:
قبل از اینکه مثال رو ادامه بدیم، بریم سراغ نمایش دادن نمودارهاشون و ببینیم به چه صورت هستن. کدهای زیر رو در نظر بگیرید:
نموداری که از جمع این دو متغیر تصادفی به دست میاد به صورت زیر میشه:
اگر تعداد نمونههارو از 10000 تا به 100000 تا برسونیم نمودار به صورت زیر تغییر میکنه:
در واقع توزیعی که بهمون میده یک توزیع مثلث شکل هست. حالا چطور میشه این رو اثبات کرد و به این توزیع رسید؟ اگر بخواهیم F_Z رو محاسبه کنیم داریم:
چون X و Y از هم مستقل هستن داریم:
میتونیم انتگرالهای بالا رو کمی جابجا کنیم و داریم:
تا اینجا F_Z رو محاسبه کردیم. در ادامه میریم سراغ محاسبه f_Z. داریم:
رابطه بالا در نهایت داره چه چیزی رو بهمون نشون میده؟ کانولوشن دو تابع f و g رو در نظر بگیرید:
بنابراین جواب نهایی که برای f_Z محاسبه کردیم مثل این میمونه که انگار بیایم کانولوشن محاسبه کنیم.
این نکته رو هم در نظر داشته باشید که روابطی که تا اینجا محاسبه کردیم صرفاً برای توزیع یونیفورمی که تو مثال آورده بودیم نیست و به صورت کلی نوشته شدن و اگر دو تا متغیر تصادفی پیوسته صرفاً مستقل از هم دیگه باشن این روابط در موردشون صادقه.
ممکنه سوال پیش بیاد که کانولوشن چیه و چه چیزی رو نشون میده. در ادامه این رو بررسی خواهیم کرد تا شهود بهتری نسبت بهش به دست آورد.
اول کانولوشن رو در خصوص مثالی که داشتیم (متغیر تصادفی از توزیع یکنواخت) بررسی میکنیم. تصویر زیر رو در نظر بگیرید. میخوایم ببینیم چرا وقتی دو تا توزیع مستطیل شکل رو در هم کانوالو میکنیم حاصل یک توزیع مثلث شکل میشه.
وقتی دو تا متغیر تصادفی از توزیع یونیفورم داریم و این متغیرها بین 0 و 1 هستن، احتمال اینکه جمع این دوتا متغیر نزدیک به 0 باشه یا نزدیک به 2 باشه خیلی کمتره، نسبت به اینکه جمعشون نزدیک به 1 باشه. برای همین وقتی دو تا توزیع رو در هم کانوالو میکنیم در نهایت به یک توزیع مثلثی میرسیم.
به عبارتی دیگه، مثل این میمونه که توزیع Y رو ثابت نگه داریم، توزیع X رو برعکس کنیم و به اندازه z بیایم توزیع برعکس شده X رو به توزیع Y نزدیک کنیم و حاصل ضرب دو توزیع رو محاسبه کنیم. دو عکس زیر رو در نظر بگیرید. مستطیل قرمز توزیع Y رو نشون میده و مستطیل سبز توزیع برعکس شده X هست. قسمت زرد رنگ هم حاصل ضرب دو توزیع رو مشخص میکنه (که در واقع همون انتگرالی هست که تو فرمول بالا ارائه شده).
حالا اگر سه تا متغیر تصادفی از توزیع یکنواخت داشتیم چی؟
اول باید بیایم کانوالو دو تاشونو حساب کنیم، بعد حاصل رو با متغیر تصادفی سوم کانوالو کنیم. در واقع دنبال پیدا کردن علامت سوال تو شکل زیر هستیم:
طول و عرض مستطیل در واقع برابر با 1 هست و مثلث هم ارتفاع 1 و قاعده 2 داره. حالا اگر در هم کانوالوشون کنیم به صورت زیر تغییر میکنن:
مساحت ناحیه زرد تو حالتی که z=1 هست برابر هست با مساحت مثلثی با قاعده 1 و ارتفاع 1:
S = 1/2 * 1 * 1 = 1/2
مساحت ناحیه زرد تو حالتی که z=1.5 هست برابر هست با نصف مساحت مستطیل و مساحت مثلث بالاش:
S = 1/2 * 1 + 1/2 * 1 * 1/2 = 1/2 + 1/4 = 3/4
مساحت ناحیه زرد تو حالتی که z=2 هست برابر هست با مساحت مثلثی با قاعده 1 و ارتفاع 1:
S = 1/2 * 1 * 1 = 1/2
اگر نمودارش رو بکشیم به چنین چیزی میرسیم در نهایت:
اگه نمودار واقعیشو با R رسم کنیم خواهیم داشت:
آیا چیزی که حدس میزدیم یکسان بود با واقعیت؟ بله :))
میشه نمودارش رو به صورت دیگهای هم کشید:
خب، تا اینجا حالت دو متغیره و سه متغیره رو برای توزیع یکنواخت بررسی کردیم. یعنی دو تا متغیر تصادفی از توزیع یکنواخت رو باهم جمع کردیم و نمودار توزیعش رو دیدیم و این کارو با سه متغیر تصادفی هم کردیم. حالا در ادامه، میخوایم ببینیم با بیشتر کردن تعداد متغیرهای تصادفی از توزیع یکنواخت، نمودار توزیع نهایی به چه شکلی در میاد.
اگر 30 تا متغیر تصادفی از توزیع یکنواخت رو جمع بزنیم نمودار توزیع نهایی به صورت زیر در میاد:
حالا یک سوال. اگر به جای توزیع یکنواخت، توزیع دیگهای داشته باشیم باز هم نمودار توزیع نهایی شبیه توزیع نرمال خواهد شد؟ جواب بله هستو مستقل از اینکه چه نوع توزیعی داریم، اگر تعداد زیادی توزیع یکسان رو باهم جمع بزنیم در نهایت به توزیع نرمال میرسیم.
مثلاً 30 تا متغیر تصادفی از توزیع نمایی با نرخ 5 رو جمع زدیم و نمودارش به صورت زیر شده:
حالا اگر توزیع پواسون با لامبدای 5 داشتیم چی؟ بازم نمودار توزیع نهایی شبیه توزیع نرمال میشه:
حالا، اگر X و Y رو داشته باشیم که دو تا متغیر تصادفی و مستقل از هم باشن که از توزیع نرمال اومده باشن، توزیع Z=X+Y به چه صورت میشه؟ میدونیم که توزیع نرمال میشه ولی میخوایم اثباتش کنیم.
یک راهش رو برای اثبات بررسی کردیم تا اینجا. بیایم کانولوشن X در Y رو محاسبه کنیم. حالا راه دیگه چیه؟ میبینیم.
خب. دو متغیر تصادفی X و Y که از هم مستقل هستن رو داریم که از توزیع نرمال اومدن:
X, Y ~ N(0, 1)
دنبال نشون دادن این هستیم که توزیع Z = aX+bY یک توزیع نرماله. میدونیم که میانگین Z برابر هست جمع میانگین X و Y و واریانس Z برابر هست با جمع واریانس X و Y.
در گام اول میایم سراغ محاسبه F_Z(z):
در جلسات گذشته دیدیم که تابع phi(X) (کوچیک) برابر هست با همون تابع چگالی توزیع استاندارد و مقدارش برابر هست با:
تابع Phi(X) (بزرگ) هم داریم که برابر هست با CDF توزیع نرمال:
حالا برگردیم سراغ انتگرال. اگر تابع phi(X) و phi(Y) رو باز کنیم داریم:
حالا، انتگرال بالا چی داره میگه؟ داره میگه بیا مساحت زیر نمودار خط ax+by ⩽ z رو محاسبه کن. یعنی انتگرال رو روی همه نقاطی که تو صفحه زرد رنگ قرار میگیرن اجرا کن.
حالا بیاید یه نقطه دلخواه (x, y) رو روی این قسمت زرد رنگ در نظر بگیرید:
با توجه به انتگرال فقط نقطه x^2 + y^2 برای ما مهم میشه. به عبارتی دیگه، یعنی فقط توان دوم فاصله نقطه (x, y) از مبدا برامون مهمه. تو این حالت حتی اگر بیایم صفحه مختصات رو هم بچرخونیم و فضا رو عوض کنیم بازم تغییری در فاصله نقطه (x, y) از مبدا ایجاد نمیشه. فرض کنید محور مختصات رو میچرخونیم و محورهای جدید رو با رنگ آبی نشون میدیم و نقطه تلاقی محور جدید با خط قرمز رو d مینامیم:
حالا انتگرال رو با توجه به محورهای جدید بازنویسی میکنیم. بازه y میشه از منفی بینهایت تا d و بازه x میشه از منفی بینهایت تا مثبت بینهایت:
میدونیم که phi(x) تو بازه منفی بینهایت تا مثبت بینهایت برابر با 1 میشه. پس انتگرال سادهتر میشه و داریم:
حالا، جواب انتگرال بالا چی میشه؟ جوابش همون CDF(d) هست که میشه:
حالا d برابر با چیه؟ d یک نقطه هست روی خط ax+by=z. اگر بیایم فاصله d از مبدا مختصات رو حساب کنیم برای d داریم:
d = |ax + by - z| / radical(a^2 + b^2) x = 0, y = 0 d = | -z | / radical(a^2 + b^2) = | z | / radical(a^2 + b^2)
چون میشه خط ax+by-z=0 رو هر جایی در نظر گرفت، میتونیم قدر مطلق رو حذف کنیم و در نهایت برای d داریم:
این به چه معنی هست؟ اگر بیایم یک متغیری رو بر انحراف از معیارش تقسیم کنیم، در نهایت بهمون یک نرمال استاندارد میده. یعنی چی؟
بالاتر دیدیم که Z = aX + bY هست. یعنی واریانس Z برابر میشه با:
a^2 + b^2
حالا وقتی Z تقسیم بشه بر انحراف از معیارش (یعنی همون d) انگار داره به صورت یک نرمال استاندارد در میاد. پس CDF(d) که در نهایت بهش رسیدیم، در واقع برابر هست با CDF یک نرمال استاندارد.
با جمع متغیرهای تصادفی مستقل آشنا شدیم و دیدیم که هرچند تا متغیر مستقل از یک توزیع رو باهم جمع بزنیم در نهایت به یک توزیع نرمال میرسیم.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.