منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه میباشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.
سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلتفورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی میکنم هفتهای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنتها بهم بگید تا درستش کنم.
پیشنهاد میکنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.
تا به این جلسه هرگاه در خصوص وابستگی یا استقلال دو متغیر حرف زدیم، استقلال یا عدم استقلال رو صرفاً با یک عدد و به صورت 0 یا 1 نمایش دادیم. یعنی دو متغیر تصادفی یا نسبت بهم هیچ وابستگیای نداشتن (استقلال=1)، یا اینکه کاملاً بهم وابسته بودن (استقلال=0). تو این جلسه قراره وابستگی یا استقلال دو متغیر رو به جای نمایش با 0 و 1 با اعدادی در بازه 0 تا 1 نمایش بدیم. به عبارتی دیگه، فقط دنبال این نیستیم که نشون بدیم دو متغیر بهم وابستگی دارن یا ندارن، دنبال این هستیم که نشون بدیم چقدر بهم وابستگی دارن یا ندارن.
دیتاست Iris رو در نظر بگیرید. این دیتاست اومده بر اساس طول و عرض گلبرگهای یه سری گل زنبق، گونهشون رو مشخص کرده. کلاً هم سه نوع گل زنبق تو این دیتاست قرار گرفتن. اگر بیایم هر نوع گل زنبق رو با یک رنگ نشون بدیم و طول و عرض گلبرگهارو هم به عنوان محور افقی و عمودی در نظر بگیریم، به نموداری به صورت زیر میرسیم:
حالا، با توجه به نمودار بالا، کدوم گونه گل زنبق هست که بین دو متغیر sepal length و sepal width وابستگی بیشتری وجود داره و کدوم گونه هست که این وابستگی توش کمتره؟
به صورت شهودی اگر بخوایم بگیم، گونه setosa که با رنگ قرمز مشخص شده، بین طول و عرض گلبرگهاش وابستگی بیشتری وجود داره. در عین حال، طول و عرض گلبرگها تو دو گونه دیگه که با رنگ سبز و آبی مشخص شدن استقلال بیشتری نسبت بهم دارن.
اگر بخوایم شهودمون رو به صورت کمّی در بیاریم چی؟ یعنی اگر بخوایم وابستگی بیشتر و استقلال بیشتر رو با یک عدد مشخص کنیم باید چه کنیم؟ برای به دست آوردن این عدد کمّی باید با مفهومی به اسم کواریانس آشنا بشیم.
برگردیم به فرمول واریانس. واریانس رو چطور تعریف میکردیم؟
حالا، قراره از روی فرمول واریانس فرمول کواریانس رو خارج کنیم. دنبال چی هستیم؟ دنبال فرمولی هستیم که هر چی عددش مثبتتر یا منفیتر باشه نشون دهنده وابستگی بیشتر بین دو متغیر باشه و هرچی به صفر نزدیکتر باشه نشون دهندهی وابستگی کمتر بین دو متغیر باشه.
به عبارتی دیگه، دنبال فرمولی هستیم که اگر یک نقطهای داشته باشیم:
حالا، از روی توضیحات بالا و با استفاده از فرمول واریانس به فرمول کواریانس میرسیم:
برای اینکه توضیحات بالا رو بهتر درک کنید مثال زیر رو ببینید.
فرض کنید یک سری نقطه داریم که به صورت زیر مشخص شدن و میانگین X و Y هم در مرکز قرار دارن:
چهار تا نقطه سبز، قرمز، زرد و آبی رو روی این توزیع در نظر بگیرید:
نقاطی که اطراف نقطه سبز هستن حالتی رو دارن مشخص میکنن که هم x بزرگتری دارن نسبت به متوسط X و هم y بزرگتری دارن نسبت به متوسط Y.
نقاطی که اطراف نقطه آبی هستن حالتی رو دارن مشخص میکنن که هم x کوچکتری دارن نسبت به متوسط X و هم y کوچکتری دارن نسبت به متوسط Y.
نقاطی که اطراف نقطه قرمز هستن حالتی رو دارن مشخص میکنن که x کوچکتری دارن نسبت به متوسط X ولی y بزرگتری دارن نسبت به متوسط Y.
نقاطی که اطراف نقطه زرد هستن حالتی رو دارن مشخص میکنن که x بزرگتری دارن نسبت به متوسط X ولی y کوچکتری دارن نسبت به متوسط Y.
حالا از اونجایی که تعداد این نقاط توی این چهار تا ناحیه باهم برابره، پس اثرات مثبت و اثرات منفی هم دیگه رو در نهایت خنثی میکنن و کواریانس تو این مثال برابر میشه با صفر، که نشون میده هیچ وابستگیای بین X و Y تو این مثال وجود نداره.
بریم سراغ یک مثال دیگه. نقاط زیر رو در نظر بگیرید. محورهای قرمز و سبز مشخص کننده حدودی میانگین X و میانگین Y هست:
تو این مثال، تعداد نقاطی که تو نواحی با ضربدر مشخص شده قرار میگیرن بیشتر از تعداد نقاطی هست که در نواحی بدون ضربدر خورده قرار میگیرن، برای همین هم در نهایت کواریانس اثر مثبت میذاره:
پس گویا یک وابستگی بین X و Y وجود داره و با زیاد شدن X مقدار Y هم زیاد میشه.
حالا اگر به جای یک سری نقاط از هم گسسته یک توزیع داشته باشیم فرمول کواریانس رو چطور براش تعریف کنیم؟
به کمک 2D-LOTUS که در جلسه گذشته باهاش آشنا شدیم، میتونیم عبارت (Y-EY)(X-EX) رو به صورت یک تابع g(X, Y) در نظر بگیریم و در نهایت داشته باشیم:
حالا، فرض کنید اومدیم فقط گونه setosa از دیتاست Iris رو در نظر گرفتیم و یک توزیعی رو انداختیم روی دیتاپوینتها:
تو این حالت هم کواریانس شبیه حالت قبل که بررسی کردیم عمل میکنه. یعنی جواب انتگرال بسته به اینکه چقدر داریم از میانگین X و Y دور میشیم یا بهش نزدیکتر میشیم، در نهایت یک عدد مثبت یا صفر یا منفی میشه.
اگر حاصل کواریانس منفی بشه به چه معنایی هست؟ به این معنیه که انگار با زیاد شدن X مقدار Y کم میشه و یا برعکس. در هر حال یا X یا Y یکیشون زیاد میشه در حالیکه اون یکی متغیر کم میشه، به عبارتی دیگه X و Y کواریانس منفی دارن نسبت بهم.
Cov(X, X) = E((X - EX)(X - EX)) = E((X - EX)^2) = Var(X) Cov(X, Y) = Cov(Y, X) Cov(2X, Y) = E((2X - 2EX)(Y - EY)) = E(2(X - EX)(Y - EY)) = 2E((X - EX)(Y - EY)) = 2Cov(X, Y) Cov(aX+b, Y) = E((aX + b - E(aX + b))(Y - EY)) = E((aX + b - aE(X) - b)(Y - EY)) = E((aX - aE(X))(Y - EY)) = aE((X - E(X))(Y - EY)) = aCov(X, Y) IF f_XY(x, y) = f_X(x) f_Y(y), then Cov(X, Y) = 0
فرض کنید X' و Y' رو متغیرهای نرمال شده X و Y در نظر بگیریم و داشته باشیم:
X' = (X - EX) / ó_X Y' = (Y - EY) / ó_Y
حالا برای محاسبه Cov(X', Y') داریم:
Cov(X', Y') = Cov((X - EX) / ó_X, (Y - EY) / ó_Y) = Cov(X, Y) / ó_X ó_Y = Cor(X, Y)
به حاصل Cov(X', Y') ضریب همبستگی پیرسون گفته میشه.
میشه اثبات کرد که همواره نامساوی زیر برقراره:
-ó_X ó_Y ⩽ Cor(X, Y) ⩽ ó_X ó_Y -1 ⩽ Cor(X, Y) ⩽ 1
Cor(X, X) = Cov(X, X) / ó_X ó_X = Var(X, X) / ó_X ó_X = 1 Cor(-X, X) = -1 Cor(X + 5, X) = 1 Cor(aX, X) = Cov(aX, X) / ó_aX ó_X = aCov(X, X) / |a|ó_X ó_X IF a > 0, then Cor(aX, X) = 1 IF a < 0, then Cor(aX, X) = -1 IF a = 0, then undefined correlation IF f_XY(x, y) = f_X(x) f_Y(y), then Cor(X, Y) = 0
تو محاسبه کواریانس تفاوت در scale متغیرها روی جواب تاثیر میذاره، در حالیکه تو محاسبه همبستگی فرقی نمیکنه که متغیرها چه scale ای داشته باشن. برای مثال برگردیم به همون دیتاست Iris و کواریانس و همبستگی رو برای گونههای مختلف گل زنبق محاسبه کنیم.
برای مقادیر کواریانس داریم:
در حالیکه برای مقادیر همبستگی داریم:
همونطور که مشخصه تفاوت چندانی در مقدار کواریانس بین سه گونه وجود نداره در حالیکه مقدار همبستگی تفاوت زیادی داره. این تفاوت کم بین مقادیر کواریانس و تفاوت زیاد تو مقادیر همبستگی دقیقاً بر میگرده به حساس نبودن همبستگی به scale متغیرها.
تو عکس هم اگر نگاه کنیم به صورت شهودی همبستگی بیشتری بین دیتاپوینتهای قرمز میبینیم تا دو گونه دیگه:
با مفهوم کواریانس و کورلیشن آشنا شدیم و در مورد ویژگیهای هر کدوم و تفاوتهاشون یاد گرفتیم.
اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد میکنم که حتماً صفحه گیتهاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون میخوره.