هانیه مهدوی
هانیه مهدوی
خواندن ۸ دقیقه·۲ سال پیش

جزوه دوره آمار و احتمال دکتر علی شریفی - جلسه چهاردهم - کواریانس و همبستگی

منبع اصلی این پست، دوره آمار و احتمال مهندسی دکتر علی شریفی زارچی از آکادمی مکتبخونه می‌باشد. لطفاً برای حفظ حقوق منتشر کننده اصلی، ویدیوهارو از منبع اصلی دنبال کنید. همچنین، در انتهای هر جلسه، به ویدیو مربوط به آن جلسه ارجاع داده شده است.

سعی کردم هرچیزی که از ویدیوها فهمیدم رو به صورت متن در بیارم و در این پلت‌فورم با بقیه به اشتراک بذارم. کل ویدیوها 27 تاست که سعی می‌کنم هفته‌ای یک الی دو جلسه رو منتشر کنم. تا جایی که تونستم سعی کردم خوب و کامل بنویسم، اما اگر جایی ایرادی داشت، حتما تو کامنت‌ها بهم بگید تا درستش کنم.

پیشنهاد می‌کنم قبل از خوندن ادامه مطلب، یک کاغذ و قلم جلو دستتون باشه تا بتونید روابط ارائه شده رو در جاهایی که لازم هست برای خودتون تو کاغذ بنویسید و محاسبات لازم رو خودتون هم انجام بدین تا بهتر متوجه بشید که در هر مرحله چه اتفاقی میفته.


تا به این جلسه هرگاه در خصوص وابستگی یا استقلال دو متغیر حرف زدیم، استقلال یا عدم استقلال رو صرفاً با یک عدد و به صورت 0 یا 1 نمایش دادیم. یعنی دو متغیر تصادفی یا نسبت بهم هیچ وابستگی‌ای نداشتن (استقلال=1)، یا اینکه کاملاً بهم وابسته بودن (استقلال=0). تو این جلسه قراره وابستگی یا استقلال دو متغیر رو به جای نمایش با 0 و 1 با اعدادی در بازه 0 تا 1 نمایش بدیم. به عبارتی دیگه، فقط دنبال این نیستیم که نشون بدیم دو متغیر بهم وابستگی دارن یا ندارن، دنبال این هستیم که نشون بدیم چقدر بهم وابستگی دارن یا ندارن.

دیتاست Iris رو در نظر بگیرید. این دیتاست اومده بر اساس طول و عرض گلبرگ‌های یه سری گل زنبق، گونه‌شون رو مشخص کرده. کلاً هم سه نوع گل زنبق تو این دیتاست قرار گرفتن. اگر بیایم هر نوع گل زنبق رو با یک رنگ نشون بدیم و طول و عرض گلبرگ‌هارو هم به عنوان محور افقی و عمودی در نظر بگیریم، به نموداری به صورت زیر می‌رسیم:

حالا، با توجه به نمودار بالا، کدوم گونه گل زنبق هست که بین دو متغیر sepal length و sepal width وابستگی بیشتری وجود داره و کدوم گونه هست که این وابستگی توش کمتره؟

به صورت شهودی اگر بخوایم بگیم، گونه setosa که با رنگ قرمز مشخص شده، بین طول و عرض گلبرگ‌هاش وابستگی بیشتری وجود داره. در عین حال، طول و عرض گلبرگ‌ها تو دو گونه دیگه که با رنگ سبز و آبی مشخص شدن استقلال بیشتری نسبت بهم دارن.

اگر بخوایم شهودمون رو به صورت کمّی در بیاریم چی؟ یعنی اگر بخوایم وابستگی بیشتر و استقلال بیشتر رو با یک عدد مشخص کنیم باید چه کنیم؟ برای به دست آوردن این عدد کمّی باید با مفهومی به اسم کواریانس آشنا بشیم.

برگردیم به فرمول واریانس. واریانس رو چطور تعریف می‌کردیم؟

حالا، قراره از روی فرمول واریانس فرمول کواریانس رو خارج کنیم. دنبال چی هستیم؟ دنبال فرمولی هستیم که هر چی عددش مثبت‌تر یا منفی‌تر باشه نشون دهنده وابستگی بیشتر بین دو متغیر باشه و هرچی به صفر نزدیک‌تر باشه نشون دهنده‌ی وابستگی کمتر بین دو متغیر باشه.

به عبارتی دیگه، دنبال فرمولی هستیم که اگر یک نقطه‌ای داشته باشیم:

  • که هم x بزرگ‌تری داشته باشه نسبت به متوسط X و هم y بزرگ‌تری داشته نسبت به متوسط Y (یعنی به متوسط X و به متوسط Y یک مقداری اضافه شده باشه) تو این حالت بیاد و اثر مثبت بذاره.
  • که هم x کوچک‌تری داشته باشه نسبت به متوسط X و هم y کوچیک‌تری داشته نسبت به متوسط Y (یعنی از متوسط X و از متوسط Y یک مقداری کم شده باشه) تو این حالت بیاد و اثر مثبت بذاره.
  • که x بزرگ‌تری داشته باشه نسبت به متوسط X و y کوچک‌تری داشته نسبت به متوسط Y (یعنی به متوسط X یک مقداری اضافه و از متوسط Y یک مقداری کم شده باشه) تو این حالت بیاد و اثر منفی بذاره.
  • که y بزرگ‌تری داشته باشه نسبت به متوسط Y و x کوچک‌تری داشته نسبت به متوسط X (یعنی به متوسط Y یک مقداری اضافه و از متوسط X یک مقداری کم شده باشه) تو این حالت بیاد و اثر منفی بذاره.

حالا، از روی توضیحات بالا و با استفاده از فرمول واریانس به فرمول کواریانس می‌رسیم:

برای اینکه توضیحات بالا رو بهتر درک کنید مثال زیر رو ببینید.

فرض کنید یک سری نقطه داریم که به صورت زیر مشخص شدن و میانگین X و Y هم در مرکز قرار دارن:

چهار تا نقطه سبز، قرمز، زرد و آبی رو روی این توزیع در نظر بگیرید:

نقاطی که اطراف نقطه سبز هستن حالتی رو دارن مشخص می‌کنن که هم x بزرگ‌تری دارن نسبت به متوسط X و هم y بزرگ‌تری دارن نسبت به متوسط Y.

نقاطی که اطراف نقطه آبی هستن حالتی رو دارن مشخص می‌کنن که هم x کوچک‌تری دارن نسبت به متوسط X و هم y کوچک‌تری دارن نسبت به متوسط Y.

نقاطی که اطراف نقطه قرمز هستن حالتی رو دارن مشخص می‌کنن که x کوچک‌تری دارن نسبت به متوسط X ولی y بزرگ‌تری دارن نسبت به متوسط Y.

نقاطی که اطراف نقطه زرد هستن حالتی رو دارن مشخص می‌کنن که x بزرگ‌تری دارن نسبت به متوسط X ولی y کوچک‌تری دارن نسبت به متوسط Y.

حالا از اونجایی که تعداد این نقاط توی این چهار تا ناحیه باهم برابره، پس اثرات مثبت و اثرات منفی هم دیگه‌ رو در نهایت خنثی می‌کنن و کواریانس تو این مثال برابر میشه با صفر، که نشون میده هیچ وابستگی‌ای بین X و Y تو این مثال وجود نداره.
بریم سراغ یک مثال دیگه. نقاط زیر رو در نظر بگیرید. محورهای قرمز و سبز مشخص کننده حدودی میانگین X و میانگین Y هست:

تو این مثال، تعداد نقاطی که تو نواحی با ضرب‌در مشخص شده قرار میگیرن بیشتر از تعداد نقاطی هست که در نواحی بدون ضرب‌در خورده قرار می‌گیرن، برای همین هم در نهایت کواریانس اثر مثبت می‌ذاره:

پس گویا یک وابستگی بین X و Y وجود داره و با زیاد شدن X مقدار Y هم زیاد میشه.

حالا اگر به جای یک سری نقاط از هم گسسته یک توزیع داشته باشیم فرمول کواریانس رو چطور براش تعریف کنیم؟

به کمک 2D-LOTUS که در جلسه گذشته باهاش آشنا شدیم، می‌تونیم عبارت (Y-EY)(X-EX) رو به صورت یک تابع g(X, Y) در نظر بگیریم و در نهایت داشته باشیم:

حالا، فرض کنید اومدیم فقط گونه setosa از دیتاست Iris رو در نظر گرفتیم و یک توزیعی رو انداختیم روی دیتاپوینت‌ها:

تو این حالت هم کواریانس شبیه حالت قبل که بررسی کردیم عمل می‌کنه. یعنی جواب انتگرال بسته به اینکه چقدر داریم از میانگین X و Y دور میشیم یا بهش نزدیک‌تر میشیم، در نهایت یک عدد مثبت یا صفر یا منفی میشه.

اگر حاصل کواریانس منفی بشه به چه معنایی هست؟ به این معنیه که انگار با زیاد شدن X مقدار Y کم میشه و یا برعکس. در هر حال یا X یا Y یکیشون زیاد میشه در حالیکه اون یکی متغیر کم میشه، به عبارتی دیگه X و Y کواریانس منفی دارن نسبت بهم.

ویژگی‌های کواریانس

Cov(X, X) = E((X - EX)(X - EX)) = E((X - EX)^2) = Var(X) Cov(X, Y) = Cov(Y, X) Cov(2X, Y) = E((2X - 2EX)(Y - EY)) = E(2(X - EX)(Y - EY)) = 2E((X - EX)(Y - EY)) = 2Cov(X, Y) Cov(aX+b, Y) = E((aX + b - E(aX + b))(Y - EY)) = E((aX + b - aE(X) - b)(Y - EY)) = E((aX - aE(X))(Y - EY)) = aE((X - E(X))(Y - EY)) = aCov(X, Y) IF f_XY(x, y) = f_X(x) f_Y(y), then Cov(X, Y) = 0

همبستگی (Correlation)

فرض کنید X' و Y' رو متغیرهای نرمال شده X و Y در نظر بگیریم و داشته باشیم:

X' = (X - EX) / ó_X Y' = (Y - EY) / ó_Y

حالا برای محاسبه Cov(X', Y') داریم:

Cov(X', Y') = Cov((X - EX) / ó_X, (Y - EY) / ó_Y) = Cov(X, Y) / ó_X ó_Y = Cor(X, Y)

به حاصل Cov(X', Y') ضریب همبستگی پیرسون گفته میشه.

میشه اثبات کرد که همواره نامساوی زیر برقراره:

-ó_X ó_Y ⩽ Cor(X, Y) ⩽ ó_X ó_Y -1 ⩽ Cor(X, Y) ⩽ 1

ویژگی‌های همبستگی

Cor(X, X) = Cov(X, X) / ó_X ó_X = Var(X, X) / ó_X ó_X = 1 Cor(-X, X) = -1 Cor(X + 5, X) = 1 Cor(aX, X) = Cov(aX, X) / ó_aX ó_X = aCov(X, X) / |a|ó_X ó_X IF a > 0, then Cor(aX, X) = 1 IF a < 0, then Cor(aX, X) = -1 IF a = 0, then undefined correlation IF f_XY(x, y) = f_X(x) f_Y(y), then Cor(X, Y) = 0

تفاوت کواریانس و همبستگی

تو محاسبه کواریانس تفاوت در scale متغیرها روی جواب تاثیر میذاره، در حالیکه تو محاسبه همبستگی فرقی نمی‌کنه که متغیرها چه scale ای داشته باشن. برای مثال برگردیم به همون دیتاست Iris و کواریانس و همبستگی رو برای گونه‌های مختلف گل زنبق محاسبه کنیم.

برای مقادیر کواریانس داریم:

در حالیکه برای مقادیر همبستگی داریم:

همون‌طور که مشخصه تفاوت چندانی در مقدار کواریانس بین سه گونه وجود نداره در حالیکه مقدار همبستگی تفاوت زیادی داره. این تفاوت کم بین مقادیر کواریانس و تفاوت زیاد تو مقادیر همبستگی دقیقاً بر می‌گرده به حساس نبودن همبستگی به scale متغیرها.

تو عکس هم اگر نگاه کنیم به صورت شهودی همبستگی بیشتری بین دیتاپوینت‌های قرمز می‌بینیم تا دو گونه دیگه:

جمع‌بندی مطالب ارائه شده

با مفهوم کواریانس و کورلیشن آشنا شدیم و در مورد ویژگی‌های هر کدوم و تفاوت‌هاشون یاد گرفتیم.


اگر جایی ایراد یا مشکلی بود، حتما بهم بگید تا تصحیحش کنم. همچنین، پیشنهاد می‌کنم که حتماً صفحه گیت‌هاب این دوره رو مورد بررسی قرار بدین. حتماً به دردتون می‌خوره.

ویدیو این جلسه

صفحه گیت‌هاب مرتبط با این دوره

جزوه جلسه قبلی (جلسه سیزدهم)

جزوه جلسه بعدی (جلسه پانزدهم)

همبستگیکواریانسواریانسکورلیشن
من هانیه‌ام. مدتیه شروع کردم به تولید محتوا در قالب متن و به زبان فارسی، از روی دوره‌هایی که می‌گذرونم. اگر دوست داشتین برام قهوه بخرید: https://coffeete.ir/honio
شاید از این پست‌ها خوشتان بیاید