زمانی که با داده های یک بعدی مانند قد افراد روبرو هستیم علاوه بر میانگین واریانس هم اطلاعات مفیدی در اختیار ما قرار می دهد. واریانسِ بیشتر به طور ساده به معنای پراکندگی بیشتر در داده هاست. با استفاده از دستور متلب زیر میتوانید این موضوع را برای دو بردار تستی دریابید:
مشخص است که پراکندگی داده ها در V2 بیشتر و بنابراین واریانس بیشتری دارد.
اما بیشتر پدیده ها به همین سادگی با یک عدد توصیف نمی شوند. به طور مثال شما نمی توانید دانشجویان یک کلاس را تنها با نمره یکی از درس هایشان تحلیل کنید. در این موارد باید به این دقت کرد که بین درس های مختلف هم رابطه هایی وجود دارد به طور مثال فرض کنید دانشجویان یک کلاس 5 نفره در دروس ریاضی، زبان، هنر نمره های زیر را کسب کرده باشند:
کواریانس دو بردارx و y به صورت زیر تعریف می شود:
حالا بیایید ماتریس کواریانس را به صورت زیر تعریف کنیم:
به این ترتیب اگر هر کدام از درس ها را به صورت یک بردار در نظر بگیریم. ماتریس کواریانس را به صورت برداری زیر حساب میکنیم:
در مرحله اول هر کدام از نمونه ها را از میانگین کم کردیم. ودر مرحله بعد حاصلضرب ها را محاسبه کردیم(به ارتباط این نحوه ضرب با فرمول هایی که گفتیم فکر کنید).نتیجه به صورت زیر می شود:
این ماتریس را به صورت زیر تعبیر می کنیم:
اندازه این ماتریس 3 در 3 است و به معنای ارتباط درس ها با هم است.
قطر اصلی یعنی کواریانس هر داده با خودش که همان واریانس می شود. درس هنر دارای بیشترین واریانس(900) و زبان کمترین واریانس(450( را دارد.
کواریانس دو درس ریاضی و زبان بالا است(450) و این به آن معنی است که این دو تمایل به رشد با هم یا کمتر شدن با هم دارند. در عوض زبان و هنر دارای کواریانس صفر است و به معنای آن است که رابطه ای با هم ندارند.
ماتریس کواریانس متقارن است به این معناست که رابطه ی بین درس ها با هم متقارن است!
نمودار زیر به زیبایی رابطه بین درس ها را نشان میدهد.در قطر اصلی هیستوگرام داده ها هر درس را میبینیم که واریانس را نشان می دهد. در ضمن هر قدر دو درس(یا متغیر) بیشتر با هم ارتباط داشته باشند داده هایشان در یک جهت هم سو هستند و هر قدر بی ارتباط تر باشند پخش و پلا و به یک دایره نزدیک تر است: