آمار و علم داده اغلب در مورد روابط بین دو یا چند متغیر (یا ویژگی) یک مجموعه داده هستند. هر نقطه داده در مجموعه داده یک مشاهده (observation) است و ویژگی ها, خواص آن observation هستند.
هر مجموعه داده ای که با آن کار می کنید از متغیرها و مشاهدات استفاده می کند. برای مثال، ممکن است علاقه مند به درک موارد زیر باشید:
در مثالهای بالا، قد، دقت تیراندازی، سالها تجربه، حقوق، تراکم جمعیت و تولید ناخالص داخلی ویژگیها یا متغیرها هستند. داده های مربوط به هر بازیکن، کارمند، و هر کشور مشاهدات هستند
هنگامی که داده ها به شکل جدول نمایش داده می شوند، ردیف های آن جدول معمولاً مشاهدات هستند، در حالی که ستون ها ویژگی ها هستند. به این جدول کارمندان نگاه کنید:
در این جدول، هر ردیف نشان دهنده یک مشاهده یا داده های مربوط به یک کارمند (اعم از آن، راب، تام یا آیوی) است. هر ستون یک ویژگی یا ویژگی (نام (name)، تجربه (years of experience) یا حقوق سالانه (annual salary)) را برای همه کارکنان نشان می دهد.
اگر هر دو ویژگی از یک مجموعه داده را تجزیه و تحلیل کنید، آنگاه نوعی همبستگی (ارتباط) بین آن دو ویژگی پیدا خواهید کرد. ارقام زیر را در نظر بگیرید:
هر یک از این نمودارها یکی از سه شکل مختلف همبستگی را نشان می دهد:
همبستگی منفی (نقاط قرمز): در نمودار سمت چپ، مقادیر y با افزایش مقادیر x تمایل به کاهش دارند. این همبستگی منفی قوی را نشان می دهد، که زمانی رخ می دهد که مقادیر بزرگ یک ویژگی با مقادیر کوچک دیگری مطابقت داشته باشد و بالعکس.
همبستگی ضعیف یا بدون همبستگی (نقاط سبز): نمودار وسط هیچ روند واضحی را نشان نمی دهد. این یک شکل از همبستگی ضعیف است، که زمانی رخ می دهد که ارتباط بین دو ویژگی آشکار نباشد یا به سختی قابل مشاهده باشد.
همبستگی مثبت (نقاط آبی): در نمودار سمت راست، مقادیر y با افزایش مقادیر x تمایل به افزایش دارند. این نشاندهنده همبستگی مثبت قوی است، که زمانی رخ میدهد که مقادیر بزرگ یک ویژگی با مقادیر بزرگ دیگری مطابقت داشته باشد و بالعکس.
شکل بعدی داده های جدول کارمند بالا را نشان می دهد:
همبستگی بین تجربه و حقوق مثبت است زیرا تجربه بالاتر با حقوق بیشتر مطابقت دارد و بالعکس.
توجه: وقتی در حال تجزیه و تحلیل همبستگی هستید، همیشه باید در نظر داشته باشید که همبستگی نشان دهنده علت نیست. قدرت رابطه بین ویژگی های یک مجموعه داده را کمیت می کند. گاهی اوقات، این ارتباط توسط یک عامل مشترک با چندین ویژگی مورد علاقه ایجاد می شود.
همبستگی به شدت با مقادیر آماری دیگر مانند میانگین، انحراف معیار، واریانس و کوواریانس مرتبط است.
چندین آمار وجود دارد که می توانید از آنها برای تعیین کمیت همبستگی استفاده کنید. در این آموزش با سه ضریب همبستگی آشنا خواهید شد:
https://mindmover.academy/correlation-analysis-in-python/