همبستگی یا correlation

محاسبه correlation بین دو مجموعه داده از کارهای معمول آمار است.در یادگیری ماشین از اسپارک انعطاف مناسبی برای محاسبه correlation ها از مجموعه داده ها فراهم شده است. در اسپارک میتوان از روش و فرمول پیرسون نیز برای محاسبه آن استفاده کرد.
ماتریس correlation ،correlation را برای دیتاست ورودی از وکتور های با استفاده از متد معین شده مانند پیرسون را محاسبه میکند. خروجی این محاسبه یک دیتا فریم خواهد بود که شامل ماتریس correlation از ستون ها و وکتور ها خواهد بود.
http://sciencehome.net/wp-content/uploads/2019/05/image-5.png

توجه داشته باشید در قطعه کد با در ابتدا یک داده نمونه از وکتور های متراکم و … ساخته شده و سپس ویژگی ها با یک نوع داده ای استراکچر با نام schema تعیین شده اند و در نهایت یک دیتا فریم با استفاده از خروجی correlation با دو روش موجود مانند پیرسون تولید و چاپ شده است.