دانشجو ارشد هوش مصنوعی توسعه دهنده (پایتون - جنگو) حوزه تحقیقاتی تخصصی: سیستم پیشنهاد دهنده شغل: توسعه دهنده تیم امنیت ایرانسل شغل دوم: مدرس پایتون
مفاهیم بنیادی کوواریانس و همبستگی در یادگیری ماشین
اغلب داده کاوی به یکپارچه سازی داده ها یعنی ادغام داده ها از چندین منبع داده ای نیاز دارد. یکپارچه سازی دقیق می تواند به کاهش و اجتناب از افزونگی و ناسازگاری ها در مجموعه داده ای کمک کند. همچنین باعث بهبود دقت و سرعت فرآیندهای بعدی داده کاوی می شود.
افزونگی چیست؟
افزونگی یکی دیگر از موضوعات مهم در یکپارچه سازی داده است. یک صفت خاصه (مانند درآمد سالیانه) ممکن است افزونه تلقی شود اگر بتوانیم با کمک مقادیر دیگر صفات خاصه آن را به دست آوریم (جدول شماره 1) ناسازگاری ها در صفات خاصه یا نام گذاری ابعاد نیز باعث افزونگی در مجموعه داده ای می شود.
در این جدول مشاهده می کنید که به راحتی می توان با ستون های یک تا سه اطلاعات ستون چهارم را به دست آورد ( درآمد به ازای ساعت * میزان ساعت کارکرد در روز * تعداد روز های حضور در طول یک ماه * 12 = درآمد سالیانه). بنابراین وجود ستون چهارم اشتباه و افزونه است.
هبستگی چیست؟
یک رابطه همبستگی (correlation) میان دو ستون A و B را می توان با کمک آزمون همبستگی کشف نمود. در صورتیکه همبستگی کم باشد، می گوییم رابطه خطی (linear relationship) وجود ندارد. درصورتیکه دو ستون همبستگی داشته باشند عموما به این معناست وجود هر دو لازم نیست و در کنار یکدیگر لزوما باعث بهبود مدل یادگیری نمی شوند ( با این حال مطلب گفته شده به تعداد نمونه هایی که بررسی می کنید و نوع صورت مسئله خیلی بستگی دارد که بیشتر این موارد به تجربه و مباحث پیشرفته ختم می شود.)
مثالی که از همبستگی می توان زد به این شکل است که فرض کنید با یک جمعیت 1500 نفری از زن و مرد روبه رو هستیم، که هر یک از آن ها علاقه ی خود را برای مطالب تخیلی و غیر تخیلی بیان نموده اند. بنابراین دارای دو صفت خاصه ( ستون ) جنسیت با دو مقدار مرد یا زن و علاقه افراد با دو مقدار تخیلی و غیر تخیلی هستیم.
محاسبه همبستگی و نمایش آن در نمودار پراکنشی روش مفیدی برای تشخیص خوشه ها، داده های پرت و همچنین مشاهده ی همبستگی احتمالی میان داده ها است. دو صفت خاصه ی X و Y هنگامی همبسته هستند که بتوان رابطه ای میان آن ها پیدا کرد. ممکن است دو صفت خاصه دارای همبستگی نباشد و یا دارای همبستگی مثبت یا منفی باشند.
برای درک این موضوع ابتدا باید کوواریانس را به خوبی یاد بگیریم.
کوواریانس چیست؟
در تئوری آمار و احتمال، همبستگی و کوواریانس دو سنجه مشابهی هستند که برای ارزشیابی تغییرات دو صفت خاصه با یکدیگر از آن ها استفاده می شود.فرض کنید مجموعه داده ای ما دارای دو صفت خاصه ی عددی A و B با مقادیر مشاهده شده ی { (a1, b1)...(an, bn) } می باشد. مقادیر میانگین برای دو صفت خاصه همچنین به عنوان مقادیر مورد انتظار نیز شناخته می شوند. جدول و نمودار 2 را به عنوان مثال در نظر بگیرید.
اکنون کاملا واضح است که نقاط قرار گرفته در نمودار متناظر با اعداد داخل جدول است. اکنون با رسم یک خط می خواهیم مشخص کنیم مدل رفتار این نقاط خطی یا غیر خطی است.
اکنون با رسم این نمودار کاملا متوجه شدیم که رفتار داده های ما خطی است. به راحتی برای ما قابل درک است که اگر محور x رشد کند، محور y نیز رشد می کند بنابراین می گوییم این دو محور تمایل به رفتار مشابه دارند. پس می توان این مفهوم را تلقی کرد که رشد دو محور ما را به هدف total یا جمعی می رساند. فرض کنید محور x نرخ رشد جمعیت و محور y میزان تورم را نمایش می دهد. نتیجه این دو محور اگر تمایل به رفتار مشابه داشته باشد، می گوییم رشد جمعیت باعث رشد تورم می شود.
در این حالت می گوییم این دو صفت خاصه رابطه خطی مثبت دارند.
این چیزی است که به آن کوواریانس می گوییم.
کوواریانس چیست؟ در کوواریانس بررسی می کنیم که اگر متغیری تغییر کند باقی متغیرها چه رفتاری نشان می دهند. بنابراین کوواریانس رابطه ای میان دو متغیر را بررسی می کند. دقت کنید که کوواریانس تنها در مورد رفتار ( جهت ) حرکت دو صفت خاصه صحبت می کند نه در باره میزان قدرت حرکت آن دو. اگر نمودار هیچ الگویی نداشته باشد می گوییم کواریانس نزدیک به صفر است.
کوواریانس مثبت: اگر نمودار خطی ما رفتاری به شکل نمودار 4 داشته باشد می گوییم کوواریانس مثبت است. یا به عبارتی اگر نتیجه کوواریانس ما مثبت باشد، چنین نموداری را می توانیم متصور شویم که به این منظور تلقی می شود اگر محور x رشد کند، محور y نیز رشد می کند و اگر محور x افت کند، محور y نیز افت می کند.
کوواریانس منفی: اگر نمودار خطی ما رفتاری به شکل نمودار 5 داشته باشد می گوییم کوواریانس منفی است. یا به عبارتی اگر نتیجه کوواریانس ما منفی باشد، چنین نموداری را می توانیم متصور شویم که به این منظور تلفی می شود اگر محور x کاهش پیدا کند، محور y رشد می کند و اگر محور x رشد کند، محور y کاهش میابد.
کوواریانس صفر: اگر نمودار ما به شکل پخش یا به اصطلاح مانند تیرهای شاتگان روی صفحه باشد به دلیل اینکه هیچ نمودار خطی نمی توان رسم کرد، گفته می شود کوواریانس نزدیک به صفر است.
اکنون به فرمول محاسباتی کوواریانس می رسیم:
نکته ای که در فرمول بالا وجود دارد رنگ آبی و رنگ قرمز است که هر دو آن ها میانگین هستند. در جایی که منظور جمعیت باشد میو (سمبل رنگ آبی) نوشته می شود و جایی که نمونه باشد xبار (سمبل رنگ قرمز) نوشته می شود.
در مقاله واریانس درباره Sample و Population صحبت کرده بودیم.
حال مثال زیر را در نظر بگیرید:
اکنون دیدی که مقدار کوواریانس ما 106.93 شد. در کوواریانس خود عدد معنایی ندارد و چیزی که برای ما مهم است تنها علامت عدد است تا بگوییم اگر عدد مثبت است بنابراین نمودار خطی ما مثبت است و اگر عدد علامت عدد منفی است گفته می شود که نمودار خطی ما منفی است.
بنابراین نتیجه زیر را به راحتی متصور می شویم:
تا اینجای کار کاملا مفهوم همبستگی و کوواریانس را به خوبی درک کرده اید. اما کوواریانس به تنهایی کافی نیست به این دلیل که قدرت رابطه میان صفات خاصه را نمایش نمی دهد. برای محاسبه قدرت رابطه میان دو صفت خاصه باید از رابطه Pearson's Product Moment Coeficient یا ضریب همبستگی برای داده های عددی را محاسبه کرد.
نتیجه گیری:
جمع بندی واریانس و کوواریانس:
واریانس و انحراف استاندارد سنجه های پراکندگی داده ها هستند. آن ها چگونگی توزیع داده ها را نشان می دهند. مقدار کم انحراف استاندارد نشان می دهد که داده های مشاهده شده بسیار به میانگین نزدیک هستند، در حالیکه مقدار بزرگ برای انحراف استاندارد نشان دهنده این است که داده ها در محدوده بزرگی از مقادیر پخش شده اند. بنابراین انحراف استاندارد شاخص خوبی برای بیان پراکندگی مجموعه داده ها محسوب می شود. در پایگاه داده های بزرگ محاسبه واریانس و انحراف استاندارد مقیاس پذیر است.
در کوواریانس بررسی می کنیم که اگر یکی از مقادیر صفت خاصه ای تغییر کند باقی صفات خاصه چه رفتاری نشان می دهند. بنابراین کوواریانس رابطه ای میان دو متغیر را بررسی می کند. دقت کنید که کوواریانس تنها در مورد رفتار ( جهت ) حرکت دو صفت خاصه صحبت می کند نه در باره میزان قدرت حرکت آن دو. اگر نمودار هیچ الگویی نداشته باشد می گوییم کواریانس نزدیک به صفر است.
اگر مثالی از جبر خطی تا کنون می خواستید، مفهوم کوواریانس از بهترین توصیفات جبر خطی است.
مطلبی دیگر از این انتشارات
کاهش فضای ویژگی
مطلبی دیگر از این انتشارات
دادهکاوی (Data Mining) چیست و چه کاربردهایی دارد؟
مطلبی دیگر از این انتشارات
تاریخچه پیکسل