واریانس در یادگیری ماشین

تعریف واریانس و انحراف از معیار در آمار


واریانس چیست؟ میزان پخش شدن رکوردهای یک ستون را به ما نمایش می دهد.
انحراف از معیار چیست؟ میزان فاصله هر داده تا میانگین را انحراف از معیار می گویند.

در یادگیری ماشین گرفتن واریانس به ما کمک می کند تا تشخیص دهیم رکوردهای یک ستون به چه میزان پخش شده اند یا به عبارت دیگر رکورد های یک مجموعه داده ای به چه میزان از میانگین فاصله دارند.

فرمول محاسبه واریانس
فرمول محاسبه واریانس



  فرمول محاسبه انحراف از معیار
فرمول محاسبه انحراف از معیار

به علامت σ به زبان یونانی، سیگما می گویند.


برای افرادی که علامت زیگما را نمیشناسند چگونه کار می کند:

 مفهوم زیگما
مفهوم زیگما


محاسبه واریانس و انحراف از معیار توسط یک مثال

اجازه دهید یکی از با یک مثال پیش برویم (مثال برگفته از مرجع زیر است)

https://www.mathsisfun.com/data/standard-deviation-formulas.html


در این مثال چند نمونه سگ را آورده اند و می خواهند واریانس بگیرند تا وضعیت سگ ها را بسنجند.

ارتفاع هر سگ تا شانه اش (کتف) به ترتیب برابر 600mm، 470mm، 170mm، 430mm، 300mm است. وظیفه ای که به عهده ما است این است که واریانس و انحراف از معیار و همچنین میانگین آن ها را بدست آوریم.

Mean = (600 + 470 +170 +430 + 300) / 5 =>

Mean = 1970 / 5 =>

Mean = 395

بنابراین میانگین در شکل بالا بصورت زیر قرار می گیرد:

نمایش میانگین در شکل ( خط سبز میانگین است )
نمایش میانگین در شکل ( خط سبز میانگین است )


اکنون اختلاف ارتفاع هر سگ را با میانگین به شکل زیر محاسبه می کنیم:

اختلاف ارتفاع هر سگ تا میانگین
اختلاف ارتفاع هر سگ تا میانگین


اکنون می خواهیم واریانس میان آن ها را محاسبه کنیم:

شیوه محاسبه واریانس
شیوه محاسبه واریانس

اکنون اگر ریشه ( یا جذر ) واریانس را بگیریم به انحراف از معیار می رسیم:

 محاسبه انحراف از معیار
محاسبه انحراف از معیار


اکنون می توانیم شکل مورد نظرمان را به روز رسانی کنیم:

 محاسبه انحراف از معیار در میان سگ ها
محاسبه انحراف از معیار در میان سگ ها

حالا می توانیم به راحتی تشخیص دهیم که استاندارد برای ما تا چه حدی است. سمت چپ ترین سگ جزء استاندارد های ما نیست و بلند تر از استاندارد است و همچنین سگ وسط که کوتاه ترین سگ است نیز جزء استاندارد های ما میان این مجموعه داده ای نیست.



توجه: نکته ای که وجود دارد این است که هرچقدر واریانس کوچک باشد و به صفر نزدیک شود، به این معنا است که رکوردهای یک ستون بسیار نزدیک به میانگین و به یکدیگر هستند. واریانس بالا به ما نشان می دهد به چه میزان رکوردهای یک ستون از میانگین و یکدیگر دور هستند.



مفهوم واریانس در یادگیری ماشین

این ساده ترین تعریف برای واریانس و انحراف از معیار است. اما این نگاه تنها نگاه آماری است و نه به عنوان یک دانشمند داده (Data Scientist) شما باید به عنوان یک دانشمند داده بدانید که مفهوم واریانس چه تاثیری در یادگیری ماشینتان می گذارد.

بنابراین دو مفهوم زیر را داریم:

واریانس پایین: به شما می گوید کوچک ترین تغییر در مجموعه داده ای باعث می شود نتایج در تابع هدف تغییر کند.
واریانس بالا:
به شما می گوید تغییر بزرگی باید رخ دهد تا تابع هدف دچار تغییر در تخمین هایش شود.

مثال هایی از واریانس پایین در یادگیری ماشین می توان به رگرسیون خطی (Linear Regression)، تجزیه و تحلیل خطی (Linear Discriminant Analysis) و رگرسیون لجستیک (Logistic Regression) اشاره کرد.

مثال هایی از واریانس بالا در یادگیری ماشین می توان به درخت تصمیم (Decision Tree)، کا-همسایه نزدیک (K-NearestNeighbor) و ماشین بردار پشتیبان (Support Vector Machine) اشاره کرد.


در نهایت ممکن است در محاسبه واریانس و انحراف از معیار به دو مفهوم Sample و Population برخورد کنید:

زمانی که صحبت از نمونه و جمعیت که می شود، در واقع می خواهیم در رابطه با N صحبت کنیم که در فرمولی که در ابتدا برایتان قرار دادم، وجود دارد. اجازه دهید همان مثال بالا که مجموعه ای از سگ ها بود را بررسی کنیم. اگر کل مجموعه داده ای ما همان تعداد سگ ها بود در واریانس تقسیم بر تعداد کل رکوردهای یک ستون آن مجموعه داده ای می کنیم که در اینجا پنج (در مجموع پنج سگ داریم) می شود. اگر این تعداد از سگ ها تنها نمونه ای از مجموعه داده ای بزرگتری هستند و به عنوان نماینده در اینجا حضور دارند باید در فرمول به جای N بیاییم N-1 را قرار دهیم. بنابراین:

جمعیت Population چیست؟ به محاسبه کل رکوردهای یک ستون یک مجموعه داده ای جمعیت می گوییم.
نمونه Sample چیست؟ به محاسبه تعدادی از رکوردهای یک ستون از یک مجموعه داده ای نمونه می گوییم.

نکته ای که در Sample وجود دارد این است که می گوید در آمار نیاز نیست همیشه ما بخواهیم کل یک مجموعه داده ای را محاسبه کنیم. تنها شاخص الگو ها به ما بیشترین اطلاعات را می دهند. اما این را هم در نظر بگیرید که با استفاده از نمونه شما میزان دقتی که در جمعیت دارید را از دست می دهید اما چیزی که بدست می آورید زمان است.

درنهایت داریم:

  دو روش نمایش فرمول انحراف از معیار
دو روش نمایش فرمول انحراف از معیار

بیشتر بدانید

در ادامه می خواهم توضیح دهم که چرا مربع هر داده را می گیریم ( این بخش تنها برای افراد کنجکاو نسبت به علم است )

اگر علامت ها را در میانگین تاثیر دهیم اتفاقی به شکل زیر برای ما رخ می دهد:

میانگین صفر می شود
میانگین صفر می شود

در واقع می گوییم اعداد منفی تاثیر اعداد مثبت را از بین بردند.

اگر تاثیر اعداد منفی را از میان ببریم چه اتفاقی رخ می دهد؟

  میانگین عدد 4 می شود
میانگین عدد 4 می شود

اکنون می توانیم بگوییم میانگین عدد 4 شده است و همه چیز رو به راه است. اما اگر اعداد ما بصورت زیر قرار گرفته باشند چه اتفاقی رخ می دهد؟

میانگین مجددا عدد 4 می شود.
میانگین مجددا عدد 4 می شود.

اکنون می گوییم میانگین همچنان عدد 4 است. اما اتفاقی که رخ داده آن است که ما اطلاعات زیادی را در رابطه با رکوردها از دست داده ایم. بنابران چه کاری می توان انجام داد تا میزان اهمیت رکورد ها را متوجه شویم؟ جوب صحیح این است که بیاییم مربع اعداد را میانگین و در نهایت ریشه آن را بگیریم.

اکنون به راحتی متوجه می شوید که میانگین های دو مجموعه داده ای کاملا متفاوت هستند.