یکی از مفاهیم آماری در تحلیل رگرسیون همخطی چندگانه (Multicollinearity) است. همخطی چندگانه یعنی بین چند متغیر مستقل رابطه خطی وجود دارد. به عبارت دیگر بین متغیرهای پیش گویی کننده هم پوشانی(overlap) در پیش بینی متغیر هدف وجود دارد. هر متغیر پیش گویی کننده به طور کامل اطلاعات جدیدی در مورد متغیر هدف نمی دهد.
در ادامه به تشریح این مفهوم پرداخته شده است.
بدون همخطی چندگانه
شکل زیر را در نظر بگیرید. سه متغیر پیش گویی کننده X1, X2, و X3 وجود دارد. متغیر هدف نیز با Y نمایش داده شده است.
قسمت های رنگی در واقع بخش هایی از متغیر هدف Y است که توسط X ها توضیح داده می شود. همانطور که مشخص است X ها هیچگونه همپوشانی با هم ندارند و به طور مستقل و جدا از هم اندازه گیری شده اند. هر کدام از X ها همبستگی کمی با متغیر هدف Y دارد و بین X ها هیچ همبستگی وجود ندارد. به عبارت دیگر هر کدام از X ها بخش منحصر به فردی از متغیر هدف Y را اندازه گیری می کند و پیش گویی می کند. اطلاع از مقدار یکی از X ها، خبری از ارزش سایر X ها نمی دهد.
در چنین شرایطی اندازه گیری میزان ارتباط بین X1 و Y بسیار آسان است. قسمت زردرنگ در شکل بالا این ارزش را نمایش می دهد. این مقدار در حقیقت برابر با ضرایب تخمین زده شده (Estimate Coefficient) در گزارش خروجی رگرسیون است. برای اطلاعات بیشتر اینجا را ببینید.
مقدار محاسبه شده برای این ضریب در حالتی که تنها یک متغیر پیش گویی کننده X1 وجود داشته باشد با حالتی که سه متغیر پیش گویی کننده X1, X2, و X3 وجود داشته باشد، یکسان است.
برخی از افراد به اشتباه استقلال بین متغیرهای پیش گویی کننده را از فرض های رگرسیون می دانند. در واقعیت کمتر پیش می آید که بین متغیرهای پیش گویی کننده هیچ گونه همبستگی وجود نداشته باشد.
همخطی چندگانه متوسط و شدید!
در شکل سمت چپ همپوشانی خفیفی بین پیش بینی کنندگان (X ها) وجود دارد. در این حالت می توان اثر منحصر به فرد هر پیش بینی کننده (X) را روی متغیر هدف Y اندازه گرفت. (قسمت های زرد، قرمز و آبی)
بخش های نارنجی و بنفش در ضرایب رگرسیون قرار نمی گیرند. این بدان معناست که ضرایب خودشان تصویر کاملی از تأثیر هر پیش بینی کننده (X) روی متغیر هدف(Y) را ارائه نمی دهد. توجه داشته باشید تا زمانی که ضرایب را تفسیر می کنید، فرضیات را نقض نمی کنید و مدل شما قابل اعتماد است. در چنین شرایطی نمی توان تشخیص داد که بخش نارنجی به کدام یک از متغیرهای X1 یا X2 منتسب است یا اینکه این تمایز حتی معنایی هم دارد یا نه؟
در شکل سمت راست، همپوشانی بین X1 و X2 به حدی شدید می شود که می تواند مدل را با مشکلات تخمینی مواجه کند. وقتی حرف از همخطی چندگانه می زنیم معمولا چنین حالتی مدنظر است.
این مدل در تلاش است تا اثر منحصر به فرد هر پیش بینی کننده (X) را بر روی متغیر هدف(Y) تخمین بزند، اما اطلاعات منحصر به فرد کافی در مورد X1 و X2 برای محاسبه آن وجود ندارد.
در شرایطی که وقتی X1 بالا می رود، X2 هم افزایش پیدا می کند، چگونه می توان تأثیر یک واحد افزایش X1 بر Y و X2 بر Y را جداگانه تخمین زد؟
تخمین های منطقی احتمالی بسیاری برای تأثیر منحصر به فرد X1 بر Y وجود دارد که حتی اگر ضریب بی طرفانه باشد، یک خطای استاندارد بزرگ خواهد داشت. این شرایط به عنوان تورم واریانس (variance inflation) شناخته می شود.
در چنین شرایطی برآورد ضریب نادرست است و به احتمال زیاد ضریب متفاوتی را در یک نمونه متفاوت خواهید گرفت. در شکل بالا و در حالتی که چند خطی بودن کامل است، دو پیش بینی کننده (X1 و X2) در حقیقت گیج شده اند.
در این حالت به سادگی نمی توان واریانس موجود در یکی از پیش بینی کننده ها را از واریانس موجود در دیگری جدا کرد.
برای حل مساله در چنین شرایطی استفاده از رگرسیون لاسو (Lasso) و یا elastic net پیشنهاد شده است.
منابع