خواندن ۸ دقیقه·۵ سال پیش

معرفی مدل رگرسیون چندگانه

معرفی مدل رگرسیون چندگانه و بررسی مفروضات آن در نرم افزار R:

رگرسیون در آمار به عنوان ابزاری برای پیش‌بینی مقدار یک متغیر وابسته از روی مقادیر یک یا چند متغیر مستقل، مورد استفاده قرار می‌گیرد. کاربردهای رگرسیون متعدد است و تقریباً در هر زمینه‌ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی و علوم اجتماعی صورت می‌پذیرد.

متغیر وابسته را معمولاً با y و متغیرهای مستقل را با x نمایش می‌دهند. به طور کلی، اهداف تحلیل رگرسیون عبارت اند از:

توصیف داده‌ها: معمولاً محققان برای خلاصه کردن و توصیف داده‌ها، از معادلات ریاضی استفاده می‌کنند. تحلیل رگرسیونی برای گسترش چنین معادلاتی بسیار کاربردی و مؤثر است و چه بسا ابزاری بسیار مناسب‌تر از جدول و حتی نمودار خواهد بود.
برآورد پارامترها: اهمیت نسبی هر یک از متغیرهای مستقل در پیش‌بینی متغیر وابسته از طریق برآورد ضرایب آنها با استفاده از مدل‌های رگرسیونی صورت می‌گیرد.
پیشگویی: از کاربردهای مهم مدل‌های رگرسیونی، پیشگویی متغیر وابسته با توجه به متغیرهای مستقل است. در حقیقت، پیشگویی، در شاخه‌های بسیار کاربردی از آمار، مانند داده‌کاوی، مورد استفاده قرار می‌گیرد. به عنوان یک مثال کاربردی، می‌توان با استفاده از اطلاعاتی مانند داشتن کارت اعتباری، جنسیت، سن و میزان درآمد سالانه افراد، پیش بینی کرد که آیا این فرد از بیمه‌ی عمر استفاده می‌کند یا خیر.
کنترل: مدل‌های رگرسیونی ممکن است به منظور کنترل نیز مورد استفاده قرار گیرند. در واقع، با استفاده از مدل رگرسیون چندگانه، می‌توان اثر منحصر به فرد یک یا چند متغیر مستقل را پس از کنترل یک یا چند متغیر کمکی مورد بررسی قرار داد.

اگر در مدل رگرسیونی حضور بیش از یک متغیر مستقل معنادار باشد، در این صورت، مدل را مدل رگرسیونی چندگانه می‌نامیم. در حالت کلی متغیر پاسخ y ممکن است به k متغیر مستقل بستگی داشته باشد. بنابراین مدل

یک مدل رگرسیون چندگانه خطی با k متغیر مستقل نامیده می‌شود. پارامترهای

ضرایب رگرسیون نامیده می‌شوند. این مدل یک ابرصفحه در فضای k بُعدی از متغیرهای رگرسیونی x است. پارامتر βj نشان دهنده تغییرات مورد انتظار متغیر پاسخ به ازای یک واحد تغییر در xj است، وقتی که همه متغیرهای رگرسیونی دیگر، ثابت باشند. به همین جهت پارامترهای

ضرایب جزئی رگرسیون نامیده می‌شوند. همچنین ε عبارت خطا یا «مانده» نام دارد که اختلاف بین مقدار مشاهده شده و مقدار برازش شده‌ی متغیر وابسته را نشان می‌دهد:

فرض می‌شود که خطاها، «متغیر تصادفی» (Random Variable) با میانگین صفر و انحراف استاندارد σ هستند و به علاوه مقادیر آنها ناهمبسته‌اند، یعنی اینکه مقدار یک خطا، بستگی به مقدار هر خطای دیگر ندارد. همچنین در فرضیات این مدل، تغییرات خطا، مستقل از متغیر x‌ است.

برآورد پارامترهای مدل:

روش‌های مختلفی برای تعریف خطا و حداقل کردن آن وجود دارد. معیاری که در مدل رگرسیون چندگانه به کار می‌رود، کمینه کردن مجموع مربعات خطا است. فرض کنید n (بزرگتر از k) مشاهده در دسترس است.

در این صورت با توجه به مدل رگرسیون چندگانه، تابع مجموع مربعات خطا به صورت زیر است:

سپس برای برآورد ضرایب رگرسیونی، تابع S را نسبت به

مینیمم می‌کنیم. به این منظور، مشتق تابع S نسبت به ضرایب رگرسیونی را برابر صفر قرار می‌دهیم:

در این صورت p=k+1 معادله‌ی نرمال برای برآورد k+1 ضریب رگرسیونی

وجود دارد.

همچنین برای سادگی بیشتر، می‌توان این ضرایب را با استفاده از فرم ماتریسی مدل رگرسیونی چندگانه، برآورد کرد. فرم ماتریسی مدل به صورت زیر خواهد بود:

که در آن y یک بردار n*1 از مشاهدات و X یک ماتریس n*p از سطوح متغیرهای رگرسیونی، β یک بردار p*1 از ضرایب رگرسیون و ε یک بردار n*1 از خطاهای تصادفی است. در این صورت تابع S به فرم

است و همچنین برآورد بردار β به صورت

خواهد بود.

مفروضات مدل رگرسیونی چندگانه:

رابطه بین x و y خطی است.
جملات خطا ( ε ) مستقل و دارای توزیع نرمال با میانگین صفر و واریانس ثابت می‌باشند .

لازم به ذکر است به دلیل نرمال و ناهمبسته بودن جملات خطا ،می‌توان نتیجه گرفت که خطاها، متغیرهای تصادفی مستقل هستند.

یک مثال کاربردی در نرم افزار R:

در این بخش از دیتاست "marketing" که در بسته‌ی "datarium" از نرم افزار R قرار دارد، استفاده خواهیم کرد. در این مجموعه داده، تأثیر سه رسانه تبلیغاتی یوتیوب، فیس بوک و روزنامه بر میزان فروش یک شرکت، مورد بررسی قرار گرفته است. در واقع از مقدار هزینه شده در این رسانه‌های تبلیغاتی در پیش‌بینی واحدهای فروش، استفاده می‌شود. همچنین مشاهدات مربوط به میزان فروش، پس از ۲۰۰ بار تکرار با استفاده از بودجه‌های مختلف برای تبلیغات (به هزار دلار)، جمع آوری شده‌اند.

برای تحلیل این دیتاست، ابتدا بسته ی "datarium" را به صورت زیر در نرم افزار R، نصب می‌کنیم:

سپس دیتاست "marketing" را بارگذاری خواهیم کرد:

به منظور بررسی اثرات اصلی و متقابل سه متغير مستقل شامل یوتیوب (youtube)، فیس بوک (facebook) و روزنامه (newspaper) بر متغير وابسته میزان فروش شرکت (sales) از يك تابع خطي OLS (که مخفف عبارت "ordinary least squares" به معنای «ﻛﻤﺘﺮﻳﻦ ﺗﻮان‌های دوم ﻋﺎدي») استفاده می‌کنیم. به منظور برازش خط رگرسيوني نيز از دستور lm بهره گرفته شد.

در خروجی دستور summary برای مدل کامل اطلاعات زیر مشاهده می‌شود:

برآورد (Estimate): مقدار برآورد ضرایب رگرسیونی در مدل را گزارش می‌کند.
خطای استاندارد (Std. Error): خطای استاندارد برآورد ضرایب رگرسیونی را گزارش می‌دهد که نشان دهنده‌ی دقت ضرایب است. هرچه خطای استاندارد بزرگتر باشد، اطمینان در مورد برآورد، کمتر است.
آماره‌ی t-student : این آماره از طریق تقسیم برآورد ضرایب (ستون دوم) بر خطای استاندارد (ستون سوم) به دست می‌آید.
p-مقدار: p-مقدار متناظر با آماره‌ی t است. هرچه p-مقدار کوچکتر باشد، معناداری برآورد ضرایب بیشتر است و برای مثال اگر می‌خواهیم معنی‌داری را با اطمینان ۹۵ درصد بررسی کنیم در صورتی که p-مقدار از ۰.۰۵ کمتر باشد فرض برابری ضرایب با صفر رد شده و ضریب مورد نظر معنی‌دار است.

بنابراین با توجه به خروجی نرم افزار، می‌توان نتیجه گرفت که بودجه تبلیغاتی هزینه شده در رسانه‌ی یوتیوب بر میزان فروش شرکت مورد بررسی، تاثیرگذار است. زیرا مقدار p-value که در جدول فوق نشان داده شده است، کمتر از ۰/۰۵ است. همچنین اثر متقابل بین یوتیوب و فیس‌بوک نیز تاثیر معناداری بر میزان فروش شرکت دارد. مقادیر R-squared و Adjusted R-squared به منظور بررسی مناسبت مدل، در خروجی دستور فوق محاسبه شده‌اند. این کمیت‌ها، واریانس یا پراکندگی داده‌ها را که توسط مدل شناسایی شده، بیان می‌کنند و بزرگ بودن مقدار آنها (نزدیک به ۱)، دلیل بر مناسب بودن مدل است. در اینجا مقدار Adjusted R-squared برای مدل فوق برابر با 0.97 برآورد شده است.

در ادامه به منظور بررسی مفروضات مدل رگرسیون خطی چندگانه، از تابع plot در نرم افزار R استفاده می‌کنیم. این تابع، چهار نمودار در خروجی ارائه می‌دهد:

نمودار باقی‌مانده در مقابل مقدارهای پیش‌بینی شده.
نمودار Q-Q plot برای بررسی نرمال بودن مانده‌ها که در آن چندک‌های توزیع نرمال در مقابل مانده‌های استاندارد شده، ترسیم می‌شود.
ثابت بودن واریانس باقی‌مانده‌ها با رسم مقدارهای پیش‌بینی شده در مقابل ریشه دوم باقی‌مانده‌های استاندارد.
رسم نمودار باقی‌مانده در مقابل میزان حساسیت مشاهدات که نقش هر مشاهده در صحت مدل رگرسیونی را نشان می‌دهد.

اکنون مفروضات مدل را با استفاده از خروجی تابع plot مورد تحلیل قرار م‌یدهیم:

نمودار مقدارهای برازش شده در برابر مانده‌ها (Residuals vs Fitted):

با توجه به روند تصادفی مشاهدات در این نمودار(داده‌ها بدون هیچ الگویی در نمودار پراکنده هستند)، مشخص است که مانده‌ها به طور تصادفی، حول میانگین صفر تغییر می‌کنند. پس فرض تصادفی بودن و صفر بودن میانگین مانده‌ها، تایید می‌شود.

نمودار چندک‌های توزیع نرمال (Normal Q-Q):

در این نمودار، چندک‌های توزیع نرمال با چندک‌های حاصل از مانده‌های استاندارد شده ترسیم شده است. اگر توزیع مانده‌ها مانند توزیع متغیر تصادفی نرمال باشد، نقطه‌های ترسیمی باید روی یک خط راست قرار گرفته باشند. همانطور که مشخص است برخی از مشاهدات انحراف جزئی از نیمساز ربع اول و سوم را گزارش می‌دهند. در نتیجه برای بررسی دقیق‌تر از آزمون شاپیرو استفاده می‌کنیم:

با توجه به p-value ، فرض صفر این آزمون یعنی نرمال بودن مانده ها در سطح معناداری 0.01 پذیرفته می‌شود.

نمودار مقیاس-مکان (Scale-Location):

برای بررسی فرض ثابت بودن واریانس مانده‌ها، از این نمودار استفاده می‌شود. اگر مشاهدات در این نمودار، به صورتی باشند که شکل یک قیف افقی را نمایش دهند، مشخص است که واریانس مانده‌ها با افزایش مقادیر برازش شده، افزایش می‌یابد و فرض ثبات واریانس برای مانده‌ها را نمی‌توان تایید کرد. همچنین برای بررسی دقیق تر می‌توان از تبدیل باکس کاکس به صورت زیر استفاده کرد:

با توجه به بازه اطمینانی که باکس کاکس برای lambda بدست آورده، چون 1 در این بازه نمی‌افتد، ثبات واریانس در این مدل برای مانده‌ها وجود ندارد. برای رفع این مشکل از تبدیل باکس کاکس استفاده خواهیم کرد.

با توجه به خروجی نرم افزار برای تبدیل باکس کاکس، اگر متغیر وابسته sales را به توان دوم برسانیم و سپس مدل را برازش دهیم، در این صورت ثبات واریانس حاصل خواهد شد. در نتیجه مدل جدید به صورت زیر برازش داده می‌شود:

در این مدل اثرات اصلی متغیرهای مستقل یوتیوب و فیس بوک و همچنین اثر متقابل این دو متغیر بر میزان فروش شرکت تاثیر معنادار دارند. زیرا مقدار p-value که در جدول فوق نشان داده شده است، کمتر از ۰/۰۵ است.

همچنین چهار نمودار فوق را برای مدل جدید ترسیم می‌کنیم:

در نتیجه با توجه به خروجی نرم افزار، فرض تصادفی بودن و نرمال بودن مانده‌ها و همچنین ثبات واریانس برای مدل جدید برقرار است.

نمودار مانده‌ها در برابر مشاهدات نافذ (Residuals vs Leverage):

در این نمودار تحلیل حساسیت مورد بررسی قرار می‌گیرد. همچنین برای سنجش فاصله بین نقطه‌ها از فاصله کوک (Cook’s distance) استفاده شده است. در حقیقت در این نمودار به دنبال مشاهدات دورافتاده هستیم که باید از مدل حذف شوند. داده دور افتاده (داده پرت یا داده نویزی هم گفته می‌شود) داده‌هایی هستند که نسبت به سایر داده‌های در دست بررسی، تفاوت قابل ملاحظه‌ای داشته باشد و همچنین رفتار متفاوتی ارائه کنند. با توجه به نمودار فوق داده‌ای که فاصله ی خیلی زیاد از دیگر مشاهدات داشته باشد، مشاهده نمی‌گردد.

به این ترتیب در این مقاله مفهوم رگرسیون خطی چندگانه، برآورد ضرایب رگرسیونی و همچنین بررسی مفروضات این مدل را با استفاده از یک مثال کاربردی در نرم افزار R، بررسی و تحلیل کردیم.

ایردا مرجع تخصصی آمار ایران

رگرسیون خطیرگرسیون

ایردا - IRDA

مرجع تخصصی آمار ایران

شاید از این پست‌ها خوشتان بیاید