رگرسیون در آمار به عنوان ابزاری برای پیشبینی مقدار یک متغیر وابسته از روی مقادیر یک یا چند متغیر مستقل، مورد استفاده قرار میگیرد. کاربردهای رگرسیون متعدد است و تقریباً در هر زمینهای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی و علوم اجتماعی صورت میپذیرد.
متغیر وابسته را معمولاً با y و متغیرهای مستقل را با x نمایش میدهند. به طور کلی، اهداف تحلیل رگرسیون عبارت اند از:
اگر در مدل رگرسیونی حضور بیش از یک متغیر مستقل معنادار باشد، در این صورت، مدل را مدل رگرسیونی چندگانه مینامیم. در حالت کلی متغیر پاسخ y ممکن است به k متغیر مستقل بستگی داشته باشد. بنابراین مدل
یک مدل رگرسیون چندگانه خطی با k متغیر مستقل نامیده میشود. پارامترهای
ضرایب رگرسیون نامیده میشوند. این مدل یک ابرصفحه در فضای k بُعدی از متغیرهای رگرسیونی x است. پارامتر βj نشان دهنده تغییرات مورد انتظار متغیر پاسخ به ازای یک واحد تغییر در xj است، وقتی که همه متغیرهای رگرسیونی دیگر، ثابت باشند. به همین جهت پارامترهای
ضرایب جزئی رگرسیون نامیده میشوند. همچنین ε عبارت خطا یا «مانده» نام دارد که اختلاف بین مقدار مشاهده شده و مقدار برازش شدهی متغیر وابسته را نشان میدهد:
فرض میشود که خطاها، «متغیر تصادفی» (Random Variable) با میانگین صفر و انحراف استاندارد σ هستند و به علاوه مقادیر آنها ناهمبستهاند، یعنی اینکه مقدار یک خطا، بستگی به مقدار هر خطای دیگر ندارد. همچنین در فرضیات این مدل، تغییرات خطا، مستقل از متغیر x است.
روشهای مختلفی برای تعریف خطا و حداقل کردن آن وجود دارد. معیاری که در مدل رگرسیون چندگانه به کار میرود، کمینه کردن مجموع مربعات خطا است. فرض کنید n (بزرگتر از k) مشاهده در دسترس است.
در این صورت با توجه به مدل رگرسیون چندگانه، تابع مجموع مربعات خطا به صورت زیر است:
سپس برای برآورد ضرایب رگرسیونی، تابع S را نسبت به
مینیمم میکنیم. به این منظور، مشتق تابع S نسبت به ضرایب رگرسیونی را برابر صفر قرار میدهیم:
در این صورت p=k+1 معادلهی نرمال برای برآورد k+1 ضریب رگرسیونی
وجود دارد.
همچنین برای سادگی بیشتر، میتوان این ضرایب را با استفاده از فرم ماتریسی مدل رگرسیونی چندگانه، برآورد کرد. فرم ماتریسی مدل به صورت زیر خواهد بود:
که در آن y یک بردار n*1 از مشاهدات و X یک ماتریس n*p از سطوح متغیرهای رگرسیونی، β یک بردار p*1 از ضرایب رگرسیون و ε یک بردار n*1 از خطاهای تصادفی است. در این صورت تابع S به فرم
است و همچنین برآورد بردار β به صورت
خواهد بود.
لازم به ذکر است به دلیل نرمال و ناهمبسته بودن جملات خطا ،میتوان نتیجه گرفت که خطاها، متغیرهای تصادفی مستقل هستند.
در این بخش از دیتاست "marketing" که در بستهی "datarium" از نرم افزار R قرار دارد، استفاده خواهیم کرد. در این مجموعه داده، تأثیر سه رسانه تبلیغاتی یوتیوب، فیس بوک و روزنامه بر میزان فروش یک شرکت، مورد بررسی قرار گرفته است. در واقع از مقدار هزینه شده در این رسانههای تبلیغاتی در پیشبینی واحدهای فروش، استفاده میشود. همچنین مشاهدات مربوط به میزان فروش، پس از ۲۰۰ بار تکرار با استفاده از بودجههای مختلف برای تبلیغات (به هزار دلار)، جمع آوری شدهاند.
برای تحلیل این دیتاست، ابتدا بسته ی "datarium" را به صورت زیر در نرم افزار R، نصب میکنیم:
سپس دیتاست "marketing" را بارگذاری خواهیم کرد:
به منظور بررسی اثرات اصلی و متقابل سه متغير مستقل شامل یوتیوب (youtube)، فیس بوک (facebook) و روزنامه (newspaper) بر متغير وابسته میزان فروش شرکت (sales) از يك تابع خطي OLS (که مخفف عبارت "ordinary least squares" به معنای «ﻛﻤﺘﺮﻳﻦ ﺗﻮانهای دوم ﻋﺎدي») استفاده میکنیم. به منظور برازش خط رگرسيوني نيز از دستور lm بهره گرفته شد.
در خروجی دستور summary برای مدل کامل اطلاعات زیر مشاهده میشود:
بنابراین با توجه به خروجی نرم افزار، میتوان نتیجه گرفت که بودجه تبلیغاتی هزینه شده در رسانهی یوتیوب بر میزان فروش شرکت مورد بررسی، تاثیرگذار است. زیرا مقدار p-value که در جدول فوق نشان داده شده است، کمتر از ۰/۰۵ است. همچنین اثر متقابل بین یوتیوب و فیسبوک نیز تاثیر معناداری بر میزان فروش شرکت دارد. مقادیر R-squared و Adjusted R-squared به منظور بررسی مناسبت مدل، در خروجی دستور فوق محاسبه شدهاند. این کمیتها، واریانس یا پراکندگی دادهها را که توسط مدل شناسایی شده، بیان میکنند و بزرگ بودن مقدار آنها (نزدیک به ۱)، دلیل بر مناسب بودن مدل است. در اینجا مقدار Adjusted R-squared برای مدل فوق برابر با 0.97 برآورد شده است.
در ادامه به منظور بررسی مفروضات مدل رگرسیون خطی چندگانه، از تابع plot در نرم افزار R استفاده میکنیم. این تابع، چهار نمودار در خروجی ارائه میدهد:
اکنون مفروضات مدل را با استفاده از خروجی تابع plot مورد تحلیل قرار میدهیم:
با توجه به روند تصادفی مشاهدات در این نمودار(دادهها بدون هیچ الگویی در نمودار پراکنده هستند)، مشخص است که ماندهها به طور تصادفی، حول میانگین صفر تغییر میکنند. پس فرض تصادفی بودن و صفر بودن میانگین ماندهها، تایید میشود.
در این نمودار، چندکهای توزیع نرمال با چندکهای حاصل از ماندههای استاندارد شده ترسیم شده است. اگر توزیع ماندهها مانند توزیع متغیر تصادفی نرمال باشد، نقطههای ترسیمی باید روی یک خط راست قرار گرفته باشند. همانطور که مشخص است برخی از مشاهدات انحراف جزئی از نیمساز ربع اول و سوم را گزارش میدهند. در نتیجه برای بررسی دقیقتر از آزمون شاپیرو استفاده میکنیم:
با توجه به p-value ، فرض صفر این آزمون یعنی نرمال بودن مانده ها در سطح معناداری 0.01 پذیرفته میشود.
برای بررسی فرض ثابت بودن واریانس ماندهها، از این نمودار استفاده میشود. اگر مشاهدات در این نمودار، به صورتی باشند که شکل یک قیف افقی را نمایش دهند، مشخص است که واریانس ماندهها با افزایش مقادیر برازش شده، افزایش مییابد و فرض ثبات واریانس برای ماندهها را نمیتوان تایید کرد. همچنین برای بررسی دقیق تر میتوان از تبدیل باکس کاکس به صورت زیر استفاده کرد:
ا
با توجه به بازه اطمینانی که باکس کاکس برای lambda بدست آورده، چون 1 در این بازه نمیافتد، ثبات واریانس در این مدل برای ماندهها وجود ندارد. برای رفع این مشکل از تبدیل باکس کاکس استفاده خواهیم کرد.
با توجه به خروجی نرم افزار برای تبدیل باکس کاکس، اگر متغیر وابسته sales را به توان دوم برسانیم و سپس مدل را برازش دهیم، در این صورت ثبات واریانس حاصل خواهد شد. در نتیجه مدل جدید به صورت زیر برازش داده میشود:
در این مدل اثرات اصلی متغیرهای مستقل یوتیوب و فیس بوک و همچنین اثر متقابل این دو متغیر بر میزان فروش شرکت تاثیر معنادار دارند. زیرا مقدار p-value که در جدول فوق نشان داده شده است، کمتر از ۰/۰۵ است.
همچنین چهار نمودار فوق را برای مدل جدید ترسیم میکنیم:
در نتیجه با توجه به خروجی نرم افزار، فرض تصادفی بودن و نرمال بودن ماندهها و همچنین ثبات واریانس برای مدل جدید برقرار است.
در این نمودار تحلیل حساسیت مورد بررسی قرار میگیرد. همچنین برای سنجش فاصله بین نقطهها از فاصله کوک (Cook’s distance) استفاده شده است. در حقیقت در این نمودار به دنبال مشاهدات دورافتاده هستیم که باید از مدل حذف شوند. داده دور افتاده (داده پرت یا داده نویزی هم گفته میشود) دادههایی هستند که نسبت به سایر دادههای در دست بررسی، تفاوت قابل ملاحظهای داشته باشد و همچنین رفتار متفاوتی ارائه کنند. با توجه به نمودار فوق دادهای که فاصله ی خیلی زیاد از دیگر مشاهدات داشته باشد، مشاهده نمیگردد.
به این ترتیب در این مقاله مفهوم رگرسیون خطی چندگانه، برآورد ضرایب رگرسیونی و همچنین بررسی مفروضات این مدل را با استفاده از یک مثال کاربردی در نرم افزار R، بررسی و تحلیل کردیم.