طراح تجربه کاربری ـ رابط کاربری ـ دیزاینر محصول
فرض های زیربنایی هر رگرسیون
?? بررسی فرض های زیربنایی هر رگرسیون ( Regression assumptions )
آنچه که در ابتدا برای انجام هر رگرسیون بایستی در نظر گرفته شود فرض های زیربنایی است که تحلیل ها براساس آن ها انجام می پذیرد. این نکته ای بسیار مهم است که متاسفانه اکثرا در تحلیلها مورد غفلت قرار می گیرد و نتایج آنرا دچار خدشه می سازد. فرض های زیربنایی برای یک الگوی رگرسیون به صورت زیر است:
۱) جمله ی خطا ε دارای میانگین صفر است .
۲) جمله ی خطا ε دارای واریانس ثابت است .
۳) جمله ی خطا ε ناهمبسته اند .
۴) جمله ی خطا ε دارای توزیع نرمال است .
اگر الگوی برازش داده شده مناسب باشد باید مانده ها ، فرض های بیان شده ی فوق را تایید کنند . مانده اختلاف بین مقدار مشاهده شده و مقدار برازش شده بوسیله ی الگو است ، یعنی به عبارت دیگر مانده اندازه ای از تغییر پذیری متغیر پاسخ است که بوسیله ی الگوی رگرسیون بیان نمی شود.
مانده ها را می توان نماینده ی خطاهای الگو در نظر گرفت و از این روی هر انحراف از فرض های چهارگانه ی رگرسیون در مورد خطاها باید در مانده ها دیده شود .
یک راه مناسب برای این که ببینیم الگوی رگرسیون تا چه اندازه برای برازش به داده ها خوب است ، رسم نمودار مانده ها می باشد .
نمودار مانده ها در مقابل مقادیر برازش شده
رسم نمودار مانده ها
در مقابل مقادیر برازش شده ی متناظر یعنی در پی بردن به انواع متداول مناسب نبودن الگو مفید است. اگر مدل برازش شده مناسب باشد این نمودار بایستی نسبت به نقطه ی e=0 متقارن بوده و نقاط حول این نقطه به طور یکنواخت پراکنده شده باشند . این وضعیت ثابت بودن واریانس خطاها را نشان می دهد.
در وضعیتی اگر متوجه ثابت نبودن واریانس جمله ی خطا نشویم و یا به آن اعتنا نکنیم ، با دو مشکل زیر مواجه می شویم :
الف) فرمول های رگرسیونی معمول واریانس های مربوط به پارامترها را کمتر از آنچه که واقعا هست نشان می دهند .
ب) فواصل اطمینانی که محاسبه می کنیم دارای ضرایب اطمینان کمتری از آنچه تصور می کردیم خواهد بود.
برای ثابت شدن واریانس ها بنا به نظر تحلیلگر آمار از تبدیلات تثبیت کننده ی واریانس و یا روش کمترین توان دوم وزنی می توان استفاده نمود .
نمودار مانده ها در برابر مقادیر متغیر های پیشگو
رسم مانده ها در مقابل متغیر پیشگو نیز می تواند مفید باشد. در این نمودار یک طرح قیفی شکل عدم ثبات واریانس ها را نشان می دهد. در صورتی که نقاط به صورت یکنواخت پراکنده شده باشند، می توان ثابت بودن واریانس ها را نتیجه گرفت .
نمودار مانده ها در برابر ترتیب زمان :
در صورتی که دنباله ی زمانی که در آن داده ها جمع آوری شده اند معلوم باشد، رسم نمودار مانده ها در برابر ترتیب زمان می تواند مفید باشد . اگر این نمودار طرح خاصی نداشته باشد مبین فرض وجود استقلال است.
در صورتی که مانده ها در برابر زمان سیر افزایشی داشته باشند، نشان دهنده ی آن است که واریانس ها ثابت نبوده و به مرور زمان افزایش می یابد.
وجود یک روند غیرخطی در نمودار مانده ها بیانگر آن است که الگوی برازش داده شده نمی تواند مناسب باشد در این صورت دو امکان وجود دارد :
۱) نیاز به یک یا چند جمله ی اضافی در الگو احساس می شود .
۲) الگو نیاز به یک تبدیل مناسب مانند تبدیل لگاریم یا توان دوم و…روی متغیر(های) پیشگو دارد .
نمودار احتمال نرمال :
از آنجایی که در محاسبه ی آماره های t وF برای آزمون های رگرسیون و همچنین در محاسبه ی فواصل اطمینان، از فرض نرمال بودن خطاها استفاده می کنیم لذا انحراف های بزرگ از توزیع نرمال می تواند روی صحت و اعتبار نتایج بدست آمده تاثیرزیادی بگذارد. علاوه بر این در صورتی که خطاها از توزیع های با دنباله های باریک تر یا پهن تر از توزیع نرمال پیروی کنند ، ممکن است برازش کمترین توان های دوم نسبت به تغییر کوچکی در داده ها حساس باشد .یک روش ساده برای بررسی فرض نرمال بودن رسم نمودار احتمال نرمال مانده ها است. اگر را به صورت صعودی مرتب کرده و ها را در مقابل احتمال تجمعی رسم کنیم ، نقاط باید روی یک خط راست قرار گیرند.
وجود یک یا چند مانده ی بزرگ در این نمودار می تواند نشانه ای از وجود نقاط دور افتاده باشد که بایستی در مورد این نقاط تفحص بیشتری انجام شود .
✔️ منبع : تحلیل رگرسیون خطی ابزاری برای تحقیق، نوشته ی دکترحسینعلی نیرومند . انتشارات دانشگاه فردوسی مشهد.
مطلبی دیگر از این انتشارات
در باب هوش مصنوعی با شلوارک یا چرا قرنطینه را دوست دارم؟
مطلبی دیگر از این انتشارات
مِهداده (کلان داده) چیست؟ (۶)
مطلبی دیگر از این انتشارات
احراز هویت غیر حضوری در بورس با استفاده از هوش مصنوعی