علاقه مند به تحلیل داده و داده کاوی. لینکدین:https://www.linkedin.com/in/mohammad-fatehi-09654062/
تحلیل رگرسیون
در بسیاری از نرم افزارهای داده کاوی هنگام محاسبه رگرسیون نتایج زیادی محاسبه و نمایش داده می شود. در نوشتار زیر قصد داریم به برخی از آنها اشاره کنیم:
1. باقیمانده ها (Residuals): باقیمانده برابر تقاوت بین مقادیر مشاهده شده و مقادیر پیش بینی شده است. این مقادیر باید دارای توزیع نرمال و یا نزدیک به توزیع نرمال باشند که از طریق رسم شکل می توان این مساله را مشاهده کرد. نرمال بودن باقیمانده ها به این معناست که میانگین اختلاف بین باقیمانده و مقادیر واقعی نزدیک به صفر است. هر چه توزیع باقیمانده به توزیع نرمال نزدیک تر باشد مدل بهتری برازش شده است.
2. ضرایب تخمین زده شده (Estimate Coefficient): مقدار تخمینی شیب خط و عرض از مبدا محاسبه شده است. در شکل فوق مقدار عرض از مبدا برابر 48.971770 و مقدار شیب خط برابر 0.219687 است.
3. خطای استاندارد ضرایب (Standard error of coefficient): این معیار دقت تخمین ضرایب را اندازه می گیرد. همچنین یک تخمین از انحراف استاندارد ضرایب است. مقدار کمتر این معیار نشان دهنده دقت بیشتر مدل است. برای مثال دو متغیر قابل پیش بینی مانند فشار و دما داریم. در مدل رگرسیون خطای استاندارد برای دما برابر 0.64 و فشار 0.0087 به دست آمده است. بنابراین مدل توانایی پیش بینی فشار را با دقت بیشتری نسبت به دما دارد.
4. ضرایب (t-value of the coefficients): این مقدار برابر نسبت ضریب تخمینی به مقدار خطای استاندارد است. این معیار احتمال اینکه یک ضریب تخمینی غیر صفر باشد را اندازه می گیرد. مقدار بزرگتر این معیار نشان دهنده این است که احتمال کمتری وجود دارد که مقدار واقعی ضریب برابر صفر بوده باشد. چنین مدلی مطلوب است.
5. ضرایب (p-value of the coefficients): از این معیار برای سنجش فرض صفر استفاده می کنند. فرض صفر بیانگر صفر بودن ضرایب است. به عبارت دیگر فرض صفر بیان می کند که متغیرهای مورد بررسی اثری بر روی مدل ندارند. این معیار سطح معناداری مشاهده شده برای آزمون است. این معیار با مقدار آلفا مقایسه می شود. معمولا مقدار آلفا برابر 0.05 درنظر گرفته می شود. اگر پی-مقدار از مقدار آلفا کمتر باشد فرض مقابل را قبول می کنیم. مقدار کمتر این معیار بیانگر مطلوبیت مدل است. به این معنا که متغیر پیش گویی کننده انتخابی، در قدرت پیش گویی مدل تاثیر داشته است.
6. سطح معناداری (The level of significance): این معیار براساس پی-مقدار محاسبه می شود. این معیار در مدل به شکل ستاره هایی نمایش داده شده است. تعداد بیشتر ستاره ها بیانگر بهتر بودن ضرایب است. یک نقطه تیره نشان می دهد که معیار ضرایب ناکافی است و می توان از مدل کنار گذاشته شود. به عبارت دیگر سه ستاره بیانگر سطح اطمینان 100 درصد و دو ستاره بیانگر سطح اطمینان 99 درصد است.
7. خطای استاندارد باقیمانده یا درجه آزادی (Residual standard error / degree of freedom): این معیار میزان انحراف استاندارد باقیمانده ها است. هر چه این مقدار به صفر نزدیکتر باشد بهتر است.
8. ضریب تعیین (Multiple R-Squared): این معیار نشان دهنده نسبت مجموع واریانس های قابل توضیح توسط متغیرهای پیش بینی یا مدل رگرسیونی است. این ضریب در بازه 0 و 1 قرار می گیرد. اگر این معیار برابر 0.99 باشد به این معناست که مجموعه متغیرهای به کار رفته در مدل 0.99 درصد از تنوع مدل را توضیح می دهد.
9. ضریب تعیین تعدیل شده (Adjusted R-Squared): ضریب تعیین با اضافه شدن متغیرهای پیش گویی کننده افزایش می یابد. برای جلوگیری از این اتفاق، از ضریب تعیین تعدیل شده استفاده می شود. ضریب تعیین تعدیل شده بالاتر نشان دهنده مدل بهتری است.
10. معیار F-statistics: این معیار F-test را روی مدل اجرا می کند. این معیار مدل را با پارامترهای کمتر مورد آزمون قرار می دهد. چنانچه مدل فعلی بهتر از مدل با پارامترهای کمتر باشد، در نتیجهF-statistics ، پی- مقدار بالاتری خواهد داشت. یک مدل مطلوب خواهد بود زمانی که F-statistics ، دارای پی-مقدار بالاتری باشد.
نکته: اگر حجم داده ها کم باشد یا multicolinearity در متغیرهای مستقل ورودی وجود داشته باشد، پی- مقدارها مقادیر بزرگی خواهند داشت.
مطلبی دیگر از این انتشارات
مدیریت حافظه در جاوا اسکریپت
مطلبی دیگر از این انتشارات
دیتاژورنالیسم یا دادهنگاری چیست؟
مطلبی دیگر از این انتشارات
کلان داده ابری (Big Data as a Service) چیست؟