رگرسیون خطی به زبان ساده (قسمت اول)

رگرسیون خطی با یک متغییر پیش بینی کننده

رگرسیون خطی یک تکنیک آماری بسیار قدرتمند است. خیلی از مردم هنگام خواندن اخباری که در آن خطوط مستقیم روی نمودارهای پراکندگی (نقطه ای) قرار می گیرند، با مدل های رگرسیونی آشنایی دارند. مدل های خطی را می توان برای پیش بینی یا ارزیابی این سئوال که آیا یک رابطه خطی بین یک متغیر عددی در محور افقی و میانگین آن متغیر عددی در محور عمودی وجود دارد استفاده کرد.

برازش یک خط بر داده ها

همانطور که در شکل زیرنشان داده شده رابطه بین دو متغیر را می توان با یک خط مستقیم مدل (رابطه خطی کامل) کرد. معادله این خط y=5+64.96x است. رابطه خطی کامل به این معنی است که فقط با دانستن مقدار x مقدار دقیق y را می دانیم. یک رابطه خطی کامل تقریباً در اکثر فرآیندهای طبیعی غیرواقعی و ناممکن است چرا؟!

به عنوان مثال، اگر درآمد یک خانواده را (x) در نظر بگیریم، این اطلاعات مفیدی در مورد میزان حمایت مالی مورد نیاز یک دانشجو توسط بورسیه دانشگاه (y) ارائه می دهد ولیکن این یک پیش‌بینی کامل نیست، زیرا عوامل دیگری فراتر از بودجه خانواده در حمایت مالی نقش دارند.

در مورد شکل زیر تعداد درخواست‌های دوازده خریدار جداگانه به طور همزمان برای خرید سهام یک شرکت بازرگانی ارسال شده و هزینه کل سهام گزارش شد. از آنجایی که هزینه با استفاده از فرمول خطی محاسبه می شود، تناسب خطی کامل است

بطور خلاصه رگرسیون خطی روشی آماری برای برازش یک خط بر داده ها است که در آن رابطه بین دو متغیر x و y را می توان با خط مستقیم بعلاوه مقداری خطا مدل کرد :

مقادیر b0 و b1 به ترتیب عرض از مبدا و شیب مدل را نشان می دهند و خطا با e نشان داده شده است. این مقادیر بر اساس داده ها محاسبه می شوند . داده‌های مشاهده‌شده یک نمونه تصادفی از یک جمعیت هدف است که ما علاقه‌مندیم درباره آن استنباط کنیم. وقتی از x برای پیش بینی y استفاده می کنیم، معمولا x را متغیر پیش بینی (predictor) و y را نتیجه (outcome)می نامیم همچنین به این نکته توجه کنید اغلب هنگام نوشتن مدل عبارت e را حذف می‌کنیم .چرا؟! زیرا تمرکز اصلی ما اغلب بر پیش‌بینی میانگین نتیجه است.

نکته دیگر اینکه به ندرت پیش می‌آید که همه داده‌ها کاملاً روی یک خط مستقیم قرار گیرند و معمولا داده‌ها به صورت ابری از نقاط ظاهر می شوند که حول یک خط مستقیم قرارگرفته اند، مانند نمونه‌هایی که در شکل زیر نشان داده شده‌اند. در نمودار اول یک روند خطی نزولی نسبتا قوی رامشاهده می کنیم که در آن فاصله نقاط داده ای نسبت به قدرت رابطه بین x و y (خط ترسیم شده) جزئی است. نمودار دوم یک روند صعودی را نشان می دهد که اگرچه مشهود است، اما به اندازه اولی قوی نیست. نمودار آخر یک روند نزولی بسیار ضعیف در داده ها را نشان می دهد، بنابراین ما به سختی می توانیم آن را متوجه شویم. در هر یک از این مثال‌ها، در مورد تخمین‌هایمان از پارامترهای مدل یعنی b0 و b1 ابهامی خواهیم داشت. به عنوان مثال، آیا باید خط را کمی به سمت بالا یا پایین حرکت دهیم، یا باید آن را بیشتر یا کمتر کج کنیم؟ در ادامه در مورد معیارهای line-fitting و همچنین در مورد عدم قطعیت مربوط به تخمین پارامترهای مدل یاد خواهیم گرفت.

شکل ها به ترتیب از سمت چپ
شکل ها به ترتیب از سمت چپ

همچنین مواردی وجود دارد که برازش یک خط مستقیم بر داده ها مفید نیست ، حتی اگر رابطه واضحی بین متغیرها وجود داشته باشد، یکی از این موارد در شکل زیر نشان داده شده است که در آن رابطه بسیار واضحی بین متغیرها وجود دارد ولی مشخصا این رابه خطی نیست.

استفاده از رگرسیون خطی برای پیش بینی در یک مساله

محققان اطلاعات مربوط به 104 مورد از موش های استرالیایی را جمع آوری کردند ، این اطلاعات شامل طول بدن هر موش، از سر تا دم و طول سر هر موش می باشد. شکل زیر نمودار پراکندگی برای طول سر (با واحد میلی متر) و طول بدن (با واحد سانتی متر) موش ها را نشان می دهد. هر نقطه نشان دهنده داده های مربوط به یک موش است. همانطور که مشخص است متغیرهای طول سر و طول بدن با هم مرتبط هستند چرا که موش هایی که طول بدن آنها بالاتر از حد متوسط می باشد معمولاً طول سرشان بالاتر از میانگین است. هر چند رابطه کاملاً خطی نیست ولیکن ترسیم ارتباط بین این متغیرها با یک خط مستقیم می تواند مفید باشد.

در ادامه ما می خواهیم رابطه بین متغیرهای طول سر و طول بدن را با استفاده از یک خط توصیف کنیم. در این مثال، از طول بدن (x) به عنوان متغیر پیش‌بینی‌کننده(predictor) برای پیش‌بینی طول سر (y) به عنوان متغییر نتیجه (outcome) استفاده می‌کنیم.

معادله این خط برابر است با :

علامت هت (hat) که روی y قرار گرفته برای نشان دادن این است که ما یک تخمین از مقدار این متغییر (y) خواهیم داشت (مقدار دقیقا برابر نیست) . حال با بدست آوردن این معادله می توانیم پیش‌بینی کنیم که بطور مثال اگر طول بدن یک موش 80 سانتی‌متر باشد طول سر آن برابر است با 88.2 میلیمتر (که البته این یک تخمین هست)

این مقدار تخمینی می تواند نشاندهنده میانگین مقادیر باشد .در واقع این معادله پیش‌بینی می‌کند که موش هایی با طول بدن 80 سانتی‌متر ، دارای میانگین طول سر 88.2 میلی‌متر خواهند بود. زمانی که فقط اطلاعات مربوط به طول بدن یک موش ( 80 سانتی متری) راداریم ، پیش بینی طول سر آن براساس میانگین، تخمین معقولی بنظر می رسد.ممکن است متغیرهای دیگری نیز وجود داشته باشد که به ما در پیش بینی طول سر موش ها کمک کند شاید هم این رابطه برای موش های نر کمی متفاوت از موش های ماده باشد، یا شاید هم برای موش های یک منطقه استرالیا در مقابل منطقه دیگر متفاوت باشد به هر صورت باید این نکته را به ذهن بسپاریم که این یک تخمین ساده براساس یک متغییر می باشد.برای روشن تر شدن موضوع بیایید نمودار رابطه بین طول بدن و طول سر موش ها را با در نظر گرفتن جنسیت آنها رسم کنیم اگر کم دقت کنیم به نظر می رسد که موش های نر (که با مثلث های آبی نشان داده شده اند) از نظر طول بدن و طول سر بزرگتر از موش های ماده (که با دایره های قرمز نشان داده شده اند) هستند.

ادامه ....