روزبه شریف
روزبه شریف
خواندن ۴ دقیقه·۳ سال پیش

توضیح رگرسیون خطی و رگرسیون لجستیک به زبان ساده

رگرسیون خطی و رگرسیون لجستیک
رگرسیون خطی و رگرسیون لجستیک


یکی از ابزارهای سنجش رابطه و مدل سازی استفاده از ابزار آماری رگرسیون است.در حال حاضر برای تحلیل و کشف مدل روی کلان داده ها، روش های مختلف رگرسیون توسعه پیدا کرده است. یکی از آنها رگرسیون خطی است که در علوم مختلف مانند فیزیک، شیمی و علوم زیستی کاربرد دارد.

برای اولین بار در سال 1877 شخصی به نام فرانسیس گالتون از رگرسیون استفاده کرد. حاصل تحقیقات وی با استفاده از رگرسیون نشان داد کودکانی که از والدین بلند قامت متولد می شوند به قد متوسط گرایش دارند. با استفاده از این آنالیز و ابزار آماری می توان رابطه ی بین متغیرها را شناسایی کرد. در این مبحث افراد به دنبال پیدا کردن رابطه بین متغیر وابسته (پاسخ) و متغیرهای مستقل (پیشگو) هستند.

برای درک بهتر این دو دسته متغیر به این مثال توجه کنید. در حوادثی که مربوط به رانندگی هستند متغیرهای وابسته و مستقل وجود دارند. مستقل ها کیفیت و وضعیت جاده، شرایط راننده، استحکام و امنیت خودرو، وضعیت آب و هوا هستند. و متغیر وابسته میزان خسارت می باشد. نتیجه ی آنالیز رگرسیون بهترین پیشگویی یک متغیر وابسته را از روی چند متغیر مستقل نشان می دهد. با توجه به نوع متغیرهاغ و اهدافی که افراد در پروژه دارند مدل رگرسیون متفاوت است.

متفیرهای مستقل می توانند پیوسته و یا گسسته باشند اما متغیرهای وابسته در بیشتر موارد پیوسته هستند.

معرفی مدل های مختلف رگرسیون

ساده ترین مدل، رگرسیون خطی است. این مدل خود شامل دو دسته می شود، خطی ساده و خطی چندگانه. این مدل نیاز بسیاری از تحلیل ها را برآورده کرده و پاسخگو است. اما در برخی از مسائل متغیر وابسته و رگرسیونی با تابع غیرخطی معلوم به هم مربوط می شوند. در این مواقع از رگرسیون لجستیک استفاده می شود. این مدل برای پیش بینی متغیرهای دو حالتی الگوی مناسبی است. در ابتدا بیشترین کاربرد این مدل در پزشکی بوده است. اما امروزه در تمامی زمینه های علمی کاربرد دارد.

علاوه بر لجستیک مدل های غیرخطی دیگری نیز وجود دارد مانند مدل های

  • معکوس
  • توانی
  • سهمی
  • نمایی
  • مرکب
  • رشد
  • منحنی s
  • عکس نمونه

توضیح رگرسیون خطی با مثال

همانطور که گفته شد برای تخمین رابطه بین دو متغیر کمی از این مدل استفاده می شود زمانی می توانید از رگرسیون خطی استفاده کنید که بخواهید:

  • رابطه بین دو متغیر (مثلاً رابطه بین بارندگی و فرسایش خاک) چقدر قوی است.
  • مقدار متغیر وابسته در مقدار معینی از متغیر مستقل (مثلاً میزان فرسایش خاک در سطح معینی از بارندگی).

مثال:

فرض کنید شما یک محقق اجتماعی هستید که قصد دارید رابطه بین درآمد و میزان شادی افراد را بدست آورید . شما از 500 نفر که درآمدشان از 3میلیون تا 20 میلیون متغیر است، نظرسنجی می‌کنید و از آنها می‌خواهید که شادی خود را در مقیاس 1 تا 10 رتبه‌بندی کنند.

متغیر مستقل (درآمد) و متغیر وابسته (شادی) هر دو کمی هستند، بنابراین می توانید یک تحلیل رگرسیون انجام دهید تا ببینید آیا رابطه خطی بین آنها وجود دارد یا خیر.

رگرسیون خطی
رگرسیون خطی


توضیح رگرسیون لجستیک با مثال

رگرسیون لجستیک چیست؟

یک الگوریتم طبقه بندی است. برای پیش بینی یک نتیجه مضاعف (binary outcome) بر اساس مجموعه ای از متغیرهای مستقل استفاده می شود.

این به چه معناست؟ یک نتیجه باینری نتیجه ای است که در آن فقط دو سناریو ممکن وجود دارد. یا رویداد اتفاق می افتد (1) یا رخ نمی دهد (0). متغیرهای مستقل آن دسته از متغیرها یا عواملی هستند که ممکن است بر نتیجه (یا متغیر وابسته) تأثیر بگذارند.

بنابراین: رگرسیون لجستیک نوع صحیح تحلیلی است که هنگام کار با داده های باینری استفاده می شود. می‌دانید که زمانی با داده‌های باینری سروکار دارید که خروجی یا متغیر وابسته ماهیت دوگانه یا مقوله‌ای دارد. به عبارت دیگر، اگر در یکی از دو دسته قرار گیرد (مانند «بله» یا «نه»، «گذر» یا «شکست» و.....

رگرسیون لجستیک
رگرسیون لجستیک


اکنون از نظر تئوری می دانید که رگرسیون لجستیک چیست. اما آن را بر چه نوع سناریوهای دنیای واقعی می توان اعمال کرد؟ چرا مفید است؟

رگرسیون لجستیک برای محاسبه احتمال وقوع یک رویداد مضاعف و برای مقابله با مسائل طبقه بندی استفاده می شود. به عنوان مثال، پیش‌بینی اینکه آیا ایمیل دریافتی هرزنامه است یا هرزنامه نیست، یا پیش‌بینی اینکه آیا یک تراکنش با کارت اعتباری تقلبی است یا نه. در زمینه پزشکی، رگرسیون لجستیک ممکن است برای پیش بینی خوش خیم یا بدخیم بودن تومور استفاده شود.

در بازاریابی، ممکن است برای پیش بینی اینکه آیا یک کاربر خاص (یا گروهی از کاربران) محصول خاصی را خریداری می کنند یا خیر، استفاده می شود. یک شرکت آموزش آنلاین ممکن است از رگرسیون لجستیک برای پیش بینی اینکه آیا دانش آموز دوره خود را به موقع کامل می کند یا خیر استفاده کند.

همانطور که می بینید، رگرسیون لجستیک برای پیش بینی احتمال همه نوع نتایج «بله» یا «نه» استفاده می شود. با پیش‌بینی چنین نتایجی، رگرسیون لجستیک به تحلیلگران داده (و شرکت‌هایی که برای آنها کار می‌کنند) کمک می‌کند تا تصمیمات آگاهانه بگیرند. در طرح کلان، این کمک می کند تا هم ریسک ضرر را به حداقل برسانیم و هم به بهینه سازی هزینه ها به منظور به حداکثر رساندن سود کمک می شود. و این چیزی است که هر شرکتی می خواهد.

یک شرکت لوازم آرایشی ممکن است بخواهد تعیین کند که آیا یک مشتری خاص احتمالاً به پیشنهاد تبلیغاتی یکی بخر دو تا ببر در محدوده مراقبت از پوست خود پاسخ مثبت می دهد یا خیر. در این صورت، آنها ممکن است از رگرسیون لجستیک برای ابداع مدلی استفاده کنند که پیش‌بینی کند مشتری «پاسخ‌دهنده» یا «غیرپاسخ‌دهنده» خواهد بود. بر اساس نتایج بدست آمده، آنها سپس ایده بهتری در مورد اینکه کجا باید تلاش های بازاریابی خود را متمرکز کنند، خواهند داشت.

رگرسیون لجستیکرگرسیون خطیآمارتحلیل آماری
شاید از این پست‌ها خوشتان بیاید