یکی از ابزارهای سنجش رابطه و مدل سازی استفاده از ابزار آماری رگرسیون است.در حال حاضر برای تحلیل و کشف مدل روی کلان داده ها، روش های مختلف رگرسیون توسعه پیدا کرده است. یکی از آنها رگرسیون خطی است که در علوم مختلف مانند فیزیک، شیمی و علوم زیستی کاربرد دارد.
برای اولین بار در سال 1877 شخصی به نام فرانسیس گالتون از رگرسیون استفاده کرد. حاصل تحقیقات وی با استفاده از رگرسیون نشان داد کودکانی که از والدین بلند قامت متولد می شوند به قد متوسط گرایش دارند. با استفاده از این آنالیز و ابزار آماری می توان رابطه ی بین متغیرها را شناسایی کرد. در این مبحث افراد به دنبال پیدا کردن رابطه بین متغیر وابسته (پاسخ) و متغیرهای مستقل (پیشگو) هستند.
برای درک بهتر این دو دسته متغیر به این مثال توجه کنید. در حوادثی که مربوط به رانندگی هستند متغیرهای وابسته و مستقل وجود دارند. مستقل ها کیفیت و وضعیت جاده، شرایط راننده، استحکام و امنیت خودرو، وضعیت آب و هوا هستند. و متغیر وابسته میزان خسارت می باشد. نتیجه ی آنالیز رگرسیون بهترین پیشگویی یک متغیر وابسته را از روی چند متغیر مستقل نشان می دهد. با توجه به نوع متغیرهاغ و اهدافی که افراد در پروژه دارند مدل رگرسیون متفاوت است.
متفیرهای مستقل می توانند پیوسته و یا گسسته باشند اما متغیرهای وابسته در بیشتر موارد پیوسته هستند.
ساده ترین مدل، رگرسیون خطی است. این مدل خود شامل دو دسته می شود، خطی ساده و خطی چندگانه. این مدل نیاز بسیاری از تحلیل ها را برآورده کرده و پاسخگو است. اما در برخی از مسائل متغیر وابسته و رگرسیونی با تابع غیرخطی معلوم به هم مربوط می شوند. در این مواقع از رگرسیون لجستیک استفاده می شود. این مدل برای پیش بینی متغیرهای دو حالتی الگوی مناسبی است. در ابتدا بیشترین کاربرد این مدل در پزشکی بوده است. اما امروزه در تمامی زمینه های علمی کاربرد دارد.
علاوه بر لجستیک مدل های غیرخطی دیگری نیز وجود دارد مانند مدل های
همانطور که گفته شد برای تخمین رابطه بین دو متغیر کمی از این مدل استفاده می شود زمانی می توانید از رگرسیون خطی استفاده کنید که بخواهید:
فرض کنید شما یک محقق اجتماعی هستید که قصد دارید رابطه بین درآمد و میزان شادی افراد را بدست آورید . شما از 500 نفر که درآمدشان از 3میلیون تا 20 میلیون متغیر است، نظرسنجی میکنید و از آنها میخواهید که شادی خود را در مقیاس 1 تا 10 رتبهبندی کنند.
متغیر مستقل (درآمد) و متغیر وابسته (شادی) هر دو کمی هستند، بنابراین می توانید یک تحلیل رگرسیون انجام دهید تا ببینید آیا رابطه خطی بین آنها وجود دارد یا خیر.
یک الگوریتم طبقه بندی است. برای پیش بینی یک نتیجه مضاعف (binary outcome) بر اساس مجموعه ای از متغیرهای مستقل استفاده می شود.
این به چه معناست؟ یک نتیجه باینری نتیجه ای است که در آن فقط دو سناریو ممکن وجود دارد. یا رویداد اتفاق می افتد (1) یا رخ نمی دهد (0). متغیرهای مستقل آن دسته از متغیرها یا عواملی هستند که ممکن است بر نتیجه (یا متغیر وابسته) تأثیر بگذارند.
بنابراین: رگرسیون لجستیک نوع صحیح تحلیلی است که هنگام کار با داده های باینری استفاده می شود. میدانید که زمانی با دادههای باینری سروکار دارید که خروجی یا متغیر وابسته ماهیت دوگانه یا مقولهای دارد. به عبارت دیگر، اگر در یکی از دو دسته قرار گیرد (مانند «بله» یا «نه»، «گذر» یا «شکست» و.....
اکنون از نظر تئوری می دانید که رگرسیون لجستیک چیست. اما آن را بر چه نوع سناریوهای دنیای واقعی می توان اعمال کرد؟ چرا مفید است؟
رگرسیون لجستیک برای محاسبه احتمال وقوع یک رویداد مضاعف و برای مقابله با مسائل طبقه بندی استفاده می شود. به عنوان مثال، پیشبینی اینکه آیا ایمیل دریافتی هرزنامه است یا هرزنامه نیست، یا پیشبینی اینکه آیا یک تراکنش با کارت اعتباری تقلبی است یا نه. در زمینه پزشکی، رگرسیون لجستیک ممکن است برای پیش بینی خوش خیم یا بدخیم بودن تومور استفاده شود.
در بازاریابی، ممکن است برای پیش بینی اینکه آیا یک کاربر خاص (یا گروهی از کاربران) محصول خاصی را خریداری می کنند یا خیر، استفاده می شود. یک شرکت آموزش آنلاین ممکن است از رگرسیون لجستیک برای پیش بینی اینکه آیا دانش آموز دوره خود را به موقع کامل می کند یا خیر استفاده کند.
همانطور که می بینید، رگرسیون لجستیک برای پیش بینی احتمال همه نوع نتایج «بله» یا «نه» استفاده می شود. با پیشبینی چنین نتایجی، رگرسیون لجستیک به تحلیلگران داده (و شرکتهایی که برای آنها کار میکنند) کمک میکند تا تصمیمات آگاهانه بگیرند. در طرح کلان، این کمک می کند تا هم ریسک ضرر را به حداقل برسانیم و هم به بهینه سازی هزینه ها به منظور به حداکثر رساندن سود کمک می شود. و این چیزی است که هر شرکتی می خواهد.
یک شرکت لوازم آرایشی ممکن است بخواهد تعیین کند که آیا یک مشتری خاص احتمالاً به پیشنهاد تبلیغاتی یکی بخر دو تا ببر در محدوده مراقبت از پوست خود پاسخ مثبت می دهد یا خیر. در این صورت، آنها ممکن است از رگرسیون لجستیک برای ابداع مدلی استفاده کنند که پیشبینی کند مشتری «پاسخدهنده» یا «غیرپاسخدهنده» خواهد بود. بر اساس نتایج بدست آمده، آنها سپس ایده بهتری در مورد اینکه کجا باید تلاش های بازاریابی خود را متمرکز کنند، خواهند داشت.