وقتی یادگیری ماشین را آغاز می کنیم، به اصطلاحاتی بر می خوریم که به نظر مشابه میان ولی در واقع خیلی متفاوتند. دوتا از این اصطلاحلات Linear Regression و Logistic Regression هستند.
هر دو این روش ها از مهمترین و معروف ترین الگوریتم های یادگیری ماشین هستند و در گروه الگوریتم های Supervised یا نظارتی قرار می گیرند. از اینرو هر دو این الگوریتم ها به داده های برچسب دار برای آموزش و سپس Prediction نیاز دارند. از الگوریتم Linear Regression برای حل مسائل Regression و از Logistic Regression برای حل مسائل Classification استفاده می شود. برای درک اختلاف Regression و Classification این مقاله را مطالعه نمایید.
الگوریتم Linear Regression
این روش یکی از ساده ترین روش های یادگیری ماشین است که در گروه الگوریتم های نظارتی قرار میگیرد و برای حل مسائل Regression به کار می رود.
این الگوریتم برای پیش بینی متغیر وابسته پیوسته (Continuous dependent variable) با استفاده از متغیرهای مستقل به کار می رود.
هدف از این الگوریتم این است تا خطی را بیابد که با حداکثر دقت خروجی متغیر وابسته پیوسته را پیش بینی نماید.
اگر فقط از یک متغیر مستقل برای پیش بینی استفاده شود به این الگوریتم Simple Linear Regression و اگر از بیش از یک متغیر مستقل برای پیش بینی استفاده شود به این الگوریتم Multiple Linear Regression گفته می شود.
خروجی این الگوریتم فقط مقادیر پیوسته مانند قیمت، سن، حقوق و ... است. ارتباط بین متغیر مستقل و وابسته در شکل زیر نشان داده شده است.
در شکل بالا متغیر وابسته محور y است (salary) و متغیر مستقل محور x است (experience). خط Regression را میتوان با معادله زیر نشان داد.
الگوریتم Logistic Regression
الگوریتم Logistic Regression یکی از محبوب ترین الگوریتم های یادگیری ماشین است که در گروه الگوریتم های Supervised یا نظارتی قرار میگیرد.
از این الگوریتم عموما برای حل مسائل classification استفاده می شود ولی میتوان برای حل مسائل Regression نیز از این روش استفاده کرد.
از این الگوریتم برای پیش بینی متغیر وابسته categorical با استفاده از متغیرهای مستقل استفاده می شود.
از این روش می توان مواقعی که احتمال بین دو کلاس یا category نیاز است استفاده کرد. مانند: آیا امروز باران خواهید بارید یا نه؟ آیا مقدار این متغیر صفر است یا نه؟؟؟
خروجی الگوریتم Logistic Regression فقط می تواند 0 یا 1 باشد.
روش Logistic Regression برپایه مفهوم Maximum Likelihood Estimation بنا نهاده شده است.
در این الگوریتم ما مجموع وزن دار ورودی ها را به یک تابع activation می دهیم و این تابع ورودی ها را به مقادیر صفر یا یک نگاشت می کند. این تابع فعال سازی Sigmoid است و به منحنی آن sigmoid curve یا s-curve گفته می شود. شکل زیر این منحنی را نشان می دهد.
معادله Logistic Regression به صورت زیر نوشته می شود.
تفاوت Logistic Regression و Linear Regression به صورت خلاصه
نکته: همونطور که قبلا هم عرض کردم من از خودم مطلبی برای آموزش ندارم بلکه فقط دانشجویی در حال یادگیری از منابع مختلف هستم. منبع این مطلب هم در قسمت منبع ذکر کردم.