رگرسیون لجستیک معروف ترین الگوریتم یادگیری ماشین بعد از رگرسیون خطی است. از بسیاری جهات، رگرسیون خطی و رگرسیون لجستیک مشابه هستند. اما، بزرگترین تفاوت در این است که آنها برای چه استفاده می شوند. الگوریتم های رگرسیون خطی برای پیشبینی مقادیر استفاده می شود اما رگرسیون لجستیک برای وظایف دستهبندی استفاده می شود. اگر در مورد مفاهیم رگرسیون خطی نا مطمئن هستید، این لینک را بررسی کنید. کارهای دستهبندی زیادی وجود دارد که به طور معمول توسط افراد انجام می شود. به عنوان مثال، دستهبندی اینکه آیا یک ایمیل هرزنامه است یا نه، دستهبندی بدخیم یا خوش خیم بودن یک تومور، دستهبندی اینکه آیا یک وب سایت تقلبی است یا نه، و غیره. اینها نمونه های معمولی هستند که الگوریتم های یادگیری ماشینی می توانند زندگی ما را بسیار آسان کنند. یک الگوریتم بسیار ساده، ابتدایی و مفید برای دستهبندی، الگوریتم رگرسیون لجستیک است. اکنون، میخواهیم نگاهی عمیقتر به رگرسیون لجستیک بیندازیم.
الگوریتم رگرسیون لجستیک نیز از یک معادله خطی با پیش بینی کننده های مستقل برای پیش بینی یک مقدار استفاده می کند. مقدار پیش بینی شده می تواند بین منفی بی نهایت تا مثبت بی نهایت باشد. ما نیاز داریم که خروجی الگوریتم متغیر کلاس باشد، یعنی 1 برای کلاس yes و 0 برای کلاس no. بنابراین، ما خروجی معادله خطی را در محدوده [0،1] انتقال میدهیم. برای انتقال مقدار پیش بینی شده بین 0 و 1، از تابع سیگموئید استفاده می کنیم.
خروجی (z) معادله خطی را می گیریم و به تابع g(x) می دهیم که مقدار انتقال، h را برمی گرداند، مقدار h در محدوده 0 تا 1 قرار می گیرد.
همانطور که از نمودار می بینید، تابع سیگموئید برای مقادیر مثبت x به y=1 مجانبی میشود و برای مقادیر منفی x تبدیل به y=0 مجانبی می شود.
از آنجایی که ما در تلاش برای پیشبینی مقادیر کلاس هستیم، نمیتوانیم از همان تابع هزینه استفاده شده در الگوریتم رگرسیون خطی استفاده کنیم. بنابراین، ما از یک تابع ضرر لگاریتمی برای محاسبه هزینه دستهبندی نادرست استفاده میکنیم.
تابع هزینه فوق را می توان به صورت زیر بازنویسی کرد زیرا محاسبه گرادیان ها از معادله بالا دشوار است.
ما مشتقات جزئی تابع هزینه را با توجه به هر پارامتر (theta_0، theta_1، …) می گیریم تا گرادیان ها را بدست آوریم. با کمک این گرادیان ها، می توانیم مقادیر theta_0، theta_1، … را به روز کنیم. برای درک معادلات زیر به مقداری حساب دیفرانسیل و انتگرال نیاز دارید.
اما، اگر قادر به درک آنها نیستید، می توانید در قسمت کامنت سوال بپرسید یا می توانید آنها را همانطور که هستند در نظر بگیرید.
حالا که معادلات لازم را فرا گرفتیم، بیایید کد را بنویسیم. ما فقط از کتابخانه numpy برای ساخت مدل از ابتدا استفاده خواهیم کرد. من معتقدم که این می تواند درک درستی از آنچه در بطن کار اتفاق می افتد فراهم کند. ما از مجموعه داده Iris برای آموزش و آزمایش الگوریتم استفاده خواهیم کرد.
ما داده ها را با استفاده از کتابخانه pandas بارگذاری می کنیم. مجموعه داده IRIS دارای سه مقدار هدف است (‘Iris-virginica’, ‘Iris-setosa’, ‘Iris-versicolor’). از آنجایی که میخواهیم یک الگوریتم طبقهبندی باینری را پیادهسازی کنیم، تصمیم گرفتم ردیفهایی را با مقدار هدف Iris-virginica رها کنم. اکنون، ما فقط دو کلاس هدف برای پیشبینی داریم. متغیرهای مستقل و وابسته را از مجموعه داده استخراج می کنیم. حال بیایید به مهیاسازی داده های آموزش و تست بپردازیم.
دادهها را مخلوط میکنیم و آنها را به داده های آموزشی و آزمایشی تقسیم می کنیم. 90 نمونه در داده های آموزشی ما و 10 نمونه در داده های آزمون ما وجود دارد. چهار مشخصه (Feature) در مجموعه داده وجود دارد. بنابراین، ما هر یک از ویژگی ها را استخراج کرده و در بردارهای جداگانه ذخیره می کنیم.
ما پارامترها (theta_0، theta_1،…) را با 0 مقداردهی اولیه می کنیم. در طول هر ایپاک، مقادیر را با استفاده از معادله خطی محاسبه می کنیم، مقادیر را در محدوده 0 تا 1 منتقل می کنیم و سپس خطا را محاسبه می کنیم. از تابع خطا، گرادیان ها را برای هر پارامتر محاسبه می کنیم و مقادیر آنها را با ضرب گرادیان ها در آلفا به روز می کنیم. آلفا نرخ یادگیری الگوریتم است. پس از 10000 ایپاک، الگوریتم ما به نقطهی بهینه میرسد. سپس میتوانیم الگوریتم خود را با داده های تست آزمایش کنیم.
ما ویژگی های داده های تست را مشابه داده های آموزشی آماده می کنیم. ما همچنین مقادیر theta_0، theta_1، theta_2، theta_3 و theta_4 را از 90×1 به 10×1 برش میدهیم، زیرا تعداد نمونههای آزمایشی تنها 10 است. کلاسهای تست را محاسبه میکنیم و دقت مدل خود را بررسی میکنیم.
مدل ما قادر به دستیابی به دقت 100٪ است. اگرچه رگرسیون لجستیک یک الگوریتم بسیار قدرتمند است، مجموعه دادهای که ما استفاده کردهایم واقعاً پیچیده نیست. بنابراین، مدل ما قادر به دستیابی به دقت 100٪ است. ما همچنین میتوانیم روند تغییرات خطا را همانطور که مدل ما برای 10000 ایپاک آموزش دیده است، ترسیم کنیم.
ممکن است تعجب کنید که این خطوط کد زیاد برای پیاده سازی یک الگوریتم ساده است. برای اینکه ما از تایپ این همه خط کد نجات پیدا کنیم، می توانیم از کتابخانه Scikit Learn استفاده کنیم. کتابخانه Scikit Learn یک کلاس داخلی برای رگرسیون لجستیک دارد که میتوانیم آن را فراخوانی کرده و از آن استفاده کنیم.
بیش از 50 خط کد به کمتر از 10 خط کد کاهش یافت. ما همچنین از طریق کلاس رگرسیون لجستیک کتابخانه scikit Learn دقت 100٪ را دریافت می کنیم.
رگرسیون لجستیک یک الگوریتم ساده است که می تواند برای کارهای طبقه بندی باینری/چند متغیری استفاده شود. فکر میکنم تا به حال به درک اولیه از نحوه عملکرد الگوریتم رگرسیون لجستیک دست یافته باشید.
برای خرید کتاب Hands-On Machine Learning with Scikit-Learn میتوانید اینجا کلیک نمایید
مارا در صفحات اجتماعی دنبال کنید.