اهداف مقاله:
در رگرسیون لجستیک یاد گرفتیم که چطور تابع سیگموید را استفاده کنیم تا خروجی خام مدل را به یک عدد بین صفر و یک تبدیل کنیم تا بتوانیم پیشبینی های احتمالی انجام بدهیم. برای مثال پیشبینی این که یک ایمیل ۷۵٪ احتمال اسپم بودن داشته باشد.
اما اگر هدف خروجی احتمالی نباشد و یک برچسب مثلا اسپم - غیراسپم باشد چطور؟
طبقه بندی به وظیفه پیشبینی این که کدام مجموعه از طبقات یک نمونه به آن تعلق دارم میپردازد.
فرض کنیم که یک مدل رگرسیون لجستیک برای تشخیص ایمیل اسپم داریم که یک مقدار بین ۰ و ۱ پیشبینی میکند که ایا یک ایمیل اسپم است یا خیر. یک پیشبینی ۰.۵ به این معنی است که ۵۰٪ احتمال اسپم بودن وجود دارد.
ممکن است بخواهیم این مدل را برای یک برنامه ایمیل پیاده سازی کنیم بنابرین نیاز داریم خروجی مدل مثلا ۰.۷۵ را به اسپم یا غیر اسپم تبدیل کنیم.
برای انجام این تبدیل نیاز داریم یک آستانه احتمالی انتخاب کنیم به نام آستانه طبقه بندی.
مثلا فرض کنیم که مدل امتیاز یک ایمیل را ۰.۹۹ پیشبینی میکند که بیانگر ۹۹٪ احتمال اسپم بودن ایمیل را دارد و ایمیل دیگری ۵۱٪ احتمالا اسپم بودن را دارد. اگر که آستانه را به ۰.۹۵ تنظیم کنیم تنها ایمیل های دارای امتیاز ۰.۹۹ به عنوان اسپم طبقه بندی میشوند.
در حالیکه ۰.۵ ممکن است به نظر یک آستانه مشهود بنظر بیاید با این حال این ایده خوبی نیست که هزینه یک طبقه بندی اشتباه بیشتر از دیگری باشد یا اگر طبقه ها نامتعادل باشند. اگر تنها ۰.۰۱٪ ایمیل ها اسپم بشوند و یا اگر ارسال نادرست ایمیلهای قانونی بدتر از ورود هرزنامه به صندوق اصلی است، برچسب زدن هر چیزی که مدل حداقل 50 درصد احتمال میدهد که هرزنامه باشد به عنوان هرزنامه، نتایج نامطلوبی ایجاد میکند.
جواب احتمالی واقعیت نیست. این چهار احتمال اتفاق برای هر خروجی یک طبقه بندی کننده باینری است. برای طبقه بندی نمونه اسپم اگر جواب را سطر و شرایط را ستون در نظر بگیریم به جدولی میرسیم به نام ماتریس سردرگمی.
