خواندن ۲ دقیقه·۱ سال پیش

یادگیری ماشین: طبقه بندی

اهداف مقاله:

تعیین آستانه مناسب برای یک مدل طبقه بندی باینری
محاسبه و انتخاب اندازه های مناسب برای ارزیابی یک مدل طبقه بندی باینری
تفسیر ROC و AUC

در رگرسیون لجستیک یاد گرفتیم که چطور تابع سیگموید را استفاده کنیم تا خروجی خام مدل را به یک عدد بین صفر و یک تبدیل کنیم تا بتوانیم پیشبینی های احتمالی انجام بدهیم. برای مثال پیشبینی این که یک ایمیل ۷۵٪ احتمال اسپم بودن داشته باشد.

اما اگر هدف خروجی احتمالی نباشد و یک برچسب مثلا اسپم - غیراسپم باشد چطور؟

طبقه بندی به وظیفه پیشبینی این که کدام مجموعه از طبقات یک نمونه به آن تعلق دارم میپردازد.

آستانه و ماتریس سردگمی

فرض کنیم که یک مدل رگرسیون لجستیک برای تشخیص ایمیل اسپم داریم که یک مقدار بین ۰ و ۱ پیشبینی میکند که ایا یک ایمیل اسپم است یا خیر. یک پیشبینی ۰.۵ به این معنی است که ۵۰٪ احتمال اسپم بودن وجود دارد.

ممکن است بخواهیم این مدل را برای یک برنامه ایمیل پیاده سازی کنیم بنابرین نیاز داریم خروجی مدل مثلا ۰.۷۵ را به اسپم یا غیر اسپم تبدیل کنیم.

برای انجام این تبدیل نیاز داریم یک آستانه احتمالی انتخاب کنیم به نام آستانه طبقه بندی.

مثلا فرض کنیم که مدل امتیاز یک ایمیل را ۰.۹۹ پیشبینی میکند که بیانگر ۹۹٪ احتمال اسپم بودن ایمیل را دارد و ایمیل دیگری ۵۱٪ احتمالا اسپم بودن را دارد. اگر که آستانه را به ۰.۹۵ تنظیم کنیم تنها ایمیل های دارای امتیاز ۰.۹۹ به عنوان اسپم طبقه بندی میشوند.

در حالیکه ۰.۵ ممکن است به نظر یک آستانه مشهود بنظر بیاید با این حال این ایده خوبی نیست که هزینه یک طبقه بندی اشتباه بیشتر از دیگری باشد یا اگر طبقه ها نامتعادل باشند. اگر تنها ۰.۰۱٪ ایمیل ها اسپم بشوند و یا اگر ارسال نادرست ایمیل‌های قانونی بدتر از ورود هرزنامه به صندوق اصلی است، برچسب زدن هر چیزی که مدل حداقل 50 درصد احتمال می‌دهد که هرزنامه باشد به عنوان هرزنامه، نتایج نامطلوبی ایجاد می‌کند.

ماتریس سردگمی

جواب احتمالی واقعیت نیست. این چهار احتمال اتفاق برای هر خروجی یک طبقه بندی کننده باینری است. برای طبقه بندی نمونه اسپم اگر جواب را سطر و شرایط را ستون در نظر بگیریم به جدولی میرسیم به نام ماتریس سردرگمی.