خواندن ۲ دقیقه·۲ سال پیش

ماتریس پیچیدگی در مدل‌های طبقه‌بند یادگیری ماشین

برای آنکه دشمن خود را بشناسی، باید دشمن خود شوی. سان تزو

ماتریس پیچیدگی

ماتریس پیچیدگی، برای نمایش مصور عملکرد یک مدل یادگیری ماشین استفاده می‌شود. ماتریس پیچیدگی، مقادیر پیش‌بینی شده و واقعی یک مدل طبقه‌بندی را برای تشخیص طبقه‌بندی‌های اشتباه به صورت خلاصه نشان می‌دهد.

ماتریس پیچیدگی چه مواردی را محاسبه می‌کند؟

این ماتریس با نمایش تعداد پیش‌بینی‌های درست و تعداد پیش‌بینی‌های نادرست، کیفیت پیش‌بینی‌های یک مدل طبقه‌بند را نشان می‌دهد. این ماتریس، چهار معیار زیر را محاسبه می‌کند:
مثبت درست (TP) : مدل مثبت پیش‌بینی‌ کرده و کلاس نیز مثبت است. مثلاً: مدل تومور بیمار را بدخیم پیش‌بینی‌ کرده و کلاس تومور نیز در تصویر یا داده‌ها بدخیم است.
منفی درست (TN) : مدل منفی پیش‌بینی‌ کرده و کلاس نیز منفی است. مثلاً: مدل تومور بیمار را خوش‌خیم پیش‌بینی‌ کرده و کلاس تومور نیز در تصویر یا داده‌ها خوش‌خیم است.
مثبت کاذب (FP) : مدل مثبت پیش‌بینی‌ کرده ولی کلاس منفی است. مثلاً: مدل تومور بیمار را بدخیم پیش‌بینی‌ کرده ولی کلاس تومور در تصویر یا داده‌ها خوش‌خیم است.

منفی کاذب (FN) : مدل منفی پیش‌بینی‌ کرده ولی کلاس مثبت است. مثلاً: مدل تومور بیمار را خوش‌خیم پیش‌بینی‌ کرده ولی کلاس تومور در تصویر یا داده‌ها بدخیم است.

معیارهای عملکرد الگوریتم طبقه‌بند

معیارهای زیر از ماتریس پیجیدگی و نتایج آن قابل استخراج هستند:

صحت (Accuracy) : این معیار نشان می‌دهد مدل تا چه اندازه درست کار می‌کند. نحوه محاسبه صحت:

صحت = (تعداد منفی‌های درست + تعداد مثبت‌های درست) تقسیم بر تعداد کل پیش‌بینی‌ها

دقت (Precision) : از کل مثبت‌های پیش‌بینی شده، چه نسبتی واقعا متعلق به کلاس مثبت هستند؟ این ئمعیار نشان مدل ایا مدل قابل اطمینان هست یا خیر؟ دقت در مواردی که مثبت کاذب دغدغه‌ی مهم‌تری از منفی کاذب است. دقت در سیستم‌های پیشنهاد دهنده موسیقی و ویدئو، ریزش مشتری و وب‌سایت‌های تجارت الکترونیک مهم است. نحوه محاسبه دقت:

دقت = تعداد مثبت‌های درست تقسیم بر مجموع مثبت‌های درست و مثبت‌های کاذب

حساسیت یا بازیابی (Recall) : چه درصدی از همه موارد مثبت، مثبت پیش‌بینی شده‌اند؟ حساسیت، میزان خوبی مدل در پیش‌بینی کلاس مثبت را نشان می‌دهد. در مورادی که منفی کاذب مهم‌تر از مثبت کاذب باشد، بازیابی معیار مهم‌تری نسبت به بقیه معیارهاست. مثلا در پزشکی خیلی مهم نیست که برخی موارد سالم بیمار (مثبت) تشخیص داده شوند، بلکه مهم آن است که برخی موارد مثبت بیماری از قلم نیفتند. نحوه محاسبه حساسیت:

بازیابی = تعداد مثبت‌های درست تقسیم بر مجموع مثبت‌های درست و منفی‌های کاذب

تمایز (Specificity) : عملکرد مدل در پیش‌بینی نتایج کلاس منفی را نشان می‌دهد. نحوه محاسبه تمایز:

تمایز = تعداد منفی‌های درست تقسیم بر مجموع منفی درست و مثبت کاذب

امتیاز اف (F_Score) : میانگین هارمونیک دقت و حساسیت است. در عمل با بالا رفتن دقت، بازیابی کاهش پیدا می‌کند و برعکس. امتیاز اف هر دو ریه دقت و بازیابی را در یک مقدار خلاصه می‌کند. نحوه محاسبه:

امتیاز اف= 2* (حساسیت* دقت) تقسیم بر (حساسیت + دقت)

یادگیری ماشینییادگیری ماشین

فرهاد بیرانوند

متخصص علم داده و یادگیری ماشین

شاید از این پست‌ها خوشتان بیاید