همانطور که پردازش زبان طبیعی (NLP) به پیشرفت خود ادامه می دهد، نیاز به ارزیابی مدل های NLP اهمیت فزاینده ای پیدا می کند.معیارهای ارزیابی NLP به محققان و متخصصان این امکان را می دهد تا عملکرد مدل های NLP را به طور عینی ارزیابی کرده و آنها را برای تصمیم گیری بهتر مقایسه کنند.
دو معیار رایج در زمینه ارزیابی NLP امتیازات BLEU و ROUGE هستند. در این پست، به معیار ROUGE خواهیم پرداخت و اهمیت آنها را در ارزیابی مدل های NLP درک خواهیم کرد. همچنین در این پست معیار BLEU توضیح دادیم.
معیار ROUGE (Recall-Oriented Understudy for Gisting Evaluation)، مجموعه ای از معیارها و یک بسته نرم افزاری است که به طور خاص برای ارزیابی خلاصه سازی ماشینی طراحی شده است، اما می توان از آن برای ترجمه ماشینی نیز استفاده کرد. این معیارها یک خلاصه یا ترجمه ماشینی را با خلاصه ها یا ترجمه های مرجع (با کیفیت بالا و تولید شده توسط انسان) مقایسه می کند.
ROUGE-N تعداد n-گرم تطبیق بین متن تولید شده توسط مدل و مرجع تولید شده توسط انسان را اندازه گیری می کند.
دنباله مرجع R و خلاصه C را در نظر بگیرید:
ROUGE-1
با استفاده از R و C، میخواهیم precision و recall و F1-score را محاسبه کنیم. بیایید محاسبه ROUGE-1 را فقط با در نظر گرفتن 1-گرم شروع کنیم.
ROUGE-1 precision را می توان به عنوان نسبت تعداد 1-گرم ها در C که در R نیز ظاهر می شود (عبارتند از کلمات "the"، "cat" و "the") به تعداد 1-گرم ها در C محاسبه کرد.
ROUGE-1 precision = 3/5 = 0.6
ROUGE-1 recall را میتوان به عنوان نسبت تعداد 1-گرمهای R که در C (که عبارتاند از کلمات "the"، "cat" و "the") به تعداد 1-گرمها در R محاسبه میشود.
ROUGE-1 recall = 3/6 = 0.5
سپس، ROUGE-1 F1-score را می توان مستقیماً از ROUGE-1 precision و ROUGE-1 recall با استفاده از فرمول استاندارد F1-score به دست آورد.
ROUGE-1 F1-score = 2 * (precision * recall) / (precision + recall) = 0.54
ROUGE-2
بیایید سعی کنیم ROUGE-2 را با در نظر گرفتن 2-گرم محاسبه کنیم.
دنباله مرجع R و خلاصه C را به خاطر بسپارید:
ROUGE-2 precision نسبت تعداد 2-گرم در C است که در R نیز ظاهر می شود (فقط 2-گرم “the cat”)، به تعداد کل 2-گرم در C.
ROUGE-2 precision = 1/4 = 0.25
ROUGE-2 recall نسبت تعداد 2-گرم در R است که در C نیز ظاهر می شود (فقط 2-گرم “the cat”)، به تعداد کل 2-گرم در R.
ROUGE-2 recall = 1/5 = 0.20
و F1-score:
ROUGE-2 F1-score = 2 * (precision * recall) / (precision + recall) = 0.22
ROUGE-L
ROUGE-L بر اساس طولانیترین دنباله مشترک (LCS)longest common subsequence بین خروجی مدل و مرجع است، یعنی طولانیترین دنباله کلمات (نه لزوماً متوالی، اما همچنان به ترتیب) که بین هر دو مشترک است. یک دنباله مشترک طولانی تر باید نشان دهنده شباهت بیشتر بین دو دنباله باشد.
ما میتوانیم ROUGE-L recall, precision و F1-score را درست مانند ROUGE-N محاسبه کنیم، اما این بار هر n-gram مطابقت را با LCS جایگزین میکنیم.
دنباله مرجع R و خلاصه C را به خاطر بسپارید:
LCS دنباله 3-گرمی “the cat the” است (به یاد داشته باشید که کلمات لزوماً پشت سر هم نیستند) که در هر دو R و C ظاهر می شود.
ROUGE-L precision نسبت طول LCS به تعداد یونی گرم در C است.
ROUGE-L precision = 3/5 = 0.6
ROUGE-L recall نسبت طول LCS به تعداد یونی گرم در R است.
ROUGE-L recall = 3/6 = 0.5
و F1-score:
ROUGE-L F1-score = 2 * (precision * recall) / (precision + recall) = 0.55
ROUGE-S
ROUGE-S به ما اجازه می دهد تا درجه ای از ارفاق را به تطابق n-gram انجام شده با ROUGE-N و ROUGE-L اضافه کنیم. ROUGE-S یک متریک skip-gram است که امکان جستجو برای کلمات متوالی از متن مرجع که در خروجی مدل ظاهر میشوند اما با یک یا چند کلمه دیگر از هم جدا میشوند را میدهد.
مرجع R و خلاصه C را در نظر بگیرید:
اگر 2-گرم “the cat” را در نظر بگیریم، معیار ROUGE-2 تنها در صورتی با آن مطابقت دارد که دقیقاً در C نشان داده شود، اما این چنین نیست زیرا C حاوی “the gray cat” است. با این حال، با استفاده از ROUGE-S با یونیگرام اسکیپینگ (unigram skipping) ، “the cat” با “the gray cat” نیز مطابقت دارد.
ما می توانیم ROUGE-S precision, recall و F1-score را به همان روش سایر معیارهای ROUGE محاسبه کنیم.
مزایا: با ارزیابی انسان همبستگی مثبت دارد، محاسبه آن ارزان و مستقل از زبان است. معایب: ROUGE کلمات مختلفی را که معنی یکسانی دارند مدیریت نمی کند، زیرا به جای معنایی، مطابقت های نحوی را اندازه می گیرد.
ROUGE vs BLEU
اگر با متریک BLEU آشنایی ندارید پیشنهاد میکنم مقاله را بخوانید. به طور کلی BLEU بر precision تمرکز دارد: چقدر کلمات (و/یا n-gram) در خروجی های مدل در مرجع انسانی ظاهر می شوند. ROUGE بر recall تمرکز دارد: چقدر کلمات (و/یا n-gram) در مراجع انسانی در خروجی های مدل ظاهر می شوند. این نتایج تکمیل کننده یکدیگر هستند و اغلب یک تریداف precision-recall برای استفاده از آنها اتفاق می افتد.