خواندن ۵ دقیقه·۱ سال پیش

معیار ROUGE در پردازش زبان طبیعی با مثال

‏همانطور که پردازش زبان طبیعی (NLP) به پیشرفت خود ادامه می دهد، نیاز به ارزیابی مدل های NLP اهمیت فزاینده ای پیدا می کند.معیارهای ارزیابی NLP به محققان و متخصصان این امکان را می دهد تا عملکرد مدل های NLP را به طور عینی ارزیابی کرده و آنها را برای تصمیم گیری بهتر مقایسه کنند.

دو معیار رایج در زمینه ارزیابی NLP امتیازات BLEU و ROUGE هستند. در این پست، به معیار ROUGE خواهیم پرداخت و اهمیت آنها را در ارزیابی مدل های NLP درک خواهیم کرد. همچنین در این پست معیار BLEU توضیح دادیم.

معیار ROUGE‏ (Recall-Oriented Understudy for Gisting Evaluation)، مجموعه ای از معیارها و یک بسته نرم افزاری است که به طور خاص برای ارزیابی خلاصه سازی ماشینی طراحی شده است، اما می توان از آن برای ترجمه ماشینی نیز استفاده کرد. این معیارها یک خلاصه یا ترجمه ماشینی را با خلاصه ها یا ترجمه های مرجع (با کیفیت بالا و تولید شده توسط انسان) مقایسه می کند.

‏‏‏ROUGE-N

‏ROUGE-N تعداد n-گرم تطبیق بین متن تولید شده توسط مدل و مرجع تولید شده توسط انسان را اندازه گیری می کند.

دنباله مرجع R و خلاصه C را در نظر بگیرید:

R: The cat is on the mat.
C: The cat and the dog.

‏‏‏‏ROUGE-1

با استفاده از R و C، می‌خواهیم precision و recall و F1-score را محاسبه کنیم. بیایید محاسبه ROUGE-1 را فقط با در نظر گرفتن 1-گرم شروع کنیم.

‏ROUGE-1 precision را می توان به عنوان نسبت تعداد 1-گرم ها در C که در R نیز ظاهر می شود (عبارتند از کلمات "the"، "cat" و "the") به تعداد 1-گرم ها در C محاسبه کرد.

ROUGE-1 precision = 3/5 = 0.6

‏ROUGE-1 recall را می‌توان به عنوان نسبت تعداد 1-گرم‌های R که در C (که عبارت‌اند از کلمات "the"، "cat" و "the") به تعداد 1-گرم‌ها در R محاسبه می‌شود.

ROUGE-1 recall = 3/6 = 0.5

سپس، ROUGE-1 F1-score را می توان مستقیماً از ROUGE-1 precision و ROUGE-1 recall با استفاده از فرمول استاندارد F1-score به دست آورد.

ROUGE-1 F1-score = 2 * (precision * recall) / (precision + recall) = 0.54

‏‏ROUGE-2

بیایید سعی کنیم ROUGE-2 را با در نظر گرفتن 2-گرم محاسبه کنیم.

دنباله مرجع R و خلاصه C را به خاطر بسپارید:

R: The cat is on the mat.
C: The cat and the dog.

‏ROUGE-2 precision نسبت تعداد 2-گرم در C است که در R نیز ظاهر می شود (فقط 2-گرم “the cat”)، به تعداد کل 2-گرم در C.

ROUGE-2 precision = 1/4 = 0.25

‏ROUGE-2 recall نسبت تعداد 2-گرم در R است که در C نیز ظاهر می شود (فقط 2-گرم “the cat”)، به تعداد کل 2-گرم در R.

ROUGE-2 recall = 1/5 = 0.20

و F1-score:

ROUGE-2 F1-score = 2 * (precision * recall) / (precision + recall) = 0.22

‏ROUGE-L

‏ROUGE-L بر اساس طولانی‌ترین دنباله مشترک (LCS)longest common subsequence بین خروجی مدل و مرجع است، یعنی طولانی‌ترین دنباله کلمات (نه لزوماً متوالی، اما همچنان به ترتیب) که بین هر دو مشترک است. یک دنباله مشترک طولانی تر باید نشان دهنده شباهت بیشتر بین دو دنباله باشد.

ما می‌توانیم ROUGE-L recall, precision و F1-score را درست مانند ROUGE-N محاسبه کنیم، اما این بار هر n-gram مطابقت را با LCS جایگزین می‌کنیم.

دنباله مرجع R و خلاصه C را به خاطر بسپارید:

R: The cat is on the mat.
C: The cat and the dog.

‏LCS دنباله 3-گرمی “the cat the” است (به یاد داشته باشید که کلمات لزوماً پشت سر هم نیستند) که در هر دو R و C ظاهر می شود.

‏ROUGE-L precision نسبت طول LCS به تعداد یونی گرم در C است.

ROUGE-L precision = 3/5 = 0.6

‏ROUGE-L recall نسبت طول LCS به تعداد یونی گرم در R است.

ROUGE-L recall = 3/6 = 0.5

و F1-score:

ROUGE-L F1-score = 2 * (precision * recall) / (precision + recall) = 0.55

‏ROUGE-S

‏ROUGE-S به ما اجازه می دهد تا درجه ای از ارفاق را به تطابق n-gram انجام شده با ROUGE-N و ROUGE-L اضافه کنیم. ROUGE-S یک متریک skip-gram است که امکان جستجو برای کلمات متوالی از متن مرجع که در خروجی مدل ظاهر می‌شوند اما با یک یا چند کلمه دیگر از هم جدا می‌شوند را می‌دهد.

مرجع R و خلاصه C را در نظر بگیرید:

R: The cat is on the mat.
C: The gray cat and the dog.

اگر 2-گرم “the cat” را در نظر بگیریم، معیار ROUGE-2 تنها در صورتی با آن مطابقت دارد که دقیقاً در C نشان داده شود، اما این چنین نیست زیرا C حاوی “the gray cat” است. با این حال، با استفاده از ROUGE-S با یونیگرام اسکیپینگ (unigram skipping) ، “the cat” با “the gray cat” نیز مطابقت دارد.

ما می توانیم ROUGE-S precision, recall و F1-score را به همان روش سایر معیارهای ROUGE محاسبه کنیم.

مزایا و معایب ROUGE

مزایا: با ارزیابی انسان همبستگی مثبت دارد، محاسبه آن ارزان و مستقل از زبان است. معایب: ROUGE کلمات مختلفی را که معنی یکسانی دارند مدیریت نمی کند، زیرا به جای معنایی، مطابقت های نحوی را اندازه می گیرد.

‏ROUGE vs BLEU

اگر با متریک BLEU آشنایی ندارید پیشنهاد می‌کنم مقاله را بخوانید. به طور کلی BLEU بر precision تمرکز دارد: چقدر کلمات (و/یا n-gram) در خروجی های مدل در مرجع انسانی ظاهر می شوند. ROUGE بر recall تمرکز دارد: چقدر کلمات (و/یا n-gram) در مراجع انسانی در خروجی های مدل ظاهر می شوند. این نتایج تکمیل کننده یکدیگر هستند و اغلب یک تریداف precision-recall برای استفاده از آنها اتفاق می افتد.

پردازش زبان طبیعیnlpهوش مصنوعیchatgptdata science

علیرضا مدنی

شاید از این پست‌ها خوشتان بیاید