یادگیری مدل‌های ترنسفورمر عمیق برای ترجمه ماشینی

۵۷‌امین کنفرانس سالانه انجمن زبان‌شناسی رایانشی
۵۷‌امین کنفرانس سالانه انجمن زبان‌شناسی رایانشی

ترنسفورمر جدیدترین مدل در ارزیابی ترجمه ماشینی است. دو رشته از تحقیقات امید بخش هستند تا مدل‌هایی از این دست را بهبود بخشند: در ابتدا شبکه‌های گسترده (‏معروف به ترانسفرمرز بیگ) ‏که به عنوان استاندارد بالفعل برای توسعه سیستم ترنسفورمر استفاده می‌شود و دیگری از نمایش زبان عمیق‌تر استفاده می‌کند اما با مشکل ناشی از یادگیری شبکه‌های عمیق مواجه است. در اینجا، ما به مسیر تحقیقات در مورد مورد دوم ادامه می‌دهیم. ما ادعا می‌کنیم که یک مدل واقعا عمیق ترانسفورمر می‌تواند از همتای ترانسفورمر بزرگ با ۱) ‏استفاده مناسب از نرمال سازی لایه‌ها و ۲)‏ یک روش جدید عبور از ترکیب لایه‌های قبلی به لایه‌های بعدی پیشی بگیرد. بر روی WMT16 آلمانی - انگلیسی، NIST OpenMT12 چینی - انگلیسی و پیکره یزرگتر WMT18 چینی - انگلیسی، سیستم عمیق ما (‏رمزگذار ۳۰ / ۲۵ لایه)‏ بهتر از سیستم پایه ترنسفورمر بزرگ (‏رمزگذار ۶ لایه) به اندازه ۰.۴ تا ۲.۴ امتیاز BLEU عمل می‌کند. به عنوان یک مزیت دیگر، مدل عمیق ۱.۶ برابر کوچک‌تر از نظر اندازه و ۳ برابر سریع‌تر در آموزش نسبت به ترنسفورمر بزرگ است. ​

این متن ترجمه‌ای ‌خودکار از چکیده مقاله Learning Deep Transformer Models for Machine Translation ارایه شده در ۵۷‌امین کنفرانس سالانه Association for Computational Linguistics است.

برای مطالعه کامل این مقاله به همراه ترجمه‌ آنلاین و رایگان به این لینک مراجعه فرمایید.​