شرکت Salesforce یک مجموعه داده ترجمه ماشینی با تگ XML را در اختیار همه قرار داد

منتشرشده در وبسایت Slator به تاریخ ۲۹ ژوئیه ۲۰۲۰
لینک مقاله اصلی: Salesforce Just Open-Sourced a Large, XML-Tagged Machine Translation Dataset

بر اساس مقاله‌ای که در ژوئن ۲۰۲۰ توسط گروهی از محققان در Salesforce منتشر شد،‌آموزش موتورهای ترجمه ماشینی عصبی (NMT) با برچسب XML می‌تواند دقت ترجمه را در هنگام کار با داده‌های متنی بهبود بخشد.

به عنوان بخشی از این تحقیق، این تیم، که شامل کهنه سرباز صنعت زبان، ترسا مارشال، معاون جهانی‌سازی و بومی‌سازی در Salesforce است، یک مجموعه داده را در گیت‌هاب در دسترس قرار داد که از مستندات راهنمای آنلاین این شرکت نرم‌افزاری که به صورت حرفه‌ای ترجمه شده، استفاده کرده بود.

کل مجموعه داده‌ها ۱۷ زبان را پوشش می‌دهد-که هر کدام از آن‌ها می‌تواند به عنوان یک منبع یا زبان هدف استفاده شود-و شامل حدود ۷۰۰۰ جفت فایل XML برای هر جفت زبان است.

کازوما هاشیموتو، محقق اصلی این تحقیق، گفت: «کار ما از این نظر منحصر بفرد است که ما بر روی چگونگی ترجمه متن با برچسب‌های XML تمرکز می‌کنیم که عملا در بومی‌سازی مهم است.»

محققان توضیح دادند که یک مجموعه داده جدید برای تحقیق تیم لازم بود، زیرا مجموعه داده‌های به طور گسترده استفاده‌شده از متن ساده این واقعیت را منعکس نمی‌کند که «داده‌های متنی در وب اغلب با زبان‌های نشانه‌گذاری برای ترکیب ساختار اسناد و فراداده‌هایی مانند اطلاعات قالب‌بندی پیچیده می‌شوند».

هاشیموتو گفت: «ما تصمیم گرفتیم مجموعه داده جدید خود را منتشر کنیم تا مردم بتوانند از آن در صورت تمایل استفاده کنند، و همچنین اگر آن‌ها راه‌حل‌های جالبی را به کار ما گزارش دهند می‌توانیم سود قابل‌توجهی بدست آوریم» و اشاره کرد که منبع داده، کمک آنلاین برای مشتریان Salesforce قبلا در دسترس عموم بوده‌است.

با نگاهی به آینده، تیم تحقیق نوشت: «از آنجا که مجموعه داده‌های ما یک دامنه تکی و کاملا تعریف‌شده را نشان می‌دهد، می‌تواند به عنوان یک پیکره زبانی برای تحقیقات انطباق دامنه (یا به عنوان یک دامنه منبع یا هدف) نیز عمل کند.»

وجود تگ‌های XML کیفیت را بهبود می‌بخشد

با توجه به این مقاله، این متن کمک آنلاین به مدت ۱۵ سال توسط همان ارائه‌دهنده خدمات محلی‌سازی و مدیران برنامه محلی‌سازی داخلی نگهداری و بومی‌سازی شده‌است.

هاشیموتو گفت: «در هر نسخه، ما سیستم خود را برای ترجمه محتوا در زبان انگلیسی به دیگر زبان‌های هدف اجرا می‌کنیم، و سپس متخصصان انسانی کیفیت را تایید می‌کنند و برای دستیابی به کیفیت مورد نیاز آن را ویرایش می‌کنند.»

با استفاده از این محتوای چندزبانه، محققان مجموعه داده‌های مربوط به هفت جفت زبانی بر پایه انگلیسی (انگلیسی به هلندی، فنلاندی، فرانسوی، آلمانی، ژاپنی، روسی و چینی ساده شده) و یک جفت غیر انگلیسی، فنلاندی به ژاپنی را ایجاد کردند.

این گروه آزمایش‌های مقدماتی را بر روی خروجی NMT با برچسب‌های XML حذف‌شده (یعنی متن ساده) انجام دادند و آن‌ها را با آزمایش‌ها بر روی خروجی NMT دارای برچسب‌های XML مقایسه کردند.

این تیم سه مدل را برای هر جفت زبانی آموزش داد: یکی فقط با متن و بدون XML آموزش دید؛ دیگری با XML آموزش دید؛ و دیگری با XML و با مکانیزم‌های کپی، که عناصر XML را از متن اصلی کپی می‌کرد.

نویسندگان نوشتند برای متن ساده NMT، «وجود تگ‌های XML بخش-داخلی معمولا نمرات BLEU را بهبود می‌بخشد، که تعجب‌آور نیست چون تگ‌های XML اطلاعاتی در مورد همترازسازی صریح یا ضمنی عبارات فراهم می‌کنند.» با این حال، این مورد برای زبان انگلیسی به فنلاندی صادق نبود، « که نشان می‌دهد برای برخی از زبان‌ها کنترل تگ‌های درون متن آسان نیست.»

به طور مشابه، مدل آموزش‌دیده با XML و مکانیسم‌های کپی بهترین نمرات BLEU را هم برای متن ساده و هم برای متن با برچسب XML در تمام جفت‌های زبانی، به جز برای انگلیسی به متن ساده فرانسوی به دست آورد.

هاشیموتو گفت: «ما انتظار داشتیم که متن برچسب گذاری شده در بهبود دقت ترجمه مفید باشد، بویژه زمانی که اندازه مجموعه داده آموزشی محدود است، مانند مورد استفاده خاص ما، در مقایسه با کار ترجمه ماشینی بسیار عمومی در مقالات تحقیقاتی موجود.»

محققان همچنین با یک خطای نوعی، ترجمه کمتر از حد، مواجه شدند، زمانی که دریافتند عبارتی که زیر آن خط کشیده شده «برای مثال» در نتایج ترجمه خاصی گم شده‌است، علی‌رغم این حقیقت که امتیازات BLEU مجموعه داده‌ها بالاتر از دیگر مجموعه داده‌های عمومی استاندارد بود. به همین دلیل، و از آنجا که ترجمه‌های راهنمای آنلاین باید دقیق باشند، نویسندگان نتیجه گرفتند که NMT باید برای کمک به ترجمه نهایی کامل مترجمان انسانی استفاده شود.

اگر چه ارزیاب‌های انسانی بیش از ۵۰٪ نتایج ترجمه را «کامل» یا «مفید در پس ویرایش» تشخیص دادند، اما مترجمان هنوز زمان زیادی را صرف تایید ترجمه ماشینی و تصحیح خطاهای ترجمه ماشینی می‌کنند.

به گفته نویسندگان این مقاله که در آینده به بررسی «اثربخشی استفاده از مدل‌های NMT در فرآیند بومی‌سازی دنیای واقعی که در آن حافظه ترجمه در دسترس است» خواهند پرداخت، به طور ایده‌آل، مدل‌های ترجمه آینده که متن ساختار یافته وب را در نظر می‌گیرند « ممکن است به مترجمان انسانی کمک کنند تا فرآیند بومی‌سازی را سرعت بخشند.»

این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.