من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
شرکت Salesforce یک مجموعه داده ترجمه ماشینی با تگ XML را در اختیار همه قرار داد
منتشرشده در وبسایت Slator به تاریخ ۲۹ ژوئیه ۲۰۲۰
لینک مقاله اصلی: Salesforce Just Open-Sourced a Large, XML-Tagged Machine Translation Dataset
بر اساس مقالهای که در ژوئن ۲۰۲۰ توسط گروهی از محققان در Salesforce منتشر شد،آموزش موتورهای ترجمه ماشینی عصبی (NMT) با برچسب XML میتواند دقت ترجمه را در هنگام کار با دادههای متنی بهبود بخشد.
به عنوان بخشی از این تحقیق، این تیم، که شامل کهنه سرباز صنعت زبان، ترسا مارشال، معاون جهانیسازی و بومیسازی در Salesforce است، یک مجموعه داده را در گیتهاب در دسترس قرار داد که از مستندات راهنمای آنلاین این شرکت نرمافزاری که به صورت حرفهای ترجمه شده، استفاده کرده بود.
کل مجموعه دادهها ۱۷ زبان را پوشش میدهد-که هر کدام از آنها میتواند به عنوان یک منبع یا زبان هدف استفاده شود-و شامل حدود ۷۰۰۰ جفت فایل XML برای هر جفت زبان است.
کازوما هاشیموتو، محقق اصلی این تحقیق، گفت: «کار ما از این نظر منحصر بفرد است که ما بر روی چگونگی ترجمه متن با برچسبهای XML تمرکز میکنیم که عملا در بومیسازی مهم است.»
محققان توضیح دادند که یک مجموعه داده جدید برای تحقیق تیم لازم بود، زیرا مجموعه دادههای به طور گسترده استفادهشده از متن ساده این واقعیت را منعکس نمیکند که «دادههای متنی در وب اغلب با زبانهای نشانهگذاری برای ترکیب ساختار اسناد و فرادادههایی مانند اطلاعات قالببندی پیچیده میشوند».
هاشیموتو گفت: «ما تصمیم گرفتیم مجموعه داده جدید خود را منتشر کنیم تا مردم بتوانند از آن در صورت تمایل استفاده کنند، و همچنین اگر آنها راهحلهای جالبی را به کار ما گزارش دهند میتوانیم سود قابلتوجهی بدست آوریم» و اشاره کرد که منبع داده، کمک آنلاین برای مشتریان Salesforce قبلا در دسترس عموم بودهاست.
با نگاهی به آینده، تیم تحقیق نوشت: «از آنجا که مجموعه دادههای ما یک دامنه تکی و کاملا تعریفشده را نشان میدهد، میتواند به عنوان یک پیکره زبانی برای تحقیقات انطباق دامنه (یا به عنوان یک دامنه منبع یا هدف) نیز عمل کند.»
وجود تگهای XML کیفیت را بهبود میبخشد
با توجه به این مقاله، این متن کمک آنلاین به مدت ۱۵ سال توسط همان ارائهدهنده خدمات محلیسازی و مدیران برنامه محلیسازی داخلی نگهداری و بومیسازی شدهاست.
هاشیموتو گفت: «در هر نسخه، ما سیستم خود را برای ترجمه محتوا در زبان انگلیسی به دیگر زبانهای هدف اجرا میکنیم، و سپس متخصصان انسانی کیفیت را تایید میکنند و برای دستیابی به کیفیت مورد نیاز آن را ویرایش میکنند.»
با استفاده از این محتوای چندزبانه، محققان مجموعه دادههای مربوط به هفت جفت زبانی بر پایه انگلیسی (انگلیسی به هلندی، فنلاندی، فرانسوی، آلمانی، ژاپنی، روسی و چینی ساده شده) و یک جفت غیر انگلیسی، فنلاندی به ژاپنی را ایجاد کردند.
این گروه آزمایشهای مقدماتی را بر روی خروجی NMT با برچسبهای XML حذفشده (یعنی متن ساده) انجام دادند و آنها را با آزمایشها بر روی خروجی NMT دارای برچسبهای XML مقایسه کردند.
این تیم سه مدل را برای هر جفت زبانی آموزش داد: یکی فقط با متن و بدون XML آموزش دید؛ دیگری با XML آموزش دید؛ و دیگری با XML و با مکانیزمهای کپی، که عناصر XML را از متن اصلی کپی میکرد.
نویسندگان نوشتند برای متن ساده NMT، «وجود تگهای XML بخش-داخلی معمولا نمرات BLEU را بهبود میبخشد، که تعجبآور نیست چون تگهای XML اطلاعاتی در مورد همترازسازی صریح یا ضمنی عبارات فراهم میکنند.» با این حال، این مورد برای زبان انگلیسی به فنلاندی صادق نبود، « که نشان میدهد برای برخی از زبانها کنترل تگهای درون متن آسان نیست.»
به طور مشابه، مدل آموزشدیده با XML و مکانیسمهای کپی بهترین نمرات BLEU را هم برای متن ساده و هم برای متن با برچسب XML در تمام جفتهای زبانی، به جز برای انگلیسی به متن ساده فرانسوی به دست آورد.
هاشیموتو گفت: «ما انتظار داشتیم که متن برچسب گذاری شده در بهبود دقت ترجمه مفید باشد، بویژه زمانی که اندازه مجموعه داده آموزشی محدود است، مانند مورد استفاده خاص ما، در مقایسه با کار ترجمه ماشینی بسیار عمومی در مقالات تحقیقاتی موجود.»
محققان همچنین با یک خطای نوعی، ترجمه کمتر از حد، مواجه شدند، زمانی که دریافتند عبارتی که زیر آن خط کشیده شده «برای مثال» در نتایج ترجمه خاصی گم شدهاست، علیرغم این حقیقت که امتیازات BLEU مجموعه دادهها بالاتر از دیگر مجموعه دادههای عمومی استاندارد بود. به همین دلیل، و از آنجا که ترجمههای راهنمای آنلاین باید دقیق باشند، نویسندگان نتیجه گرفتند که NMT باید برای کمک به ترجمه نهایی کامل مترجمان انسانی استفاده شود.
اگر چه ارزیابهای انسانی بیش از ۵۰٪ نتایج ترجمه را «کامل» یا «مفید در پس ویرایش» تشخیص دادند، اما مترجمان هنوز زمان زیادی را صرف تایید ترجمه ماشینی و تصحیح خطاهای ترجمه ماشینی میکنند.
به گفته نویسندگان این مقاله که در آینده به بررسی «اثربخشی استفاده از مدلهای NMT در فرآیند بومیسازی دنیای واقعی که در آن حافظه ترجمه در دسترس است» خواهند پرداخت، به طور ایدهآل، مدلهای ترجمه آینده که متن ساختار یافته وب را در نظر میگیرند « ممکن است به مترجمان انسانی کمک کنند تا فرآیند بومیسازی را سرعت بخشند.»
این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
۵ سختافزار برتر هوش مصنوعی که در سال ۲۰۲۲ عرضه شدند
مطلبی دیگر از این انتشارات
چگونه نشان دهیم که فیلمهایی در تیکتاک را «دوست نداشتیم و نپسندیدیم»؟
مطلبی دیگر از این انتشارات
۱۰ تصور غلط رایج دربارهی بودجهبندی و نحوه انجام آنها به روش صحیح