ساده‌سازی زیرنویس‌ها در نتفلیکس

منتشرشده در وبسایت slator به تاریخ ۲۷ مه ۲۰۲۰
لینک مقاله اصلی: How Netflix Researchers Simplify Subtitles for Translation

هرچه محصولات اصلی محتوای سرگرمی رسانه‌ای در میان قرنطینه ناشی از کرونا ویروس متوقف شده‌اند، خدمات پخش و نشر توجه خود را به گسترش محتوای قبلی به زبان‌های بیشتر معطوف کرده‌اند. با توجه به سطح بالای تقاضای بومی‌سازی، حتی در زمان قرنطینه، ارائه‌دهندگان خدمات پخش مانند آمازون پرایم ویدیو به طور فزاینده‌ای مشارکت کنندگانی فعال در فضای تحقیقاتی ترجمه ماشینی هستند.

غول پخش و نمایش، نتفلیکس، در آوریل ۲۰۱۹ تایید کرد که آن‌ها هنوز ترجمه ماشینی را برای عملیات زیرنویس خود به‌کار نگرفته‌اند، اما گفتند که در حال بررسی استفاده از این تکنولوژی هستند. آن‌ها برای بررسی این کارها را انجام دادند: در ماه مه سال ۲۰۲۰، مقاله‌ای که توسط گروهی از محققان علوم کامپیوتر در نتفلیکس منتشر شد، چگونگی بهبود کیفیت ترجمه ماشینی برای زبان‌های با منابع کم، با هدف احتمالی استفاده در زیرنویس‌ها و توصیفات متا، را بررسی کرد.

این مقاله با عنوان «ساده کردن-سپس-ترجمه: پیش‌پردازش خودکار برای ترجمه جعبه سیاه» در ۲۲ مه ۲۰۲۰ در پلتفرم arXiv منتشر شد. این مطالعه یک هم‌کاری بین دستیار تحقیقاتی سابق نتفلیکس، Sneha Mehta، بلاو بیهانی مدیر سابق مهندسی و کارمندان فعلی نتفلیکس، بهاره آذرنوش، مدیر علوم داده، بوریس چن، مهندس یادگیری ماشین، وینیت میسرا، مدیر علوم داده‌های ویدیو و آثار هنری، آونیش سالوجا، محقق و ریتویک کومار، مدیر یادگیری ماشین است.

پروفایل لینکداین کومار، نگاهی اجمالی به حوزه‌های تحقیقاتی گسترده‌تر مرتبط با ترجمه ماشینی در نتفلیکس می‌اندازد و تعدادی از پروژه‌های تیم را لیست می‌کند: یادگیری عمیق برای ترجمه ماشینی با کیفیت بالا، پیش‌بینی تقاضای زبان هر عنوان و یادگیری عمیق برای درک متن مانند بررسی شکایت مشتری.

در پروفایل لینکدین آذرنوش نیز ماموریت او برای «هم‌کاری با کارشناسان بومی‌سازی برای نشان دادن قدرت داده‌ها برای فراتر رفتن از موانع زبانی و تضمین بهترین تجربه کاربر محلی در مقیاس» تشریح شده‌است. تمرکز او شامل «آزمایش و استنباط علّی برای پشتیبانی از تصمیمات بومی‌سازی» است.

ساده کردن-سپس ترجمه

مقاله ساده‌سازی -سپس ترجمه نتفلیکس دو اصل پردازش زبان طبیعی (NLP) را گرد هم می‌آورد: ساده‌سازی جمله و ترجمه ماشینی.

ساده‌سازی جمله چیز جدیدی نیست. همانطور که این مقاله اشاره می‌کند، ساده‌سازی جمله در اصل در دهه ۱۹۹۰ به عنوان راهی برای بهبود ترجمه ماشینی مورد بررسی قرار گرفت. ایده این بود که جملات ساده‌تر منبع منجر به ترجمه‌های روان‌تری می‌شوند و « تلاش فنی پس از ویرایش را کاهش می‌دهند.»

روش نتفلیکس بر این فرض متکی است و همچنین این تصور را که محتوای ترجمه‌شده اساسا ساده‌تر از محتوای منبع اصلی است را تعدیل می‌کند. آن‌ها استدلال کردند که با بسط، ترجمه‌های مجدد ساده‌تر از جملات منبع اصلی هستند و می‌توانند برای ساخت یک مدل ساده‌سازی استفاده شوند. این چیزی است که در مورد رویکرد نتفلیکس جدید است.

ابتدا، نتفلیکس محتوایی را که قبلا توسط انسان ترجمه شده‌بود (ترجمه‌های مرجع) گرفت و با استفاده از ترجمه ماشینی آن را به زبان اصلی منبع (در این مورد، انگلیسی) برگرداند. از آنجا، محققان از جملات ترجمه‌شده ساده برای ساخت مدل ساده‌سازی برای جملات انگلیسی استفاده کردند.

سپس مدل ساده‌سازی شده-که یک مدل پیش‌پردازش خودکار یا APP نامیده می‌شود-قبل از مرحله ترجمه ماشینی برای بهبود خروجی حاصل روی هر منبع انگلیسی اعمال می‌شود.

استاندارد APP نتفلیکس برای زبان انگلیسی، figsAPP، به طور خاص برای مقابله با محتوای دشوار ساخته شده است؛ مثلا اصطلاحات را با یک جایگزین ساده شده جایگزین می‌کند. با توجه به اینکه آن‌ها بر «زبان محاوره همانطور که در گفتگوهای برنامه‌های تلویزیونی استفاده می‌شود، که معمولا محاوره‌ای و پر از اصطلاح است» تمرکز می‌کنند، نتفلیکس قضاوت کرد که استفاده از ترجمه‌های مرجع از این حوزه مهم است.

به طور قطع، نتفلیکس از محتوای سرگرمی در زبان‌های با منابع زیاد برای ساخت figsAPP استفاده کرد، و از ترجمه‌های منابع فرانسوی، ایتالیایی، آلمانی و اسپانیایی (FIGS) برای چندین عنوان استفاده کرد از جمله «چگونه با قتل دور شویم»، «سفر ستاره: فضای عمیق نه» و «شیمی دان تمام فلز».

تست کردن زبان‌های با منابع کم

نتفلیکس برای انجام آزمایش‌های خود از یک سیستم ترجمه ماشینی «جعبه سیاه»، یعنی Google translate استفاده کرد. برای آزمایش نتایج figsAPP در مقابل مجموعه داده ساده‌سازی خارج از دامنه، نتفلیکس محتوای ساده شده را به هفت زبان با منابع کم به صورت ماشینی ترجمه کرد: مجاری، اوکراینی، چکی، رومانیایی، بلغارستانی، هندی و مالایی.

محتوای منبع که با figsAPP ساده شده بود منجر به ترجمه‌های با کیفیت بهتر در هر هفت زبان در مقایسه با ترجمه‌های حاصل از محتوای منبع اصلی و ساده نشده شد. محتوای منبعی که با APP خارج از حوزه پیش‌پردازش شده بود به طور قابل‌توجهی بدتر از نسخه اصلی عمل کرد و فرضیه نتفلیکس را تایید کرد که استفاده از محتوای خاص حوزه، عملکرد APP را بهبود می‌بخشد.

نتفلیکس همچنین به نرخ خطای ترجمه (TER) نگاهی انداخت و دریافت که استفاده از محتوای منبع اصلاح‌شده با figsAPP فاصله ویرایش را برای هفت زبان تست شده بین ۱.۳٪ تا ۷.۳٪ افزایش می‌دهد. نتفلیکس گفت: «این موضوع شهودی است، زیرا ساده‌سازی APP جملات را به ترجمه تحت‌اللفظی انسانی آن‌ها نزدیک‌تر می‌کند.»

محققان همچنین از انسان‌ها برای ارزیابی کیفیت یک نمونه از ترجمه‌های حاصل از محتوای منبع پردازش figsAPP برای پنج زبان از هفت زبان کم منبع استفاده کردند. در اینجا نیز نتفلیکس دریافت که حداقل برای سه زبان، استفاده از figsAPP منجر به بهبود خروجی ترجمه شده‌است.

با اینکه محتوای منبع انگلیسی تمرکز اصلی نتفلیکس برای اهداف تحقیق است، APP ها می‌توانند در هر زبانی که برای آن ترجمه مرجع مربوطه کافی وجود داشته باشد نیز ساخته شوند.

این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.