من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
سادهسازی زیرنویسها در نتفلیکس
منتشرشده در وبسایت slator به تاریخ ۲۷ مه ۲۰۲۰
لینک مقاله اصلی: How Netflix Researchers Simplify Subtitles for Translation
هرچه محصولات اصلی محتوای سرگرمی رسانهای در میان قرنطینه ناشی از کرونا ویروس متوقف شدهاند، خدمات پخش و نشر توجه خود را به گسترش محتوای قبلی به زبانهای بیشتر معطوف کردهاند. با توجه به سطح بالای تقاضای بومیسازی، حتی در زمان قرنطینه، ارائهدهندگان خدمات پخش مانند آمازون پرایم ویدیو به طور فزایندهای مشارکت کنندگانی فعال در فضای تحقیقاتی ترجمه ماشینی هستند.
غول پخش و نمایش، نتفلیکس، در آوریل ۲۰۱۹ تایید کرد که آنها هنوز ترجمه ماشینی را برای عملیات زیرنویس خود بهکار نگرفتهاند، اما گفتند که در حال بررسی استفاده از این تکنولوژی هستند. آنها برای بررسی این کارها را انجام دادند: در ماه مه سال ۲۰۲۰، مقالهای که توسط گروهی از محققان علوم کامپیوتر در نتفلیکس منتشر شد، چگونگی بهبود کیفیت ترجمه ماشینی برای زبانهای با منابع کم، با هدف احتمالی استفاده در زیرنویسها و توصیفات متا، را بررسی کرد.
این مقاله با عنوان «ساده کردن-سپس-ترجمه: پیشپردازش خودکار برای ترجمه جعبه سیاه» در ۲۲ مه ۲۰۲۰ در پلتفرم arXiv منتشر شد. این مطالعه یک همکاری بین دستیار تحقیقاتی سابق نتفلیکس، Sneha Mehta، بلاو بیهانی مدیر سابق مهندسی و کارمندان فعلی نتفلیکس، بهاره آذرنوش، مدیر علوم داده، بوریس چن، مهندس یادگیری ماشین، وینیت میسرا، مدیر علوم دادههای ویدیو و آثار هنری، آونیش سالوجا، محقق و ریتویک کومار، مدیر یادگیری ماشین است.
پروفایل لینکداین کومار، نگاهی اجمالی به حوزههای تحقیقاتی گستردهتر مرتبط با ترجمه ماشینی در نتفلیکس میاندازد و تعدادی از پروژههای تیم را لیست میکند: یادگیری عمیق برای ترجمه ماشینی با کیفیت بالا، پیشبینی تقاضای زبان هر عنوان و یادگیری عمیق برای درک متن مانند بررسی شکایت مشتری.
در پروفایل لینکدین آذرنوش نیز ماموریت او برای «همکاری با کارشناسان بومیسازی برای نشان دادن قدرت دادهها برای فراتر رفتن از موانع زبانی و تضمین بهترین تجربه کاربر محلی در مقیاس» تشریح شدهاست. تمرکز او شامل «آزمایش و استنباط علّی برای پشتیبانی از تصمیمات بومیسازی» است.
ساده کردن-سپس ترجمه
مقاله سادهسازی -سپس ترجمه نتفلیکس دو اصل پردازش زبان طبیعی (NLP) را گرد هم میآورد: سادهسازی جمله و ترجمه ماشینی.
سادهسازی جمله چیز جدیدی نیست. همانطور که این مقاله اشاره میکند، سادهسازی جمله در اصل در دهه ۱۹۹۰ به عنوان راهی برای بهبود ترجمه ماشینی مورد بررسی قرار گرفت. ایده این بود که جملات سادهتر منبع منجر به ترجمههای روانتری میشوند و « تلاش فنی پس از ویرایش را کاهش میدهند.»
روش نتفلیکس بر این فرض متکی است و همچنین این تصور را که محتوای ترجمهشده اساسا سادهتر از محتوای منبع اصلی است را تعدیل میکند. آنها استدلال کردند که با بسط، ترجمههای مجدد سادهتر از جملات منبع اصلی هستند و میتوانند برای ساخت یک مدل سادهسازی استفاده شوند. این چیزی است که در مورد رویکرد نتفلیکس جدید است.
ابتدا، نتفلیکس محتوایی را که قبلا توسط انسان ترجمه شدهبود (ترجمههای مرجع) گرفت و با استفاده از ترجمه ماشینی آن را به زبان اصلی منبع (در این مورد، انگلیسی) برگرداند. از آنجا، محققان از جملات ترجمهشده ساده برای ساخت مدل سادهسازی برای جملات انگلیسی استفاده کردند.
سپس مدل سادهسازی شده-که یک مدل پیشپردازش خودکار یا APP نامیده میشود-قبل از مرحله ترجمه ماشینی برای بهبود خروجی حاصل روی هر منبع انگلیسی اعمال میشود.
استاندارد APP نتفلیکس برای زبان انگلیسی، figsAPP، به طور خاص برای مقابله با محتوای دشوار ساخته شده است؛ مثلا اصطلاحات را با یک جایگزین ساده شده جایگزین میکند. با توجه به اینکه آنها بر «زبان محاوره همانطور که در گفتگوهای برنامههای تلویزیونی استفاده میشود، که معمولا محاورهای و پر از اصطلاح است» تمرکز میکنند، نتفلیکس قضاوت کرد که استفاده از ترجمههای مرجع از این حوزه مهم است.
به طور قطع، نتفلیکس از محتوای سرگرمی در زبانهای با منابع زیاد برای ساخت figsAPP استفاده کرد، و از ترجمههای منابع فرانسوی، ایتالیایی، آلمانی و اسپانیایی (FIGS) برای چندین عنوان استفاده کرد از جمله «چگونه با قتل دور شویم»، «سفر ستاره: فضای عمیق نه» و «شیمی دان تمام فلز».
تست کردن زبانهای با منابع کم
نتفلیکس برای انجام آزمایشهای خود از یک سیستم ترجمه ماشینی «جعبه سیاه»، یعنی Google translate استفاده کرد. برای آزمایش نتایج figsAPP در مقابل مجموعه داده سادهسازی خارج از دامنه، نتفلیکس محتوای ساده شده را به هفت زبان با منابع کم به صورت ماشینی ترجمه کرد: مجاری، اوکراینی، چکی، رومانیایی، بلغارستانی، هندی و مالایی.
محتوای منبع که با figsAPP ساده شده بود منجر به ترجمههای با کیفیت بهتر در هر هفت زبان در مقایسه با ترجمههای حاصل از محتوای منبع اصلی و ساده نشده شد. محتوای منبعی که با APP خارج از حوزه پیشپردازش شده بود به طور قابلتوجهی بدتر از نسخه اصلی عمل کرد و فرضیه نتفلیکس را تایید کرد که استفاده از محتوای خاص حوزه، عملکرد APP را بهبود میبخشد.
نتفلیکس همچنین به نرخ خطای ترجمه (TER) نگاهی انداخت و دریافت که استفاده از محتوای منبع اصلاحشده با figsAPP فاصله ویرایش را برای هفت زبان تست شده بین ۱.۳٪ تا ۷.۳٪ افزایش میدهد. نتفلیکس گفت: «این موضوع شهودی است، زیرا سادهسازی APP جملات را به ترجمه تحتاللفظی انسانی آنها نزدیکتر میکند.»
محققان همچنین از انسانها برای ارزیابی کیفیت یک نمونه از ترجمههای حاصل از محتوای منبع پردازش figsAPP برای پنج زبان از هفت زبان کم منبع استفاده کردند. در اینجا نیز نتفلیکس دریافت که حداقل برای سه زبان، استفاده از figsAPP منجر به بهبود خروجی ترجمه شدهاست.
با اینکه محتوای منبع انگلیسی تمرکز اصلی نتفلیکس برای اهداف تحقیق است، APP ها میتوانند در هر زبانی که برای آن ترجمه مرجع مربوطه کافی وجود داشته باشد نیز ساخته شوند.
این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
ترکیبات دارویی جدید علیه ویروس کرونا با هوش مصنوعی
مطلبی دیگر از این انتشارات
پیشرفت بیوشیمی ممکن است به زودی تنفس بیماران آسمی را آسانتر کند
مطلبی دیگر از این انتشارات
مکملهای ویتامین D خطر خودکشی را کاهش میدهند