مترجمان بدون مرز، فن‌آوری‌های بزرگ و دانشگاهیان به چالش زبانی کووید۱۹ می‌پردازند

منتشرشده در وبسایت Slator به تاریخ ۷ ژوئیه ۲۰۲۰
لینک مطلب اصلی: TWB, Big Tech, Academia Take on Covid-19 Language Challenge

در حالی که در پایان ماه مارس جهان در آستانه ورود به تاریک‌ترین روزهای کووید۱۹ بود، دبیر کل سازمان ملل در مورد ضربه زدن به دشمن دیگر، «همه‌گیری اطلاعات نادرست (infodemic of misinformation)»، با تاکید بر نیاز فوری به «ترویج حقایق و علم، امید و اتحاد بر سر تقسیم و ناامیدی»، در توئیتر خود نوشت.

با توجه به این نیاز بود که ابتکاراتی مانند TICO-19 شکل گرفت. این حروف اول کلمات ابتکار ترجمه برای کووید۱۹ (Translation Initiative for Covid-19) است و همکاری مترجمان بدون‌مرز (TWB)، دانشگاه (دانشگاه کارنگی ملون، دانشگاه جان‌هاپکینز)، خدمات زبانی (آپن، ترنسلیتد) ، و فن‌آوری‌های بزرگ (آمازون، فیس بوک، گوگل، مایکروسافت) را گرد هم می‌آورد.

این گروه در مقاله‌ای که ۳ جولای ۲۰۲۰ بر روی سرور پیش از چاپ arXiV.org منتشر شد، اشاره کرد که ارتباط با جمعیت آسیب‌پذیر در مورد این که چگونه می‌توانند از خود حفاظت کنند، بسیار مهم است -که WIRED.com آن را «بزرگ‌ترین چالش ترجمه تاریخ» در مقاله TICO-19 در مه ۲۰۲۰ نامید.

داده‌های آزمایش و توسعه توسط TICO-19 در دسترس محققان ترجمه ماشینی در ۳۵ زبان-۹ زبان با منابع زیاد، زبان‌های محوری به علاوه ۲۶ زبان با منابع نسبتا کم-قرار گرفته است تا امکان ترجمه محتوای مرتبط با کووید به این زبان‌ها فراهم شود.

این تحقیق اساسا سه چیز را فراهم می‌کند: (۱) مجموعه‌ای از حافظه‌های ترجمه و فرهنگ‌های فنی برای ارائه‌دهندگان خدمات زبانی (LSP)، مترجمان و داوطلبان برای کمک به آن‌ها برای کار مداوم و دقیق؛ (۲) مجموعه معیارهای متن‌باز چند زبانه با داده‌هایی برای زبان‌های با منابع بسیار کم خاص حوزه پزشکی، که هدف آن پی‌گیری کیفیت سیستم‌های ترجمه ماشینی فعلی و امکان تحقیقات آینده است؛ (۳) منابع یک زبانه و دو زبانه برای متخصصان ترجمه ماشینی «برای پیشبرد پیشرفته‌ترین کاربردها در پزشکی و بشردوستانه و نیز دیگر کاربردهای پردازش زبان طبیعی (NLP)».

به گفته محققان، مهم‌ترین نکته در انتخاب ۳۵ زبان، «تاثیر بالقوه ترجمه‌های جمع‌آوری‌شده ما و اولویت‌های بشردوستانه مترجمان بدون مرز» بود. زبان‌ها به گروه‌های زیر تقسیم شدند:

محوری: ۹ زبان اصلی (یعنی زبان میانجی در بخش‌های بزرگی از جهان) ؛ عربی، چینی ساده‌شده، فرانسوی، برزیلی پرتغالی، لاتین اسپانیایی، هندی، روسی، سواحیلی و اندونزیایی.

اولویت: ۱۸ زبان که به دلیل تقاضای زیاد از طرف شرکا، مانند صلیب‌سرخ، توسط مترجمان بدون مرز در اولویت بالا دسته‌بندی شده‌اند؛ این زبان‌ها شامل زبان‌های آسیا (دری، مرکزی خمر، کردی کرمانجی به خط لاتین، کردی سورانی به خط عربی، نپالی، پشتو) و آفریقا (آمهاریک، دینکا، نیجریه فولده، هائوسا، کانی وری، رواندا، لیارینگالا، لوگاندا، سومالیایی،‌ اتیوپیایی تیگرینیا، زولو) هستند.

مهم: ۸ زبان که توسط میلیون‌ها نفر در جنوب و جنوب شرق آسیا صحبت می‌شود؛ بنگالی، برمه (میانمار) ، فارسی، مالای، مراتی، تاگویی، تامیل، اردو.

«اولویت» و «مهم» آن دسته از زبان‌هایی هستند که در جوامعی مورد استفاده قرار می‌گیرند، که براساس بازخورد حاصل از این حوزه، « ممکن است نسبت به گسترش ویروس و پیامدهای فاجعه‌بار آن، اکثرا به دلیل عدم دسترسی به اطلاعات، بسیار مستعد باشند.»

محققان می‌گویند که زبان‌های «بسیار کم‌منابع» برخی از زبان‌هایی هستند که «در جوامع هوش مصنوعی و ترجمه ماشینی دست‌نخورده مانده‌اند» و تا کنون هیچ ابزار یا منبع شناخته‌شده‌ای برای آن‌ها ایجاد نشده است. آن‌ها افزودند که زبان‌های اضافی مانند کونگولس سواهیلی، نوئر و تیگرینیا اریتره به زودی به این مجموعه افزوده خواهند شد.

تیم TICO-19 به این نتیجه رسید که تلاش آن‌ها تنها «بخشی از نیازهای بخشی از زبان‌های جهان» را برطرف می‌کند. با این حال، آن‌ها امیدوارند که تحقیقات آن‌ها تاثیر فوری بر روی زبان‌هایی که پوشش داده شده‌اند داشته باشد، به ویژه از آنجا که مربوط به معیار ترجمه است، « به جامعه تحقیقاتی ترجمه ماشینی، هم دانشگاهی و هم صنعتی، اجازه داده شود برای بحران بعدی که در آن فن‌آوری‌های ترجمه مورد نیاز خواهد بود، آمادگی بیشتری داشته باشند.»

این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.