داستان گوگل ترنسلیت و ترگمان


حتما شما هم با موتور‌های ترجمه مثل گوگل، ترگمان، بینگ و ... آشنا هستید و شاید از جمله سرویس‌هایی که باشند روزانه با اونا سروکار دارید. همون‌طور که می‌دونید ترجمه ماشینی همواره با خطاهایی همراه بوده و ترگمان و ترجمیار هم از این قاعده مستثنی نیستند. در بررسی‌های کیفی تیم ترگمان، ما متوجه تشابه اشتباهاتی در ترجمه‌های ترجمیار و گوگل ترنسلیت شدیم. خب مسلما اگر کمی با این حوزه آشنا باشید می‌دونید که علت این امر می‌تونه از پیکره‌های جمع‌آوری شده در وب باشه که هم در اختیار ترگمان بوده و هم در اختیار گوگل . اما با کمی بررسی‌های بیشتر متوجه شدیم که این خطاها متعلق به پیکره‌های اختصاصی ترجمیار هست و این موضوع، سرآغازی برای پیگیری‌های دقیق تیم ترگمان شد.

بیایید برای روشن شدن موضوع یه نگاهی به ترجمه ماشینی و نحوه کار اون بندازیم.

تعریف ترجمه ماشینی به زبانی ساده

ترجمه ماشینی فرآیندی هست که طی اون متن‌ها به صورت خودکار و بدون دخالت مستقیم مترجم انسانی توسط نرم‌افزار کامپیوتری ترجمه می‌شوند. این موتورهای ترجمه به وسیله ترجمه‌های صورت گرفته توسط مترجم‌های انسانی آموزش می‌بینند و بنابراین کیفیت این موتورها به کیفیت و میزان ترجمه‌های در دسترس اون‌ها متکی هست.

اگر‌چه کار کردن با موتورهای ترجمه بسیار ساده و راحته، اما فن‌آوری‌های به کار‌گرفته‌شده برای راه‌اندازی اون مانند بیگ‌دیتا، یادگیری عمیق، رایانش ابری، زبان‌شناسی و غیرهدر حیطه مسائل پیچیده قرار می‌گیرند.

نقطه قوت ترجمه ماشینی بدون شک در سرعت و حجم ترجمه انجام شده توسط اون در واحد زمان است و در مقابل، کیفیت، نقطه قوت مترجمان انسانی است. به همین جهت تلفیقی از ترجمه ماشینی و ویرایش انسانی می‌تونه نتیجه رضایت‌بخشی رو حاصل کنه.


نحوه کار و آموزش موتور ترجمه

ترجمه ماشینی با روش نورونی متکی بر پیکره‌های متنی دوزبانه است و با کمک الگوریتم‌های یادگیری عمیق و با استفاده از متن‌های دو‌زبانه ارائه‌شده سعی در شناخت و یادگیری روابط بین کلمات و عبارات و قواعد جمله‌سازی دارند. اساس این روش که امروزه در اغلب مترجم‌های ماشینی به کار گرفته میشه بر اینه که حجم بالایی از نمونه به ماشین ارائه می‌شود و ماشین به کمک الگوریتم‌ها و این نمونه‌ها تلاش می‌کنه تا بهترین ترجمه برای هر عبارت رو ارائه بده.

در اینجاست که دسترسی به منابع متن‌های ترجمه‌شده اهمیت زیادی پیدا می‌کند. یعنی هر چه حجم این نمونه‌ها بالاتر باشد، قطعا عملکرد موتور ترجمه بهتر خواهد بود. متاسفانه منابع ترجمه‌شده برای زبان فارسی به شدت محدود هست و این کار رو تا حد زیادی برای همه موتورهای ترجمه سخت می‌کنه. بنابراین سعی می‌شه تا از تمام پیکره‌های متنی قابل استفاده در سرتاسر وب بهره‌برداری شود. علاوه بر پیکره‌های متنی موجود در وب، هر موتور ترجمه ماشینی پیکره اختصاصی متعلق به خودش رو هم داره که ماجرای ترگمان و گوگل به این موضوع برمی‌گرده.

ماجرای استفاده گوگل از ترجمه ترگمان

به دنبال وجود تشابه در خطاهای ترجمه ارائه‌شده توسط ترگمان (ترجمیار) و گوگل، تصمیم تیم ترگمان بر این شد که خطاهایی رو در ترجمه‌ها قرار بدیم تا بتونیم این مسئله رو پیگیری کنیم. در عین حال سایت‌هایی که از ما API می‌گرفتند هم امضای ما رو پای ترجمه‌ها درج می کردند که یکی از این امضاها «[ترجمه ترگمان]» در ابتدای جمله بود و بعد منتظر شدیم!

بعد از اون، مدتی این داستان رو رصد کردیم تا در نهایت گوگل در دام کاربران ترگمان گیر افتاد! ترجمه‌ای که اشتباه عمدی تیم ترگمان هست و امضای ترگمان هم پاش بود، گوگل نمایش داد.

زمانی که عبارت زیر رو در گوگل‌ترنسلیت به فارسی ترجمه کنید:

7 In dropout, the unessential neurons in a network are removed.

به احتمال خیلی زیاد ترجمه‌ای که در تصویر می‌بینید رو نمایش می‌ده و نکته جالب‌تر این که اگر این جمله در ترگمان هم ترجمه کنید به ترجمه مشابهی می‌رسید.

خطای تعمدی پیکره ترگمان در ترجمه گوگل ترنسلیت
خطای تعمدی پیکره ترگمان در ترجمه گوگل ترنسلیت

رد فرضیه ارائه پیشنهاد ترجمه به گوگل توسط تیم ترگمان

اگر شما هم با گوگل ترنسلیت کار کرده باشید احتمالا متوجه شدید که می‌تونید به‌عنوان یک مشارکت‌کننده (contributor) ترجمه‌هایی رو در گوگل پیشنهاد کنید. از همین جهت شاید برخی از افراد با خودشون فکر کنند که تیم ترگمان خودش پیشنهاد این ترجمه رو به گوگل ارائه کرده و حالا ادعای استفاده گوگل از ترگمان رو داره.

اما واقعیت از این قرارهکه طی حواشیی که در ترجمه‌های جنجالی گوگل به وجود آمد، مثل ترجمه نامناسب «احمدی‌نژاد» و یا جنجال‌های ترجمه «خلیج فارس» که منجر به جدال آنلاین بین کاربران ایرانی و عربی شد و یکی سری خطاهای دیگه مربوط به سایر زبان‌ها گوگل رو حسابی گمراه کرد و به دردسر انداخت، گوگل تصمیم به تغییر روش عملکرد خودش در اعمال بازخوردهای کاربران در گوگل ترنسلیت کرد. بعد از اون گوگل ترجمه کاربران رو به صورت مستقیم در موتور اعمال نکرد. و برای نمایش ترجمه‌های پیشنهادی کاربران هم یک تیک رو به منظور سلب مسئولیت از خودش نشون داد.

بنابراین با توجه به این نکته، این اتهام که خود بچه‌های ترگمان این ترجمه رو به گوگل پیشنهاد کردند به طور کلی رد میشه.

از طرف دیگه وقتی جملات از طرف کاربران پیشنهاد شده باشه نمی‌شه با تغییر جمله ترجمه غلط مشابه گرفت در حالی که در این مورد هم تعداد جملات زیادی هست که این خطا در مورد گوگل رخ می‌ده و هم اینکه می‌شه جمله رو تغییر داد و کماکان گوگل اعتراف کنه که ترجمه رو از ترگمان یاد گرفته.

سخن پایانی

قطعا این پایان ماجراهای ترگمان نخواهد بود و تمام تلاش تیم ترگمان بر آن هست که کیفیت مطلوبی ارائه بده و بتونه در آینده‌ای نزدیک در ارائه سرویس‌های ترجمه به ویژه زبان فارسی از رقبا پیشی بگیره. و امیدواریم که مثل همیشه ما رو در این مسیر همراهی کنید.

اگر به موضوع علاقمندید می‌تونید شرح کامل ماجرا و توضیحات مفصل اون رو از زبان مدیرعامل شرکت ترگمان تو این پست بلاگ مطالعه کنید.