داستان گوگل ترنسلیت و ترگمان
حتما شما هم با موتورهای ترجمه مثل گوگل، ترگمان، بینگ و ... آشنا هستید و شاید از جمله سرویسهایی که باشند روزانه با اونا سروکار دارید. همونطور که میدونید ترجمه ماشینی همواره با خطاهایی همراه بوده و ترگمان و ترجمیار هم از این قاعده مستثنی نیستند. در بررسیهای کیفی تیم ترگمان، ما متوجه تشابه اشتباهاتی در ترجمههای ترجمیار و گوگل ترنسلیت شدیم. خب مسلما اگر کمی با این حوزه آشنا باشید میدونید که علت این امر میتونه از پیکرههای جمعآوری شده در وب باشه که هم در اختیار ترگمان بوده و هم در اختیار گوگل . اما با کمی بررسیهای بیشتر متوجه شدیم که این خطاها متعلق به پیکرههای اختصاصی ترجمیار هست و این موضوع، سرآغازی برای پیگیریهای دقیق تیم ترگمان شد.
بیایید برای روشن شدن موضوع یه نگاهی به ترجمه ماشینی و نحوه کار اون بندازیم.
تعریف ترجمه ماشینی به زبانی ساده
ترجمه ماشینی فرآیندی هست که طی اون متنها به صورت خودکار و بدون دخالت مستقیم مترجم انسانی توسط نرمافزار کامپیوتری ترجمه میشوند. این موتورهای ترجمه به وسیله ترجمههای صورت گرفته توسط مترجمهای انسانی آموزش میبینند و بنابراین کیفیت این موتورها به کیفیت و میزان ترجمههای در دسترس اونها متکی هست.
اگرچه کار کردن با موتورهای ترجمه بسیار ساده و راحته، اما فنآوریهای به کارگرفتهشده برای راهاندازی اون مانند بیگدیتا، یادگیری عمیق، رایانش ابری، زبانشناسی و غیرهدر حیطه مسائل پیچیده قرار میگیرند.
نقطه قوت ترجمه ماشینی بدون شک در سرعت و حجم ترجمه انجام شده توسط اون در واحد زمان است و در مقابل، کیفیت، نقطه قوت مترجمان انسانی است. به همین جهت تلفیقی از ترجمه ماشینی و ویرایش انسانی میتونه نتیجه رضایتبخشی رو حاصل کنه.
نحوه کار و آموزش موتور ترجمه
ترجمه ماشینی با روش نورونی متکی بر پیکرههای متنی دوزبانه است و با کمک الگوریتمهای یادگیری عمیق و با استفاده از متنهای دوزبانه ارائهشده سعی در شناخت و یادگیری روابط بین کلمات و عبارات و قواعد جملهسازی دارند. اساس این روش که امروزه در اغلب مترجمهای ماشینی به کار گرفته میشه بر اینه که حجم بالایی از نمونه به ماشین ارائه میشود و ماشین به کمک الگوریتمها و این نمونهها تلاش میکنه تا بهترین ترجمه برای هر عبارت رو ارائه بده.
در اینجاست که دسترسی به منابع متنهای ترجمهشده اهمیت زیادی پیدا میکند. یعنی هر چه حجم این نمونهها بالاتر باشد، قطعا عملکرد موتور ترجمه بهتر خواهد بود. متاسفانه منابع ترجمهشده برای زبان فارسی به شدت محدود هست و این کار رو تا حد زیادی برای همه موتورهای ترجمه سخت میکنه. بنابراین سعی میشه تا از تمام پیکرههای متنی قابل استفاده در سرتاسر وب بهرهبرداری شود. علاوه بر پیکرههای متنی موجود در وب، هر موتور ترجمه ماشینی پیکره اختصاصی متعلق به خودش رو هم داره که ماجرای ترگمان و گوگل به این موضوع برمیگرده.
ماجرای استفاده گوگل از ترجمه ترگمان
به دنبال وجود تشابه در خطاهای ترجمه ارائهشده توسط ترگمان (ترجمیار) و گوگل، تصمیم تیم ترگمان بر این شد که خطاهایی رو در ترجمهها قرار بدیم تا بتونیم این مسئله رو پیگیری کنیم. در عین حال سایتهایی که از ما API میگرفتند هم امضای ما رو پای ترجمهها درج می کردند که یکی از این امضاها «[ترجمه ترگمان]» در ابتدای جمله بود و بعد منتظر شدیم!
بعد از اون، مدتی این داستان رو رصد کردیم تا در نهایت گوگل در دام کاربران ترگمان گیر افتاد! ترجمهای که اشتباه عمدی تیم ترگمان هست و امضای ترگمان هم پاش بود، گوگل نمایش داد.
زمانی که عبارت زیر رو در گوگلترنسلیت به فارسی ترجمه کنید:
7 In dropout, the unessential neurons in a network are removed.
به احتمال خیلی زیاد ترجمهای که در تصویر میبینید رو نمایش میده و نکته جالبتر این که اگر این جمله در ترگمان هم ترجمه کنید به ترجمه مشابهی میرسید.
رد فرضیه ارائه پیشنهاد ترجمه به گوگل توسط تیم ترگمان
اگر شما هم با گوگل ترنسلیت کار کرده باشید احتمالا متوجه شدید که میتونید بهعنوان یک مشارکتکننده (contributor) ترجمههایی رو در گوگل پیشنهاد کنید. از همین جهت شاید برخی از افراد با خودشون فکر کنند که تیم ترگمان خودش پیشنهاد این ترجمه رو به گوگل ارائه کرده و حالا ادعای استفاده گوگل از ترگمان رو داره.
اما واقعیت از این قرارهکه طی حواشیی که در ترجمههای جنجالی گوگل به وجود آمد، مثل ترجمه نامناسب «احمدینژاد» و یا جنجالهای ترجمه «خلیج فارس» که منجر به جدال آنلاین بین کاربران ایرانی و عربی شد و یکی سری خطاهای دیگه مربوط به سایر زبانها گوگل رو حسابی گمراه کرد و به دردسر انداخت، گوگل تصمیم به تغییر روش عملکرد خودش در اعمال بازخوردهای کاربران در گوگل ترنسلیت کرد. بعد از اون گوگل ترجمه کاربران رو به صورت مستقیم در موتور اعمال نکرد. و برای نمایش ترجمههای پیشنهادی کاربران هم یک تیک رو به منظور سلب مسئولیت از خودش نشون داد.
بنابراین با توجه به این نکته، این اتهام که خود بچههای ترگمان این ترجمه رو به گوگل پیشنهاد کردند به طور کلی رد میشه.
از طرف دیگه وقتی جملات از طرف کاربران پیشنهاد شده باشه نمیشه با تغییر جمله ترجمه غلط مشابه گرفت در حالی که در این مورد هم تعداد جملات زیادی هست که این خطا در مورد گوگل رخ میده و هم اینکه میشه جمله رو تغییر داد و کماکان گوگل اعتراف کنه که ترجمه رو از ترگمان یاد گرفته.
سخن پایانی
قطعا این پایان ماجراهای ترگمان نخواهد بود و تمام تلاش تیم ترگمان بر آن هست که کیفیت مطلوبی ارائه بده و بتونه در آیندهای نزدیک در ارائه سرویسهای ترجمه به ویژه زبان فارسی از رقبا پیشی بگیره. و امیدواریم که مثل همیشه ما رو در این مسیر همراهی کنید.
اگر به موضوع علاقمندید میتونید شرح کامل ماجرا و توضیحات مفصل اون رو از زبان مدیرعامل شرکت ترگمان تو این پست بلاگ مطالعه کنید.
مطلبی دیگر از این انتشارات
چگونه از رویکرد BEAM در پروژههای تحلیل داده استفاده کنیم
مطلبی دیگر از این انتشارات
یادگیری تقویتی مقیاس پذیر با SEED RL
مطلبی دیگر از این انتشارات
یک تنش کیهانی جدید: جهان ممکن است خیلی نازک باشد