یک عاشق الکترونیک دیجیتال که از مسیر رباتیک به هوشمصنوعی رسید و آینده را در هوش واقعی میبیند. عضوی از تیم ترگمان.
ماجرای استفاده گوگل از ترگمان
چیزی که ۲ سال دنبالش بودیم رو امشب امیر رشیدی عزیز لو داد! گوگل در ترجمه جمله زیر به صراحت اعلام کرد که ترجمه رو از ترگمان گرفته!
7 In dropout, the unessential neurons in a network are removed.
مگه میشه؟ مگه داریم؟ گوگل کجا ترگمان کجا! قضیه چیه؟ تو این پست سعی میکنم موضوع رو با بیان ساده فنی توضیح بدم.
شروع ماجرا
حدود ۲ سال پیش بچهها داشتند خروجیهای ترجمه ترجمیار رو بررسی میکردند برای امتحان چند جملهای رو که خیلی بی ربط و غلط ترجمه شده بود رو دادیم به گوگل و با کمال تعجب دیدیم که گوگل دقیقا همون ترجمه غلط رو تحویلمون داد! اول حدس زدیم که این غلط ناشی از پیکرههایی باشه که از وب گردآوری کردیم و طبعا این پیکرهها در اختیار گوگل هم بود. اما وقتی دقیق پیگیری کردیم دیدیم که اینطور نیست و اتفاقا خطا در حوزه تخصصی و ناشی از پیکرههای اختصاصی ما بود که نمیشد اونها رو تو وب پیدا کرد. حدس زدیم که احتمالا گوگل داره از ترگمان و ترجمیار استفاده میکنه و موتورهای ترجمهاش رو آموزش میده. اما خب این ادعای خیلی گزافی بود و به هرکی میگفتیم حتما میگفت ماجرا برعکسه و شما دارید از گوگل استفاده میکنید. برای همین هم تصمیم گرفتیم یک سری خطاهای تعمدی توی ترجمهها بگنجونیم که امضای خودمون پاش باشه و بتونیم بعدا پیگیری کنیم.
تو این مدت خیلی پایش کردیم ولی اثری ازش نبود تا این که چند وقت پیش نشانههای ازش ظاهر شد. صداش رو در نیاوردیم و با چند نفر صحبت کردیم در مورد اینکه چه کاری میشه انجام داد و نتیجه این بود که طبیعتا به عنوان یک محصول ایرانی نمیتونیم علیه گوگل تو آمریکا شکایت کنیم و تازه اگر هم شکایت کنیم پس از صرف هزینههای بسیار زیاد هیچ نتیجهای نخواهیم گرفت. در نتیجه فقط خودمون خوشحال بودیم. اثر انگشت و نشانهای هم که پیدا می کردیم جوری نبود که بتونیم روش مانور بدیم و اثبات کنیم و بدتر متهم میشدیم. تا اینکه این توییت امیر چیزی رو نشون داد که دیگه ردخور نداشت!
یکم بیان فنی
مترجمهای ماشینی جدید همه از الگوریتمهای یادگیری عمیق استفاده میکنند. این مترجمها در واقع دارن روابط بین عبارات و کلمات و قواعد جملهسازی و ترجمه میان دو زبان رو با نگاشت کلمات و اجزای کلمات به بردارهای عددی و سپس آموزش شبکههای عصبی چند لایه پیچیده یاد میگیرند. جدای از پیچیدگیهای الگوریتم و توسعه این موتورها مهمترین چیزی که باعث میشه یک موتور بهتر ترجمه کنه حجم متنهای ترجمهشدهای است که به موتور آموزش داده میشه.
اینطور فرض کنید که موتور مترجم ما کودکیست با پدر و مادری مهاجر که فارسی صحبت میکنند اما در مدرسه و محیط انگلیسیزبان پرورش پیدا میکند. این کودک به مرور هر دو زبان رو به خوبی و مستقل از هم یاد میگیره و کمکم حتی نحوه ترجمه میان دو زبان رو هم میآموزه بدون اینکه دیکشنری استفاده کنه یا قواعد اون دو زبان رو به روشی که زبانشناسان بیان میکنند بلد باشه. هرچی این کودک کتاب بیشتری بخونه و متنهای ترجمه شده بیشتری مطالعه کنه کیفیت ترجمهاش هم بیشتر میشه.
تقریبا همه موتورهای ترجمه فعلی دنیا مثل گوگل، بینگ، ترگمان، یاندکس و ... از الگوریتمهای مشابهای استفاده میکنند و اصل رقابت اونها در میزان دسترسیشون به منابع آموزشی (متنهای ترجمهشده) و میزان دقت در پیشپردازش و تنظیم پارامترهای موتورهاست.
زبان فارسی از جمله زبانهایی است که منابع ترجمهشده براش خیلی محدوده بخواهیم یک مقایسه ساده کنیم در طول ۱۰ سال گذشته ما به زور تونستیم با خرید متن از دارالترجمهها و گردآوری از وب به کمتر از ۴۰۰ میلیون کلمه متن ترجمه شده خوب دست پیدا کنیم. در حالی که یک دانشجوی زبانشناسی رایانشی کافیه اراده کنه تا حدود ۳ میلیارد کلمه متن ترجمه شده انگلیسی - اسپانیایی در اختیارش قرار بگیره! اخیرا فیسبوک هم یک پیکره خیلی بزرگ زبانی منتشر کرده که حدود ۸۰۰ میلیون کلمه فارسی رو در بر داره اما کیفیت ترجمهاش به شدت پایینه و قابل استفاده نیست.
این کم بودن متنهای ترجمهشده برای زبان فارسی وقتی بخواهیم مترجمی غیر از انگلیسی - فارسی توسعه بدیم مثلا فارسی - اسپانیایی بدتر هم می شه و دیگه به زور بشه ۵۰ میلیون کلمه متن پیدا کرد در نتیجه همه مترجمها از روشی استفاده میکنند به نام زبان پل. یعنی انگلیسی رو به عنوان زبان واسط در نظر میگیرند و زبان مبدا رو به انگلیسی و انگلیسی رو به زبان مقصد ترجمه میکنند.
قضیه ترجمه گوگل که توش نوشته ترگمان چیه؟
همونطور که گفتم ما تو ترجمههامون امضا گذاشته بودیم که بتونیم ماجرا رو ثابت کنیم. وقتی گوگل متنهای ترجمهشده میگیره ماشین به صورت خودکار شروع میکنه ربط دادن عبارات به هم و حالا در خصوص این جمله بخش اول جمله رو به «[ترجمه ترگمان] در ترک تحصیل» ربط داده که هم ترجمه غلطی است، هم امضای ترگمان داره و هم دقیقا معادل ترجمه ترگمانه.
این موضوع هم منحصر به همین یک جمله نیست و می تونید توی جمله تغییر بدید و ببینید که هنوز هم برای برخی ترجمهها به ترگمان استناد می کنه یا حتی روی خود جمله ترجمهشده کلیک کنید و ببینید که حتی پیشنهاد دوم و بعضا سومش هم بازم از ترگمانه! تازه این جدای از تعداد بسیار زیادی خطای ترجمه است که چون کلمه ترگمان رو توش نمیبینید ممکنه به حرفمون اعتمتاد نکنید.
شاید خیلیها فکر کنند که ما خودمون رفتیم این ترجمه رو به گوگل پیشنهاد دادیم اما بعد از ماجرای ترجمه توهین آمیز کلمه «احمدینژاد»، ماجرای ترجمه «خلیج فارس» و چند مورد دیگه که در سایر زبانها گوگل دچار اصطلاحا بمب گوگلی شد و کاربران با ترجمههای غلط اون رو به اشتباه انداختند روش اعمال بازخورد کاربران در مترجم گوگل عوض شد و دیگه هیچ ترجمهای رو مستقیم وارد موتور نکرد. و برای ترجمههایی هم که تایید کاربران رو داشت جلوی ترجمه یک تیک نشون داد. مضاف بر اینکه وقتی جمله به پیشنهاد کاربران باشه با تغییر در اون دیگه همون ترجمه قبلی ظاهر نمیشه در حالی که در جملات نمونهای که دادیم با تغییرات جزیی در جمله همون ترجمه دوباره ظاهر میشه.
اونطور که ما آزمایش کردیم گوگل این خطا رو فقط در برخی از موتورهای ترجمهاش داره و مثلا به مرورگر و یا VPN مختلف ترجمههای متفاوت ارایه می کنه و از اونجایی که درخواستهای ترجمه Cache میشه اون کاربران همیشه همون ترجمه رو خواهند گرفت. تاکنون برای همین جمله ابتدای مقاله ۵ ترجمه متفاوت از گوگل گرفتیم که نشون میده موتورهای مختلفش ترجمههای مختلف تولید میکنند.
در خصوص اینکه چرا برای ترجمه از سایر زبانها به فارسی هم همین اتفاق رخ میده جوابش ساده است گوگل اول اون جمله رو به انگلیسی ترجمه میکنه و طبیعتا ترجمه یک جمله انگلیسی به انگلیسی میشه خودش و بعد فارسیش میکنه در نتیجه همون ترجمه رو میگیرید.
یه سؤال هم برخی دوستان در شبکههای اجتماعی پرسیده بودند که آیا این کار گوگل غیر قانونی بوده یا نه: حقیقت اینه که این سؤال پاسخ صریح نداره. خود گوگل قبلا علیه مایکروسافت شکایت کرده بود که چرا داری از نتایج جستجوی من توی بینگ استفاده می کنی؟ (در اصل گوگل هم مثل ما یک سری نتایج غلط عمدی گذاشته بود که مچ بینگ رو بگیره) جواب مایکروسافت این بود: «خب که چی؟» (https://www.wired.com/2011/02/bing-copies-google) گوگل هم مثل هر مترجم ماشینی دیگری سعی می کنه از هر منبع ممکن داده گردآوری کنه برای آموزش موتور ترجمه اش. خیلی سایتها هستند مثل فریپیپر یا آبادیس که از API ترگمان و ترجمیار استفاده میکنند برای ترجمه محتوا و انتشارش در وب خیلی از مقالاتی هم که توسط ترجمیار یا ترنج ترجمه میشوند در فضای وب برای فروش گذاشته و حداقل خلاصه آنها در دسترس هستند. تیم گردآوری پیکره گوگل هم طبیعتا می تونسته به این محتوا دسترسی پیدا کنه. و باید توجه داشت که گردآوری پیکره با خزش خیلی متفاوته چون احتیاج به این داره که حتما متنهای موازی تشکیل بشه و به صرف دیدن یک محتوا توسط رباتهای گوگل پیکره مناسب برای آموزش ترجمه ماشینی تشکیل نمیشه. چند سال پیش ما خودمون سعی کردیم با استفاده از گوگل کمی پیکره انگلیسی فارسی تولید کنیم ولی نتایج اینقدر ضعیف بودند که عطایش رو به لقایش بخشیدیم. اما این کار برای گوگل نفع بزرگی داشت چون به صورت غیر مستقیم به پیکرههای اختصاصی ما دست پیدا کرد هرچند در این مسیر بیدقتی کرد و لو رفت.
نتیجهگیری
از یک طرف خیلی خوشحالم که این اتفاق افتاده و ترگمان (البته بهتره بگم ترجمیار چون متن تخصصی بوده) توسط گوگل استفاده شده از طرف دیگه ناراحتم که چرا تو جزیرهای که برای خودمون درست کردیم نمیتونیم راحت با گوگل تعامل داشته باشیم. مسلم هر شرکت دیگهای خارج از ایران بود الان از این موضوع میتونست حسابی بهرهبرداری کنه.
اما یک چیز خیلی مهم هم اضافه کنم. همیشه تو همه جا گفتم که ما در ترگمان مخالف هر گونه فیلتر شدن سرویسهای پرکاربردی مثل گوگل هستیم و تو تمام ۱۰ سال گذشته هم با افتخار رقابتی سالم باهاش داشتیم و به اندازه توانمون موفق ظاهر شدیم.
از همه کاربران هم عذرخواهی میکنیم که در یکسال گذشته به دلیل محدودیتهای شدید سختافزاری نتونستیم کیفیت خیلی مطلوبی ارایه کنیم و تو این مدت گوگل پیشرفت شایان توجهی داشته. انشاالله به زودی با نصب سرورهای جدید ترگمان می تونیم موتورهای جدیدمون رو راهاندازی کنیم و دوباره با بزرگان حوزه ترجمهماشینی سرشاخ بشیم.
راستی قصه ترگمان رو هم قبلا نوشتم دوستداشتید بخونید
پذیرای سوالاتتون هستم.
مطلبی دیگر از این انتشارات
۴ نوع اصلی ترجمه قانونی
مطلبی دیگر از این انتشارات
ما رو خود کرونا نکشه، استرساش میکشه.
مطلبی دیگر از این انتشارات
۱۲ ابزار ترجمه آنلاین پیشنهاد شده توسط مترجمان