ماجرای استفاده گوگل از ترگمان

گوگل در ترجمه یک جمله تصریح می‌کنه که از ترگمان استفاده کرده!

چیزی که ۲ سال دنبالش بودیم رو امشب امیر رشیدی عزیز لو داد! گوگل در ترجمه جمله زیر به صراحت اعلام کرد که ترجمه رو از ترگمان گرفته!

7 In dropout, the unessential neurons in a network are removed.

مگه می‌شه؟ مگه داریم؟ گوگل کجا ترگمان کجا! قضیه چیه؟ تو این پست سعی می‌کنم موضوع رو با بیان ساده فنی توضیح بدم.

توییت امیر رشیدی در مورد استفاده گوگل از ترگمان

شروع ماجرا

حدود ۲ سال پیش بچه‌ها داشتند خروجی‌های ترجمه ترجمیار رو بررسی می‌کردند برای امتحان چند جمله‌ای رو که خیلی بی ربط و غلط ترجمه شده بود رو دادیم به گوگل و با کمال تعجب دیدیم که گوگل دقیقا همون ترجمه غلط رو تحویلمون داد! اول حدس زدیم که این غلط ناشی از پیکره‌هایی باشه که از وب گردآوری کردیم و طبعا این پیکره‌ها در اختیار گوگل هم بود. اما وقتی دقیق پی‌گیری کردیم دیدیم که اینطور نیست و اتفاقا خطا در حوزه تخصصی و ناشی از پیکره‌های اختصاصی ما بود که نمی‌شد اون‌ها رو تو وب پیدا کرد. حدس زدیم که احتمالا گوگل داره از ترگمان و ترجمیار استفاده می‌کنه و موتورهای ترجمه‌اش رو آموزش می‌ده. اما خب این ادعای خیلی گزافی بود و به هرکی می‌گفتیم حتما می‌گفت ماجرا برعکسه و شما دارید از گوگل استفاده می‌کنید. برای همین هم تصمیم گرفتیم یک سری خطاهای تعمدی توی ترجمه‌ها بگنجونیم که امضای خودمون پاش باشه و بتونیم بعدا پی‌گیری کنیم.

تو این مدت خیلی پایش کردیم ولی اثری ازش نبود تا این که چند وقت پیش نشانه‌های ازش ظاهر شد. صداش رو در نیاوردیم و با چند نفر صحبت کردیم در مورد اینکه چه کاری می‌شه انجام داد و نتیجه این بود که طبیعتا به عنوان یک محصول ایرانی نمی‌تونیم علیه گوگل تو آمریکا شکایت کنیم و تازه اگر هم شکایت کنیم پس از صرف هزینه‌های بسیار زیاد هیچ نتیجه‌ای نخواهیم گرفت. در نتیجه فقط خودمون خوشحال بودیم. اثر انگشت و نشانه‌ای هم که پیدا می کردیم جوری نبود که بتونیم روش مانور بدیم و اثبات کنیم و بدتر متهم می‌شدیم. تا اینکه این توییت امیر چیزی رو نشون داد که دیگه ردخور نداشت!

یکم بیان فنی

مترجم‌های ماشینی جدید همه از الگوریتم‌های یادگیری عمیق استفاده می‌کنند. این مترجم‌ها در واقع دارن روابط بین عبارات و کلمات و قواعد جمله‌سازی و ترجمه میان دو زبان رو با نگاشت کلمات و اجزای کلمات به بردارهای عددی و سپس آموزش شبکه‌های عصبی چند لایه پیچیده یاد می‌گیرند. جدای از پیچیدگی‌های الگوریتم و توسعه این موتورها مهمترین چیزی که باعث می‌شه یک موتور بهتر ترجمه کنه حجم متن‌های ترجمه‌شده‌ای است که به موتور آموزش داده می‌شه.

اینطور فرض کنید که موتور مترجم ما کودکیست با پدر و مادری مهاجر که فارسی صحبت می‌کنند اما در مدرسه‌ و محیط انگلیسی‌زبان پرورش پیدا می‌کند. این کودک به مرور هر دو زبان رو به خوبی و مستقل از هم یاد می‌گیره و کم‌کم حتی نحوه ترجمه میان دو زبان رو هم می‌آموزه بدون اینکه دیکشنری استفاده کنه یا قواعد اون دو زبان رو به روشی که زبان‌شناسان بیان می‌کنند بلد باشه. هرچی این کودک کتاب بیشتری بخونه و متن‌های ترجمه شده بیشتری مطالعه کنه کیفیت ترجمه‌اش هم بیشتر می‌شه.

تقریبا همه موتورهای ترجمه فعلی دنیا مثل گوگل، بینگ، ترگمان، یاندکس و ... از الگوریتم‌های مشابه‌ای استفاده می‌کنند و اصل رقابت اون‌ها در میزان دسترسیشون به منابع آموزشی (متن‌های ترجمه‌شده) و میزان دقت در پیش‌پردازش و تنظیم پارامترهای موتورهاست.

زبان فارسی از جمله زبان‌هایی است که منابع ترجمه‌شده براش خیلی محدوده بخواهیم یک مقایسه ساده کنیم در طول ۱۰ سال گذشته ما به زور تونستیم با خرید متن از دارالترجمه‌ها و گردآوری از وب به کمتر از ۴۰۰ میلیون کلمه متن ترجمه شده خوب دست پیدا کنیم. در حالی که یک دانشجوی زبان‌شناسی رایانشی کافیه اراده کنه تا حدود ۳ میلیارد کلمه متن ترجمه شده انگلیسی - اسپانیایی در اختیارش قرار بگیره! اخیرا فیسبوک هم یک پیکره خیلی بزرگ زبانی منتشر کرده که حدود ۸۰۰ میلیون کلمه فارسی رو در بر داره اما کیفیت ترجمه‌اش به شدت پایینه و قابل استفاده نیست.

این کم بودن متن‌های ترجمه‌شده برای زبان فارسی وقتی بخواهیم مترجمی غیر از انگلیسی - فارسی توسعه بدیم مثلا فارسی - اسپانیایی بدتر هم می شه و دیگه به زور بشه ۵۰ میلیون کلمه متن پیدا کرد در نتیجه همه مترجم‌ها از روشی استفاده می‌کنند به نام زبان پل. یعنی انگلیسی رو به عنوان زبان واسط در نظر می‌گیرند و زبان مبدا رو به انگلیسی و انگلیسی رو به زبان مقصد ترجمه می‌کنند.

قضیه ترجمه گوگل که توش نوشته ترگمان چیه؟

همونطور که گفتم ما تو ترجمه‌هامون امضا گذاشته بودیم که بتونیم ماجرا رو ثابت کنیم. وقتی گوگل متن‌های ترجمه‌شده می‌گیره ماشین به صورت خودکار شروع می‌کنه ربط دادن عبارات به هم و حالا در خصوص این جمله بخش اول جمله رو به «[ترجمه ترگمان] در ترک تحصیل» ربط داده که هم ترجمه غلطی است، هم امضای ترگمان داره و هم دقیقا معادل ترجمه ترگمانه.

این موضوع هم منحصر به همین یک جمله نیست و می تونید توی جمله تغییر بدید و ببینید که هنوز هم برای برخی ترجمه‌ها به ترگمان استناد می کنه یا حتی روی خود جمله ترجمه‌شده کلیک کنید و ببینید که حتی پیشنهاد دوم و بعضا سومش هم بازم از ترگمانه! تازه این جدای از تعداد بسیار زیادی خطای ترجمه‌ است که چون کلمه ترگمان رو توش نمی‌بینید ممکنه به حرفمون اعتمتاد نکنید.

چند جمله متفاوت که در همه اون‌ها از ترجمه ترگمان استفاده شده

شاید خیلی‌ها فکر کنند که ما خودمون رفتیم این ترجمه رو به گوگل پیشنهاد دادیم اما بعد از ماجرای ترجمه توهین آمیز کلمه «احمدی‌نژاد»، ماجرای ترجمه «خلیج فارس» و چند مورد دیگه که در سایر زبان‌ها گوگل دچار اصطلاحا بمب گوگلی شد و کاربران با ترجمه‌های غلط اون رو به اشتباه انداختند روش اعمال بازخورد کاربران در مترجم گوگل عوض شد و دیگه هیچ ترجمه‌ای رو مستقیم وارد موتور نکرد. و برای ترجمه‌هایی هم که تایید کاربران رو داشت جلوی ترجمه یک تیک نشون داد. مضاف بر اینکه وقتی جمله به پیشنهاد کاربران باشه با تغییر در اون دیگه همون ترجمه قبلی ظاهر نمی‌شه در حالی که در جملات نمونه‌ای که دادیم با تغییرات جزیی در جمله همون ترجمه دوباره ظاهر می‌شه.

ترجمه persian gulf در گوگل به پیشنهاد کاربران

اونطور که ما آزمایش کردیم گوگل این خطا رو فقط در برخی از موتورهای ترجمه‌اش داره و مثلا به مرورگر و یا VPN مختلف ترجمه‌های متفاوت ارایه می کنه و از اونجایی که درخواست‌های ترجمه Cache می‌شه اون کاربران همیشه همون ترجمه رو خواهند گرفت. تاکنون برای همین جمله ابتدای مقاله ۵ ترجمه متفاوت از گوگل گرفتیم که نشون می‌ده موتورهای مختلفش ترجمه‌های مختلف تولید می‌کنند.

در خصوص اینکه چرا برای ترجمه از سایر زبان‌ها به فارسی هم همین اتفاق رخ می‌ده جوابش ساده است گوگل اول اون جمله رو به انگلیسی ترجمه می‌کنه و طبیعتا ترجمه یک جمله انگلیسی به انگلیسی می‌شه خودش و بعد فارسیش می‌کنه در نتیجه همون ترجمه رو می‌گیرید.

یه سؤال هم برخی دوستان در شبکه‌های اجتماعی پرسیده بودند که آیا این کار گوگل غیر قانونی بوده یا نه: حقیقت اینه که این سؤال پاسخ صریح نداره. خود گوگل قبلا علیه مایکروسافت شکایت کرده بود که چرا داری از نتایج جستجوی من توی بینگ استفاده می کنی؟ (در اصل گوگل هم مثل ما یک سری نتایج غلط عمدی گذاشته بود که مچ بینگ رو بگیره) جواب مایکروسافت این بود: «خب که چی؟» (https://www.wired.com/2011/02/bing-copies-google) گوگل هم مثل هر مترجم ماشینی دیگری سعی می کنه از هر منبع ممکن داده گردآوری کنه برای آموزش موتور ترجمه اش. خیلی سایت‌ها هستند مثل فری‌پیپر یا آبادیس که از API ترگمان و ترجمیار استفاده می‌کنند برای ترجمه محتوا و انتشارش در وب خیلی از مقالاتی هم که توسط ترجمیار یا ترنج ترجمه می‌شوند در فضای وب برای فروش گذاشته و حداقل خلاصه آن‌ها در دسترس هستند. تیم گردآوری پیکره گوگل هم طبیعتا می تونسته به این محتوا دسترسی پیدا کنه. و باید توجه داشت که گردآوری پیکره با خزش خیلی متفاوته چون احتیاج به این داره که حتما متن‌های موازی تشکیل بشه و به صرف دیدن یک محتوا توسط ربات‌های گوگل پیکره مناسب برای آموزش ترجمه ماشینی تشکیل نمی‌شه. چند سال پیش ما خودمون سعی کردیم با استفاده از گوگل کمی پیکره انگلیسی فارسی تولید کنیم ولی نتایج اینقدر ضعیف بودند که عطایش رو به لقایش بخشیدیم. اما این کار برای گوگل نفع بزرگی داشت چون به صورت غیر مستقیم به پیکره‌های اختصاصی ما دست پیدا کرد هرچند در این مسیر بی‌دقتی کرد و لو رفت.

نتیجه‌گیری

از یک طرف خیلی خوشحالم که این اتفاق افتاده و ترگمان (البته بهتره بگم ترجمیار چون متن تخصصی بوده) توسط گوگل استفاده شده از طرف دیگه ناراحتم که چرا تو جزیره‌ای که برای خودمون درست کردیم نمی‌تونیم راحت با گوگل تعامل داشته باشیم. مسلم هر شرکت دیگه‌ای خارج از ایران بود الان از این موضوع می‌تونست حسابی بهره‌برداری کنه.

اما یک چیز خیلی مهم هم اضافه کنم. همیشه تو همه جا گفتم که ما در ترگمان مخالف هر گونه فیلتر شدن سرویس‌های پرکاربردی مثل گوگل هستیم و تو تمام ۱۰ سال گذشته هم با افتخار رقابتی سالم باهاش داشتیم و به اندازه توانمون موفق ظاهر شدیم.

از همه کاربران هم عذرخواهی می‌کنیم که در یک‌سال گذشته به دلیل محدودیت‌های شدید سخت‌افزاری نتونستیم کیفیت خیلی مطلوبی ارایه کنیم و تو این مدت گوگل پیشرفت شایان توجهی داشته. انشاالله به زودی با نصب سرورهای جدید ترگمان می تونیم موتور‌های جدیدمون رو راه‌اندازی کنیم و دوباره با بزرگان حوزه ترجمه‌ماشینی سرشاخ بشیم.

راستی قصه ترگمان رو هم قبلا نوشتم دوست‌داشتید بخونید

https://blog.targoman.ir/%D9%82%D8%B5%D9%87-%D8%AA%D8%B1%DA%AF%D9%85%D8%A7%D9%86-%D8%A8%D8%AF%D9%88%D9%86-%D8%B1%D8%A7%D9%86%D8%AA-%D9%87%D9%85-%D9%85%DA%AF%D8%B1-%D9%85%DB%8C%D8%B4%D9%88%D8%AF-rqbt1zut3uri

پذیرای سوالاتتون هستم.

ماجرای استفاده گوگل از ترگمان

شروع ماجرا

یکم بیان فنی

قضیه ترجمه گوگل که توش نوشته ترگمان چیه؟

نتیجه‌گیری

راه اندازی یک highavailable system به همراه لود بالانسر

بهترین کاربردهای ترجمه ماشینی

نشست ترجمه و نشر در عصر فناوری