یک عاشق الکترونیک دیجیتال که از مسیر رباتیک به هوشمصنوعی رسید و آینده را در هوش واقعی میبیند. عضوی از تیم ترگمان.
موتور ترجمه ماشینی ترگمان بهروز شد
ترگمان یکی از محبوبترین موتورهای ترجمه ماشینی ایرانی است که از سال ۱۳۹۰ کار خود را با ارایه ترجمه ماشینی آماری آغاز کرد و از همان ابتدا سعی داشت به عنوان رقیبی برای موتورهای معروفی همچون گوگل، بینگ و نظایر محسوب شود و مفتخر است که در سال ۱۳۹۷ به عنوان بهترین وب سایت در بخش نیازمندیهای تخصصی از نگاه کاربران و در سال ۱۳۹۸ به عنوان برترین استارتاپ هوش مصنوعی کشور از سوی معاونت علمی و فناوری ریاست جمهوری معرفی شود. در مسیر توسعه این موتور چالشهای فراوانی وجود داشته که قصه طولانی آن از ابتدا تا رسیدن به قله موفقیت پیشتر نوشته شده.
از سال ۱۳۹۶ که موتور نورونی ترگمان راهاندازی شد مدل موتور ترجمه مورد استفاده در ترگمان مبتنی بر مدل RNN بود. این مدل از اولین مدلهای ترجمه مبتنی بر شبکههای عصبی ژرف بود که تیم ترگمان توانسته بود دقیقا دو هفته قبل از گوگل مترجم انگلیسی - فارسی نورونی را راهاندازی کند. چند ماه بعد توانستیم موتور ترجمه مبتنی بر ترنسفرمر (transformer) را راهاندازی کنیم که کیفیتی به مراتب بالاتر داشت اما موتور ترنسفورمر به حدود ۴ برابر ظرفیت پردازشی بیشتر نیاز داشت و سرعت آن هم حدود ۳ برابر کمتر از مدل مبتنی بر RNN بود.
از آن جایی که از یک طرف تعداد کاربران ترگمان روز به روز در حال افزایش بود به نحوی که در آذرماه ۱۳۹۹ به رکورد ترجمه روازنه ۷۲ میلیون کلمه رسید، و از طرف دیگر محدودیتهای شدید سختافزاری که داشتیم عملا نتوانستیم که موتور جدید را برای ترگمان راهاندازی کنیم. در نتیجه این موتور را صرفا برای ترجمیار و چند مشتری خصوصی دیگر که از ما موتور اختصاصی ترجمه خریده بودند، راهاندازی کردیم.
مدتهای مدید با وزارت ارتباطات رایزنی کردیم تا بتوانیم زیرساخت لازم برای بهسازی و ارتقای ترگمان از مدل RNN به ترنسفرمر را تامین کنیم اما محدودیتهای بودجهای و بعضا قانونی و در عینحال کم لطفی برخی دوستان در یکی از صندوقهای سرمایهگذاری مانع تهیه سختافزار لازم شد. دوستان سرمایهگذار با وجودی که قرار بود بخش بزرگی از مبلغ سرمایهگذاری را از وزارت ارتباطات دریافت کنند، با انکار پیشرفتهای ترگمان و ترجمیار معتقد بودند که با وجود پیشرفتهای گوگل، بخش خصوصی نباید در این حوزه سرمایهگذاری کند و ریسک کار بالاست! البته اگر اهل توییتر باشید حتما اخبار پیشرفتهای بعدی ترجمیار و ترگمان را دیدهاید (لینک ۱ و لینک ۲)
طبیعی است که در نبود سختافزار لازم نمیتوانستیم موتور جدید را راهاندازی کنیم و همزمان گوگل روز به روز پیشرفت میکرد و کمکم نه تنها فاصله خود را با ترگمان کم کرد بلکه حتی از خودمان سوءاستفاده کرد! و پیشی گرفت. احتمالا اخبار این دزدی علمی را در جراید و شبکههای اجتماعی خواندهاید.
از آنجایی که تامین زیرساختهای مبتنی بر پردازنده گرافیکی جدید توسط وزارت ارتباطات میسر نشد؛ قرار بر این شد که تعدادی سرور معمولی در اختیارمان قرارداده شود و ما سیستمها را به نحوی اصلاح کنیم که امکان سرویسدهی روی CPU هم داشته باشند. اما مشکل اینجا بود که از یک طرف سرورهای تحویل شده به دلایلی که ترجیح میدهم در این مقاله آنها را بازگو نکنم هنوز عملیاتی نشدهاند؛ از طرف دیگر ترجمه با CPU هم از نظر کیفیت و هم از نظر سرعت قابل قیاس با ترجمه مبتنی بر GPU نیست و دیگر نمیشد حداقل در حوزه انگلیسی - فارسی با گوگل رقابت کرد. به همین دلیل تیم فنی ترگمان بر آن شد به هر طریق ممکن از زیرساختهای پردازنده گرافیکی در دسترس که از سال ۱۳۹۵ در محل پژوهشگاه ارتباطات و فناوری اطلاعات در اختیار ترگمان قرار گرفته و امروزه عملا مستهلک محسوب میشوند (GTX 1080 با عمر بیش از ۵ سال زیر فشار کامل)، برای ارتقا استفاده کند.
دو هفته پیش بالاخره توانستیم بر این مشکل غلبه کنیم و پس از طی آزمایشات امروز مفتخریم اعلام کنیم که هماکنون میتوانید از ترگمان مبتنی بر مدل ترنسفرمر استفاده کنید. دوست عزیز و همکار گرامیم، دکتر ودادیان در پست زیر با جزییات کامل تمامی اقداماتی که ما را موفق به رسیدن به این مهم کرد را شرح داده است.
از طرف دیگر دوهفته پیش توانستیم یکی از مهمترین مشکلاتی که برای ارتباطات با مرکز داده بومهن داشتیم را هم دور بزنیم و در حال راهاندازی سرویسهای ترجمه مربوط به زبانهای آلمانی، فرانسوی، اسپانیایی، روسی، ترکی استانبولی، ژاپنی و چینی در این مرکز داده هستیم. و به زودی میتوانید از ترگمان برای ترجمه میان ۹ زبان استفاده کنید.
همانند همیشه از بابت همه پشتیبانیها و حمایتهای تکتک کاربران ترگمان و ترجمیار سپاسگزاری میکنم و از طرف تیم ترگمان به همه شما قول میدهم با وجود همه چالشها و مشکلات، همواره تمام تلاشمان را برای ارایه بالاترین کیفیت به کار بندیم و سرویس در شان زبان فارسی و نام ایران و ایرانی ارایه کنیم. از مسوولین محترم هم عاجزانه خواهش میکنیم دست از سر کچل گوگل بردارند و خدای ناکرده آن را فیلتر نکنند و اجازه بدهند این رقابت همیشه سالم باقی بماند.
مطلبی دیگر از این انتشارات
قصه ترگمان: بدون رانت هم مگر میشود؟
مطلبی دیگر از این انتشارات
قوانین مالیاتی بلای جان XaaS. چه باید کرد؟
مطلبی دیگر از این انتشارات
۱۲ ابزار ترجمه آنلاین پیشنهاد شده توسط مترجمان