موتور ترجمه ماشینی ترگمان به‌روز شد

مقایسه ترجمه موتور جدید ترگمان با گوگل
مقایسه ترجمه موتور جدید ترگمان با گوگل


ترگمان یکی از محبوب‌ترین موتورهای ترجمه ماشینی ایرانی است که از سال ۱۳۹۰ کار خود را با ارایه ترجمه ماشینی آماری آغاز کرد و از همان ابتدا سعی داشت به عنوان رقیبی برای موتورهای معروفی همچون گوگل، بینگ و نظایر محسوب شود و مفتخر است که در سال ۱۳۹۷ به عنوان بهترین وب سایت در بخش نیازمندی‌های تخصصی از نگاه کاربران و در سال ۱۳۹۸ به عنوان برترین استارتاپ هوش مصنوعی کشور از سوی معاونت علمی و فناوری ریاست جمهوری معرفی شود. در مسیر توسعه این موتور چالش‌های فراوانی وجود داشته که قصه طولانی آن از ابتدا تا رسیدن به قله موفقیت پیشتر نوشته شده.

https://blog.targoman.ir/%D9%82%D8%B5%D9%87-%D8%AA%D8%B1%DA%AF%D9%85%D8%A7%D9%86-%D8%A8%D8%AF%D9%88%D9%86-%D8%B1%D8%A7%D9%86%D8%AA-%D9%87%D9%85-%D9%85%DA%AF%D8%B1-%D9%85%DB%8C%D8%B4%D9%88%D8%AF-rqbt1zut3uri
https://vrgl.ir/PxqNL


از سال ۱۳۹۶ که موتور نورونی ترگمان راه‌اندازی شد مدل موتور ترجمه مورد استفاده در ترگمان مبتنی بر مدل RNN بود. این مدل از اولین مدل‌های ترجمه مبتنی بر شبکه‌های عصبی ژرف بود که تیم ترگمان توانسته بود دقیقا دو هفته قبل از گوگل مترجم انگلیسی - فارسی نورونی را راه‌اندازی کند. چند ماه بعد توانستیم موتور ترجمه مبتنی بر ترنسفرمر (transformer) را راه‌اندازی کنیم که کیفیتی به مراتب بالاتر داشت اما موتور ترنسفورمر به حدود ۴ برابر ظرفیت پردازشی بیشتر نیاز داشت و سرعت آن هم حدود ۳ برابر کمتر از مدل مبتنی بر RNN بود.

از آن جایی که از یک طرف تعداد کاربران ترگمان روز به روز در حال افزایش بود به نحوی که در آذرماه ۱۳۹۹ به رکورد ترجمه روازنه ۷۲ میلیون کلمه رسید، و از طرف دیگر محدودیت‌های شدید سخت‌افزاری که داشتیم عملا نتوانستیم که موتور جدید را برای ترگمان راه‌اندازی کنیم. در نتیجه این موتور را صرفا برای ترجمیار و چند مشتری خصوصی دیگر که از ما موتور اختصاصی ترجمه خریده بودند، راه‌اندازی کردیم.

https://blog.targoman.ir/%DB%B7%DB%B0-%D9%85%DB%8C%D9%84%DB%8C%D9%88%D9%86-%DA%A9%D9%84%D9%85%D9%87-%D8%AA%D8%B1%D8%AC%D9%85%D9%87-%D8%AF%D8%B1-%D8%B1%D9%88%D8%B2-rlbhzqsaayuc


مدت‌های مدید با وزارت ارتباطات رایزنی کردیم تا بتوانیم زیرساخت لازم برای به‌سازی و ارتقای ترگمان از مدل RNN به ترنسفرمر را تامین کنیم اما محدودیت‌های بودجه‌ای و بعضا قانونی و در عین‌حال کم لطفی برخی دوستان در یکی از صندوق‌های سرمایه‌گذاری مانع تهیه سخت‌افزار لازم شد. دوستان سرمایه‌گذار با وجودی که قرار بود بخش بزرگی از مبلغ سرمایه‌گذاری را از وزارت ارتباطات دریافت کنند، با انکار پیشرفت‌های ترگمان و ترجمیار معتقد بودند که با وجود پیشرفت‌های گوگل، بخش خصوصی نباید در این حوزه سرمایه‌گذاری کند و ریسک کار بالاست! البته اگر اهل توییتر باشید حتما اخبار پیشرفت‌های بعدی ترجمیار و ترگمان را دیده‌اید (لینک ۱ و لینک ۲)

طبیعی است که در نبود سخت‌افزار لازم نمی‌توانستیم موتور جدید را راه‌اندازی کنیم و همزمان گوگل روز به روز پیشرفت می‌کرد و کم‌کم نه تنها فاصله خود را با ترگمان کم کرد بلکه حتی از خودمان سوءاستفاده کرد! و پیشی گرفت. احتمالا اخبار این دزدی علمی را در جراید و شبکه‌های اجتماعی خوانده‌اید.

https://blog.targoman.ir/%D9%85%D8%A7%D8%AC%D8%B1%D8%A7%DB%8C-%D8%A7%D8%B3%D8%AA%D9%81%D8%A7%D8%AF%D9%87-%DA%AF%D9%88%DA%AF%D9%84-%D8%A7%D8%B2-%D8%AA%D8%B1%DA%AF%D9%85%D8%A7%D9%86-wrpomhzongqu


از آنجایی که تامین زیرساخت‌های مبتنی بر پردازنده گرافیکی جدید توسط وزارت ارتباطات میسر نشد؛ قرار بر این شد که تعدادی سرور معمولی در اختیارمان قرارداده شود و ما سیستم‌ها را به نحوی اصلاح کنیم که امکان سرویس‌دهی روی CPU هم داشته باشند. اما مشکل اینجا بود که از یک طرف سرورهای تحویل شده به دلایلی که ترجیح می‌دهم در این مقاله آن‌ها را بازگو نکنم هنوز عملیاتی نشده‌اند؛ از طرف دیگر ترجمه با CPU هم از نظر کیفیت و هم از نظر سرعت قابل قیاس با ترجمه مبتنی بر GPU نیست و دیگر نمی‌شد حداقل در حوزه انگلیسی - فارسی با گوگل رقابت کرد. به همین دلیل تیم فنی ترگمان بر آن شد به هر طریق ممکن از زیرساخت‌های پردازنده گرافیکی در دسترس که از سال ۱۳۹۵ در محل پژوهشگاه ارتباطات و فناوری اطلاعات در اختیار ترگمان قرار گرفته و امروزه عملا مستهلک محسوب می‌شوند (GTX 1080 با عمر بیش از ۵ سال زیر فشار کامل)، برای ارتقا استفاده کند.

دو هفته پیش بالاخره توانستیم بر این مشکل غلبه کنیم و پس از طی آزمایشات امروز مفتخریم اعلام کنیم که هم‌اکنون می‌توانید از ترگمان مبتنی بر مدل ترنسفرمر استفاده کنید. دوست عزیز و همکار گرامیم، دکتر ودادیان در پست زیر با جزییات کامل تمامی اقداماتی که ما را موفق به رسیدن به این مهم کرد را شرح داده است.

https://blog.targoman.ir/%D8%B4%D8%B1%D8%AD%DB%8C-%D8%A8%D8%B1-%D9%85%D8%AF%D9%84-%D8%AA%D8%B1%D9%86%D8%B3%D9%81%D9%88%D8%B1%D9%85%D8%B1-%D9%85%D9%88%D8%AA%D9%88%D8%B1-%D8%AA%D8%B1%D8%AC%D9%85%D9%87-%D9%85%D8%A7%D8%B4%DB%8C%D9%86%DB%8C-%D8%AA%D8%B1%DA%AF%D9%85%D8%A7%D9%86-bjga0hzobxfe


از طرف دیگر دوهفته پیش توانستیم یکی از مهمترین مشکلاتی که برای ارتباطات با مرکز داده بومهن داشتیم را هم دور بزنیم و در حال راه‌اندازی سرویس‌های ترجمه مربوط به زبان‌های آلمانی، فرانسوی، اسپانیایی، روسی، ترکی استانبولی، ژاپنی و چینی در این مرکز داده هستیم. و به زودی می‌توانید از ترگمان برای ترجمه میان ۹ زبان استفاده کنید.

همانند همیشه از بابت همه پشتیبانی‌ها و حمایت‌های تک‌تک کاربران ترگمان و ترجمیار سپاسگزاری می‌کنم و از طرف تیم ترگمان به همه شما قول می‌دهم با وجود همه چالش‌ها و مشکلات، همواره تمام تلاشمان را برای ارایه بالاترین کیفیت به کار بندیم و سرویس در شان زبان فارسی و نام ایران و ایرانی ارایه کنیم. از مسوولین محترم هم عاجزانه خواهش می‌کنیم دست از سر کچل گوگل بردارند و خدای ناکرده آن را فیلتر نکنند و اجازه بدهند این رقابت همیشه سالم باقی بماند.