یک عاشق الکترونیک دیجیتال که از مسیر رباتیک به هوشمصنوعی رسید و آینده را در هوش واقعی میبیند. عضوی از تیم ترگمان.
قصه ترگمان: بدون رانت هم مگر میشود؟
پس از آنکه «چه نیازی به شمسا داریم» را نوشتم دوباره عدهای از دوستان فیلشان یاد هندوستان کرد و موضوع نحوه تولد ترگمان میزان حمایتهای صورتگرفته از آن و دلیل این حمایتها را پیگیری کردند و سعی داشتند موضوع را به «شمسا» ربط دهند. به عقیده من، دانستن حق مردم است و زمانی که موضوع به بیتالمال مربوط باشد مسوولیت ما بیشتر شده و حتی نباید منتظر پرسش باشیم و باید همهچیز را به صورت شفاف بیان کنیم. در طول تمامی این سالها سعی کردهام با شفافسازی جلوی هرگونه شایعه یا سوءبرداشتی را بگیرم و همهچیز را همانگونه که هست بیان کنم.
با وجودی که تاکنون چندینبار در توییتر داستان را با تمام جزییات به همراه ذکر مبالغ دریافتی و مصایب آن تعریف کردهام اما ماهیت انتشار مطالب در توییتر به نحوی است که نمیتوان به خوبی آنها را پیگیری کرد. به همین سبب در این نوشته داستان خلق ترگمان را با جزییات کافی بیان میکنم تا چراغ راهی باشد برای همه آنهایی که فکر میکنند برای گرفتن بودجههای دولتی نیاز است تا حتما رانت داشت یا پسرخاله فلان مدیر و فلان وزیر بود یا فکر میکنند که بودجههای دولتی مائدههای آسمانی هستند که هرکس نصیبش شود خوشبخت خواهد شد. و البته چراغقوهای باشد (جرات نورافکن ندارم حتی به صورت بدون ذکر نام در این گزارش) بر پیمانکارانی که عادت به حیف و میل بودجههای بیتالمال دارند.
پرده اول: اولین فراخوان موتور ترجمه
- تهران - دانشگاه صنعتی امیرکبیر - شهریور سال ۱۳۸۸
بعد از ۶ سال فعالیت در حوزه امنیت شبکه و هوش مصنوعی تصمیم گرفته بودم که تحصیلاتم رو ادامه بدم. کنکور دادم و دانشگاه امیرکبیر رشته هوش مصنوعی قبول شدم. ترم دوم سال ۸۸ با دکتر خدیوی استاد بسیار جوان دانشگاه امیرکبیر که تازه دوسال بود دکترایش در حوزه ترجمهماشینی را از دانشگاه آخن آلمان گرفته و عضو هیاتعلمی دانشکده کامپیوتر شده بود، درس پردازش زبان طبیعی داشتم. به سبب تجربیاتی که از قبل در زمینه پردازش زبان طبیعی و تحلیل وب داشتم و همینطور اختلاف سنی اندک روابطمان تا حدودی صمیمی شده بود.
فراخوان چند پروژه برونسپاری از مرکز تحقیقات مخابرات به دانشگاههای کشور از جمله دانشگاه صنعتی امیرکبیر رسیده بود. دکتر خدیوی مرا به دکتر شجری از دیگر اساتید نسبتا جوان دانشگاه معرفی کردند تا با ایشان برای تهیه پروپوزال موتور جستجوی وب همکاری کنم. پروپوزال را تهیه کردم و آنقدر در سطح دانشکده و مرکز تحقیقات صدا کرد که دکتر خدیوی از من خواستند تا به ایشان هم در تهیه پروپوزال برای موتور ترجمه کمک کنم. اما مشکل اینجا بود که نه من سررشتهای از ترجمهماشینی داشتم و نه دکتر خدیوی تجربه کار با مراکز دولتی. از طرف دیگر RFP پروژه برای توسعه یک مترجم مبتنی بر قاعده نوشته شده بود و دکتر میخواست پروپوزالی برای موتور ترجمه آماری که آن زمان سرآمد بود و از دوسال قبل گوگل به صورت عملیاتی عرضه کرده بود ارایه کند!
پروپوزال موتور جستجو به مرکز تحقیقات عرضه شد و پس از جلسات متعدد و رفت و برگشت و اصلاح پروپوزال در آخر منجر به این شد که دو قرارداد، یکی با دانشگاه امیرکبیر و دیگری با دانشگاه یزد (دکتر زارع - پارسیجو) منعقد شود. در قرارداد هم ذکر شد که تنها فاز اول به هردو دانشگاه داده شده و در پایان فاز اول برنده مسابقه ادامه پروژه را بر عهده خواهد گرفت. بنا به دلایلی در همان فاز اول از ادامه همکاری با تیم دکتر شجری انصراف دادم و تیم ایشان هم در ادامه نتوانست از پس تعهدات برآمده و توسعه جویشگر کلا به دانشگاه یزد به سرپرستی دکتر زارع سپرده شد. برای جلوگیری از طولانیشدن مطلب در خصوص موضوعات مرتبط با این موتور جستجو، پارسیجو، یوز، گرگر و سایرین توضیح نمیدهم.
اما در خصوص ترجمهماشینی. مگر میشد پروپوزالی مغایر با RFP تهیه کرد؟ با همکاری دکتر خدیوی بخش اول پروپوزال را به دلایل فنی اشتباه بودن توسعه موتور قاعدهمند اختصاص دادیم و مزایا و معایب مترجم آماری نسبت به اسلافش را به صورت کامل برشمردیم. از آنجایی که دکتر خدیوی خیلی جوان بودند، در قیاس با رقبا که یکی از آنها مرد جاافتادهای با سابقه تولید موتور ترجمهماشینی از سال ۱۳۷۴ بود، حرفشان چندان برش نداشت. در این فراخوان شرکت مبنا رایانه و دانشگاههای تهران و امیرکبیر شرکت کرده بودند. طبیعتا ما مغایر RFP بودیم و نمیتوانستیم برنده باشیم. شرکت هم درست خاطرم نیست به گمانم امتیاز فنی نیاورد، در نتیجه دانشگاه تهران برنده شد و قرارداد بست.
اما ما از تک و تا نیفتادیم و برای اثبات مدعایمان جلسات متعددی را در مرکز تحقیقات در سطح کارشناسان و مدیران برگزار کردیم تا در نهایت توانستیم آنها را قانع کنیم که حرف ما درست است، آینده از آن ترجمهماشینی آماری است و ترجمه قاعدهمند در حال انقراض است. انصافا باید از درایت، صبوری و همکاریهای صمیمانه دکتر یاری، دکتر آزادنیا، دکتر میرصراف و تیم کارشناسی آن زمان مرکز تحقیقات تشکر کنم که ما را تحمل کردند و کنار نگذاشتند.
به این ترتیب در اردیبهشتماه ۱۳۹۰ (حدود ۲۰ ماه پس از فراخوان اولیه) قرار شد علاوه بر قراردادی که با دانشگاه تهران برای توسعه مترجم انگلیسی به فارسی قاعدهمند بسته شده بود یک قرارداد تحقیقاتی هم برای توسعه موتور ترجمهماشینی آماری انگلیسی به فارسی با دانشگاه امیرکبیر منعقد شود. انعقاد این قرارداد منجر به تولد اولین موتور ترجمهماشینی آماری انگلیسی - فارسی ایرانی شد.
رقم قرارداد ۲۱۰میلیون تومان بود که از این مبلغ ۳۰ درصد (۶۳ میلیون تومان) سربار دانشگاه بود؛ ۵۰ میلیون تومان به دارالترجمه شبکه مترجمین ایران پرداخت شد تا اولین پیکره دو زبانه انگلیسی به فارسی به حجم ۱۰ میلیون کلمه تولید شود؛ ۱۰ میلیون تومان صرف خرید تجهیزات شد و عملا یکسال پروژه تحقیقاتی با رقمی بالغ بر ۱۳۷ میلیون تومان (حدود ماهی ۱۱ میلیون تومان) انجام شد.
دیماه ۱۳۹۰ اولین نسخه API موتور ترجمه عرضه شد و در ارزیابیهای علمی صورتگرفته در آن زمان با معیار BLEU حدود ۱۵٪ بهبود نسبت به سایر موتورهای ترجمه از جمله گوگل نشان میداد. و این برتری موجب شد تا پارسیجو از میان سه موتور ترجمه موجود در کشور، موتور ما را برای ارایه سرویس برگزیند. کیفیت موتور تا پایان قرارداد (اردیبهشت ۱۳۹۱) به صورت مکرر ارتقا یافت تا فاصله آن با سایر موتورها به ۲۵٪ رسید.
اوایل اسفند ۱۳۹۰ پیشنهادی را به مرکز تحقیقات مخابرات دادیم که صدای خیلیها را درآورد و به شدت مذمت شدیم. در شرایطی که سایر رقبای داخلی به واسطه استفاده از روش قاعدهمند نمیتوانستند به سادگی مترجم فارسی به انگلیسی ارایه کنند و برآورد هزینه برای آن سالها حدود یک میلیارد تومان در ظرف سهسال بود ما پیشنهاد کردیم که میتوانیم از محل ۲۵٪ افزایش قرارداد (کمتر از ۶۱ میلیون تومان) و ظرف مدت ۳ماه موتور ترجمه را دوطرفه کنیم! طبیعتاً مرکز تحقیقات قبول کرد. ما هم اینکار را انجام دادیم و از تیرماه ۱۳۹۱ موتور ترجمه دو زبانه که آنزمان «دیلماج» نام داشت، متولد شد. جالب اینجا که کیفیت موتور فارسی به انگلیسی به مراتب از انگلیسی به فارسی هم بهتر بود!
بر سر این کار کم فحش نخوردیم. به ما میگفتند احمقها چرا بازار را خراب میکنید؟ کدام آدم عاقلی به جای پروژه چندصد میلیونی کار مفت انجام میدهد؟ بیزنس بلد نیستید بیخود میکنید پروژه دولتی میگیرد! جالب اینجا بود که بخشی از این حرفها را از برخی از اعضای هیاتعلمی معزز که نامشان را نمیخواهم بهیاد آورم میشنیدیم.
پرده دوم: پشتیبانی در سکوت
مردادماه ۱۳۹۱ قراداد به پایان رسید، و تسویه حساب نهایی صورت گرفت. میتوانستیم مانند اکثریت پروژههای دولتی سیستم را رها کنیم و به کار خودمان بپردازیم اما...
سامانه مترجم بر روی سه دستگاه سرور در مرکز تحقیقات مخابرات نصب بود. که یکی از آنها درگاه API و واسط کاربر بود و دو سرور دیگر هم نقش مترجم را بازی میکردند و هم به عنوان پایگاهدادهها و محل ذخیره مدلها و دادگان بودند. کل سامانه مترجم هم بر مبنای ابزارهای متنباز موجود و توسعه برخی ابزارهای پایه برای زبان فارسی توسعه دادهشده بود که همه تحقیقاتی بوده و برای سرویسدهی آماده نشده بودند. موتور ترجمه آنچنان ناپایدار بود که با ترافیک کمتر از روزی ۵۰۰ هزار کلمه متن، بیش از ۲۰ بار در روز کرش میکرد.
پارسیجو در ابتدای راه بود و حدود ۳۰٪ ترافیک ورودی به آن تقاضای ترجمه بود. نمودار استفاده از سامانه مترجم هم رشد خوبی را نشان میداد. در نتیجه تصمیم گرفیتم به جای رها کردن سیستم آن را به صورت کاملا رایگان پشتیبانی کنیم و ارتقا دهیم. و این پشتیبانی رایگان از مرداد ۱۳۹۱ تا دیماه ۱۳۹۲ به مدت ۲۱ ماه به طول انجامید.
پس از گذشت شش ماه از پشتیبانی و ارتقای آمار تقاضای ترجمه تا نزدیک به ۸۰۰ هزار کلمه در روز کمکم مشخص شد که این موتور تحقیقاتی نمیتواند پاسخگوی رشد تقاضا باشد و لازم است تا موتوری صنعتی مورد توسعه قرار گیرد. به همین دلیل از ابتدای سال ۱۳۹۲ رایزنیهایی با مرکز تحقیقات که درگیر تغییر نام و ساختار به پژوهشگاه ارتباطات و فناوری اطلاعات بود، برای توسعه یک موتور ترجمه با رویکرد مهندسی صورت گرفت.
از اواخر سال ۹۱ مرکز ملی فضای مجازی در ساختمان پژوهشگاه (مرکز تحقیقات مخابرات سابق) مستقر شده بود و کل پرسنل مرکز تحقیقات به یک سالن کوچک (سالن آمفیتیاتر واقع در بالای سالن غذاخوری) منتقل شده بود و کسی آنها را تحویل نمیگرفت. دولت هم در حال تغییر بود و طبعا همه کارها به کندی پیش میرفت.
خوشبختانه اگر کل خانوادههای تیم ما از دکتر خدیوی گرفته تا بنده و سایرین را میگشتید حتی یک نفر هم نزدیک به یکی از دولتمردان اعم از اصولگرا، اصلاحطلب، اعتدالی یا بهاری پیدا نمیشد. به همین دلیل به صورت مستمع آزاد به پژوهشگاه رفتوآمد میکردیم و کسی کاری به کارمان نداشت.
پرده سوم: قرارداد طراحی و توسعه یک سامانه نوین ترجمه ماشینی
تلاشهای ما و اقبال عمومی به ترجمه ماشینی در دیماه ۱۳۹۲ به ثمر نشست و توانستیم قرارداد توسعه از بستر موتور ترجمهماشینی را با پژوهشگاه منعقد کنیم. قراردادی دو ساله به مبلغ ۴۰۰ میلیون تومان که مجددا ۳۰٪ آن بابت سربار دانشگاه و ۲۵ میلیون تومان هم بابت خرید تجهیزاتی که بعد از اجرای پروژه به پژوهشگاه ارتباطات تحویل شد، از آن کسر گردید. در عین حال در انتها هم مجبور شدیم حدود ۱۲ میلیون تومان بابت بیمه بپردازیم. در نتیجه اجرای ۲۴ ماه پروژه با رقمی بالغ بر ۲۴۳ میلیون تومان (ماهی ۱۰ میلیون تومان) آغاز گردید. همزمان قرارداد توسعهای هم با تیم دانشگاه تهران مطرح بود که در آخرین لحظات و بنا به دلایلی که از آنها اطلاع ندارم لغو شد.
فاز اول پروژه در اردیبهشتماه ۱۳۹۳ تحویل شد و در خردادماه مورد تایید قرار گرفت اما در حالی که حتی پیشپرداخت پروژه هم داده نشده بود مبلغ فاز پرداخت نمیشد. پیگیریهای متعددی کردیم و معلوم شد با تغییر دولت و مدیران یکی از رقبا رایزنی سنگینی کرده و با این ادعا که قرارداد پژوهشگاه با دانشگاه موجب خسران بخش خصوصی شده درصدد ابطال قرارداد ما است. جلسات متعددی برگزار شد و قرارداد در سطوح مختلف اعم از فنی، مالی، حق بهرهبرداری، تعهدات جذب مشتری، متنباز شدن و غیره به نحوی تغییر کرد که شباهت چندانی به قرارداد اولیه نداشت. قراردادی که در ابتدا به صورت یک پروژه پژوهشی منعقد شده بود به یک قرارداد با تعهد جذب کاربر بدل شد و مقرر گردید تعداد کاربران سامانه و عدد کلمات ترجمهشده در سیستم در پایان ۲ سال ۴ برابر شود. فازهای پایانی مطول شده و وزن مالی پروژه به فاز آخر موکول گردید. نه راه پیش داشتیم و نه پس. مجبور بودیم تمامی این تغییرات را بپذیریم و هرچند بر سر بندبند آن جنگیدیم اما زور طرف مقابل خیلی بیشتر بود. تنها در ۳ مورد موفق شدیم:
۱- اجازه ندادیم تا نام «ترگمان» مصادره شود. این نام را خودمان در زمانی که پروژهای با پژوهشگاه نداشتیم انتخاب کرده بودیم و دامنه آن را هم شخصا ثبت کرده بودم.
۲- مجوز نشر کدهای ترگمان را LGPLv3 و BSD تعیین کردیم تا اگر در ادامه پروژه از دستمان خارج شد ابتر نماند و همگان مجوز توسعه و بهرهبرداری تجاری از آن را داشته باشند.
۳- مجوز بهرهبرداری تجاری از پیکره ۱۰ میلیون کلمه تولیدشده در پروژه قبلی را برای مدت اعتبار قرارداد اخذ کردیم.
در نهایت با گذشت نزدیک به یکسال از آغاز پروژه و پس از تحویل فاز دوم و درحالی که بیش از ۷۰درصد زمان فاز دوم را به جلسات و مباحثات گذرانده بودیم و حتی اطمینان نداشتیم که آیا پروژه ادامه خواهد یافت یا نه توانستیم پول فاز اول پروژه را بگیریم!
تا فاز چهارم مهمترین مشکلی که داشتیم این بود که مطابق قرارداد قرار بود ۳۰ سرور برای ترگمان تهیه شود اما تنها ۵ سرور در اختیارمان بود. در فاز چهارم قرار شد به جای سرور به ما ماشینهای مجازی از بستر سیستمعامل «زمین» داده شود. این بخش خود مثنوی هفتاد من طلب میکند و از آن میگذرم. فقط نتیجه آن شد که پس از ۴ ماه تلاش برای مهاجرت به «زمین» به همان ۵ سرور غیر «زمین» برگشتیم و مجبور شدیم تمام بار ترافیکی را با همان سرورها تحمل کنیم.
در نهایت در دیماه ۱۳۹۴ فاز پنجم پروژه هم تحویل شد و ترگمان جدید که اینبار کد آن به صورت کاملا بومی و مهندسی مورد توسعه قرار گرفته بود و از لحاظ کیفی اعداد جدیدی را نشان میداد رونمایی شد. در این پروژه توانسته بودیم کیفیت ترجمه را در حوزههای مختلف به شدت افزایش دهیم و بالاخص در حوزه ادبیات نسبت به گوگل کیفیتی بیش از ۳ برابر ارایه کنیم.
پرده چهارم: اولین قرارداد مشارکتی تاریخ IT کشور
در سال ۹۴ تب جویشگر بومی در کشور بالا بود و فراخوان اول برای مجموعه پروژههای مرتبط با این طرح اعلام عمومی شد. ما در حال اجرای پروژه بودیم و به ما اعلام شده بود که در فراخوانهای جدید ترجیح بر این است که کار به جای دانشگاه به شرکتها سپرده شود. ما هم که از مدتها قبل به دنبال تاسیس شرکت بودیم در مردادماه ۹۴ شرکت پردازش هوشمند ترگمان را ثبت کردیم. مدیران و سهامداران شرکت عبارت بودند از دکتر خدیوی، اخوی ایشان، بنده و مهندس ودادیان از اعضای تیم هوشمصنوعی که به عنوان مدیرعامل شرکت تعیین گردید. برخی از دوستان در توییتر و جلسات پرسیده بودند چرا با اینکه بنده و دکتر سهامداران عمده شرکت بودیم مهندس ودادیان مدیرعامل شد و حتما ریگی به کفش داشتیم. دلیل آن ساده است. در آن زمان دکتر از مجموعه مشکلاتی که در طول ۴ سال بازگشتشان به وطن در سطح دانشکده و کار با پژوهشگاه پیش آمده بود خسته شده بودند و قصد داشتند به آلمان برگردند در نتیجه عملا نمیتوانستند حتی در هیاتمدیره شرکت سمت داشته باشند. اخوی ایشان هم مدیرعامل شرکت خودشان بودند و صرفا به دلیل عدم حضور دکتر در ایران به عنوان حافظ منافع در شرکت حضور داشتند. بنده هم مدیرعامل یک شرکت غیرفعال بودم و قانونا نمیتوانستم مدیرعامل شوم. به همین دلیل مسوولیت و زحمت این کار را بر عهده مهندس ودادیان عزیز افتاد.
شهریورماه ۹۴ با دکتر فیلی از اعضای هیات علمی دانشگاه تهران مذاکره کردیم تا به جای رقابت با هم مشارکت کنیم و پروپوزال مشترک بدهیم. بنا شد تا ترگمان که موتور آماری داشت با فرازین که موتور قاعدهمند داشت ترکیب شود و یک موتور ترکیبی آماری-قاعدهمند ایجاد کنیم. تفاهمنامه میان دو شرکت نوپای پردازش هوشمند ترگمان و ویرا افزار آدان طی چندجلسه منعقد شد و قرار شد دو شرکت در این پروژه سهم برابر داشته باشند. پروپوزال مشترک را تدوین و به پژوهشگاه ارایه کردیم. اسفندماه ۹۴ نتیجه ارزیابیها اعلام شد. اکثریت پیشنهادات مربوط به این فراخوان به نوعی مورد پذیرش قرار گرفته و در برخی پروژهها تا ۴ پیشنهاد از چهار شرکت مختلف پذیرفته شده بود. جزییات این نتایج در سایت didras.ir منتشر شده بود. (متاسفانه اصل این سایت معدوم شده! اما می توانید از این لینک مشاهده کنید)
در حوزه ترجمه هر دو پیشنهاد ما و شرکت مبنا رایانه مورد پذیرش قرار گرفت با اینحال رقم پیشنهادی برای قرارداد کمتر از نصف مبلغ درخواستی در پروپوزال بود. رقم مصوب برای توسعه موتور ترجمه ۷۰۰ میلیون بود با این استدلال که هر کدام از سه شرکت ۳۰۰ میلیون تومان مورد حمایت قرار گرفتهاند و چون پیشنهاد ما تنها پیشنهاد مشارکتی بوده ۱۰۰ میلیون تومان اضافهتر حمایت خواهد شد. در این موارد آنچه به هیچجا نرسد فریاد است. اگر در قراردادهای قبلی میبایست تنها ۳۰٪ سربار دانشگاه را کم میکردیم و به دلیل پژوهشی بودن از مالیات معاف بوده و بیمه کمتری میپرداختیم، اینبار بیمه پرسنل، بیمه قرارداد، مالیات ارزش افزوده، مالیات سالانه، و سایر هزینهها از رقم دریافتی کسر میشد. جلوتر عایدی این قرارداد را دقیق بیان خواهم کرد.
قرارداد مشارکتی؟! حساب مشترک حقوقی؟! شیب؟! بام؟!
از همان ابتدا مشکلات شروع شد. اساسا امور قراردادهای پژوهشگاه متوجه نمیشد قرارداد مشارکتی یعنی چه! صراحتا اعلام شد که ما بلد نیستیم چنین قراردادی ببندیم! به واسطه اینکه مادرم مرحومم حقوق خوانده بود و به مسایل حقوقی علاقه داشتم قریب به دوماه انواع قراردادهای ممکن اعم از کنسرسیوم، مشارکت مدنی و غیره را زیر رو کردم و با معاونت حقوقی پژوهشگاه رایزنی کردیم تا در آخر یک قرارداد مشارکتی از نوع تضامنی تنظیم شد. بازهم امور قراردادها زیربار نمیرفت و به عنوان مثال به جای ۱۰٪ ضمانتنامه حسن انجام قرارداد، از ما ۲۰٪ ضمانتنامه مطالبه میکرد. با دخالت مستقیم ریاست پژوهشگاه مقرر شد که قرارداد با مسوولیت معاونت حقوقی و با اخذ ۱۰٪ ضمانتنامه منعقد شود.
گفتند حالا باید حساب بانکی معرفی کنید. خیلی شیک و مجلسی به شعب چند بانک مراجعه کردیم و همه هاج و واج ما را نگاه کردند که چی میگید؟! مگه شرکتها هم با هم مشارکت میکنند؟! شرکتها فقط با هم رقابت میکنند! مانده بودیم که حالا این را چه کنیم. خوشبختانه این کار در قانون پیشبینی شده بود اما رویههای آن عملیاتی نشده بود و کسی آشنایی نداشت. در یکی از معاونتهای بانک ملت آشنایی پیدا کردیم که توانست به ما کمک کند. برای اولین بار فرم افتتاح حساب حقوقی مشترک طراحی و از سوی اداره مرکزی برای شعبه فکس شد و مقرر شد تا در اساسنامه شرکت ها هم تغییرات اعمال کنیم تا مجوز افتتاح چنین حسابی در اساسنامه صراحتا ذکر گردد. عاقبت پس از ۴ ماه دوندگی توانستیم اولین حساب حقوقی مشترک را افتتاح کنیم! بدیهی است که با این اوصاف هنگام خوابانیدن چکهای هر فاز و برداشت از این حساب هم هربار داستان داشتیم که چرا چک دو مهر و چهار امضا دارد!
پرده پنجم: قراردادُ نبسته پس فرستاد!
هشتم مهرماه ۱۳۹۵ پیشنویس قرارداد به ما داده شد. اما ...
ششم مهرماه شرکت گوگل اعلامیهای منتشر کرد مبنی بر اینکه توانسته است اولین سرویس ترجمهماشینی نورونی مبتنی بر شبکههای یادگیری عمیق را به صورت تجاری راهاندازی کند و نتایج آزمایشات برای ترجمه چینی به انگلیسی غیر قابل باور بودند. حدود سه سالی بود که تحقیقات در این زمینه انجام میشد اما سرعت ترجمه آنقدر پایین بود که کسی گمان نمیکرد تا چند سال بعد هم کسی بتواند سرویس تجاری مبتنی بر یادگیری عمیق ارایه کند. اما حالا گوگل اعلام کرده بود که تا چند ماه بعد تمامی موتورهای ترجمه را از آماری به نورونی ارتقا خواهد داد.
با دوستان در تیم دکتر فیلی چند جلسه برگزار کردیم و در آخر به این نتیجه رسیدیم که انعقاد قرارداد با شرایط فعلی صرفا موجب هدر دادن پول و زمان بوده و خروجی آن هیچ کاربردی نخواهد داشت. نامهای خطاب به دبیر طرح جویشگر تنظیم کردیم و از انعقاد قرارداد انصراف دادیم. این در حالی بود که تمامی پروژههای دیگر از جمله قرارداد توسعه موتور ترجمه قاعدهمند شرکت مبنا رایانه تا پایان آذرماه منعقد شده بودند.
تیم راهبری طرح جویشگر بومی به تکاپو افتاد که مگر میشود! همه کارها انجام شده، بودجه تصویب شده و فقط مانده امضای شما اگر قرارداد نبندید آینده موتور ترجمه بومی چه میشود؟ در جلسات اعلام کردیم تنها در صورتی قرارداد میبندیم که مفاد پروپوزال فنی اصلاح شود و به جای تولید موتور هیبریدی آماری - قاعدهمند موتور آماری را گسترش دهیم و بر روی موتور نورونی تحقیق کنیم تا بتوانیم فاصله را با گوگل کم کنیم. تعهد دادیم که تمامی تعهدات پروپوزال قبلی در حوزه کیفیت و جذب کاربر را رعایت خواهیم کرد هرچند که به شدت به آن مشکوک بودیم و ریسک بالایی داشت. پس از حدود ۵ ماه، اسفند ۹۵ پروپوزال جدید مصوب شد و با همان رقم قبلی و با افزایش چشمگیر تعهدات قرارداد بستیم.
پرده ششم: تولد ترگمان نورونی
از آنجایی که از ماهها قبل از انعقاد قرارداد کارهای تحقیقاتی و اجرایی آن را آغاز کرده بودیم، فاز اول پروژه طبق برنامه پیش رفت و حدود ۴۵ روز زودتر از موعد، فاز تحویل شد. امید داشتیم با دریافت مبلغ فاز بخشی از هزینههای معوق را جبران کنیم اما مشابه با پروژه قبلی پرداخت فاز با مشکل مواجه شد. از سوی سازمان فناوری اطلاعات نسبت به برخی از پروژههای طرح جویشگر اشکال وارد شده بود و جلوی پرداخت به همه پروژهها را گرفته بودند. این درحالی بود که برخی پروژههای در فاز پایانی بودند و تنها پروژهای که تازه شروع شده بود پروزه ما بود. مقرر شد همه پروژهها توسط یک تیم کارشناسی معتمد خارج از وزارت ارتباطات مورد ارزیابی مجدد قرار گیرند و در نتیجه آن برخی از پروژهها دچار تعدیل و تغییراتی شده و تا جایی که اطلاع دارم دو پروژه هم لغو شدند. در نهایت در شهریورماه مبلغ مربوط به فاز اول پرداخت شد! در این میان مشکلات عدیده مالی شرکت، نبود نقدینگی و هزینههای گزافی که روی دستمان مانده بود باعث شد تا برخی از همکاران از ما جدا شوند.
با وجود همه مشکلات بیستم تیرماه ۱۳۹۶ نقطه عطفی برای ترگمان محسوب میشود زمانی که با همت بچهها توانستیم موتور ترجمهماشینی نورونی را که قرار بود صرفا بر روی آن تحقیق کنیم آماده سرویسدهی نماییم. هنوز مترجم گوگل برای زوج زبانی انگلیسی - فارسی با موتور آماری سرویس می داد و در نتیجه کیفیت مترجم ترگمان چند سروگردن از گوگل بالاتر بود. به سرعت ربات تلگرام ترجمیار را ارتقا دادیم تا از موتور نورونی استفاده کند چند روز بعد نسخه پیشنمایش را برای چند خبرگزاری و افرادی مثل جادی، شایان شلیله، آرش برهمند و دیگران ارسال کردیم اما دریغ از یک بازخورد! دو هفته بعد گوگل هم موتور انگلیسی - فارسی را به نورونی ارتقا داد و ضیافت ما پایان گرفت.
مجبور شدیم سختتر کار کنیم تا بتوانیم از گوگل فاصله بگیریم. اما یک مشکل مهم وجود داشت. در قرارداد ما با پژوهشگاه توسعه موتور ترجمه آماری به عنوان اصل و توسعه موتور ترجمه نورونی به عنوان یک نمونه تحقیقاتی و فرعی مطرح بود. در نتیجه مذاکراتی را با ناظران و مدیریت طرح پیش بردیم و به آنها ثابت کردیم که ادامه توسعه موتور آماری اشتباه است. آنقدر کیفیت ترجمه این دو موتور متفاوت بود که هر عقل سلیمی میپذیرفت که ادامه توسعه موتور آماری پول دور ریختن است با این حال با توجه به اینکه موتور نورونی بسیار نوپا و آزمایشگاهی بود تعهد سرویس دهی با آن کار بسیار پر ریسکی بود. هر طور بود ریسک کار را پذیرفتیم و طی یک صورتجلسه تمامی تعهدات قرارداد را به موتور نورونی منتقل و موتور آماری را بازنشسته کردیم.
با بهرهگیری از موتور نورونی با توجه به تغییرات شگرف کیفیت ترجمه، از ابتدای مهرماه ۹۶ حجم تقاضای ترجمه بسیار بالا رفت و مجبور شدیم نرمافزارها و موتور ترجمه را به صورت مداوم ارتقا دهیم تا جایی که سرعت ترجمه که مطابق قرارداد قرار بود از ۱۲۰ کلمه بر ثانیه به ۲۴۰ کلمه بر ثانیه ارتقا یابد در آخرین نسخه تحویل شده در فاز سوم به ۱۶۰۰ کلمه بر ثانیه ارتقا یافت. کیفیت ترجمه هم نسبت به تعهدات قراردادی بسیار بالاتر تحویل شد.
این ارتقای کیفی باعث شد تا بتوانیم نظرات مراکز متعدد را جلب نموده و به عنوان نمونه مرکز اطلاعات علمی جهاد دانشگاهی را متقاعد کنیم تا ۳۰ میلیون کلمه پیکره تخصصی مقالات ترجمهشده در اختیارمان قرار دهد و با ما در توسعه ترجمیار شراکت کند. با آموزش این پیکره متنی به موتور ترجمه ترجمیار، کیفیت ترجمه مقالات علمی در این دستیار مترجم به طرز چشمگیری بالا رفت و رشد بسیار زیادی را در تعداد کاربران ترجمیار مشاهده کردیم.
پرده آخر: سرانجام آخرین پروژه
آخرین فاز آخرین پروژه ترجمه ماشینی در اسفندماه ۱۳۹۶ تحویل پژوهشگاه ارتباطات شد. اما این پایان داستان نبود. برای تسویه حساب نیاز بود تا مفاصاحساب بیمه ارایه کنیم. در حالیکه در طول سال ۱۳۹۶ در مجموع حدود ۵۸ میلیون تومان حق بیمه پرسنل پرداخت کرده بودیم اما سازمان تامین اجتماعی برایمان حکمی به مبلغ ۶۴ میلیون تومان صادر کرد تا مفاصاحساب بدهد!
پس از اعتراض و پیگیریهایی که شد این حکم به ۳۰ میلیون تومان تقلیل یافت. به این ترتیب از کل ۳۵۰ میلیون تومان سهم شرکت ما از این پروژه:
- مبلغ ۸۸ میلیون تومان سازمان تامین اجتماعی
- مبلغ ۳۱ میلیون تومان بابت ارزش افزوده
- حدود ۲۰ میلیون تومان بابت خرید پیکرههای متنی تعهدی در قرارداد که به صورت آزاد منتشر کردیم
- حدود ۱۱ میلیون تومان کسورات مربوط به فازهای قرارداد
- نزدیک به ۵ میلیون تومان بابت اخذ ضمانتنامههای بانکی
- مبلغی بین ۹ تا ۱۵ میلیون تومان هم بابت مالیات سال ۹۶ (هنوز حکم قطعی آن ابلاغ نشده و ممیز مالیاتی به صورت تخمینی اعلام کرده است)
فقط به عنوان کسورات مستقیم پروژه به ثبت رسید. محاسبه سایر هزینهها از قبیل اجاره، پرسنلی و غیره را به خودتان واگذار میکنم. آخرین پرداختی پروژهای که در سال ۹۴ تصویب شده بود با توجه به وقایع رخ داده و طولانیشدن فرایند اخذ مفاصاحساب بیمه، در آذرماه ۹۷ صورت گرفت.
اکنون ترگمان توانسته با گذار از تمامی مسایل جایگاه خود را به عنوان موتور ترجمه بومی تثبیت نماید رشد روزافزون تعداد کاربران این سامانه نشان از اقبال عمومی نسبت به این سرویس داشته و این موضوع باعث افتخار همه ماست. پس از پایان پروژه ما منتظر دولت و حمایت مجدد ننشستیم و با ارتقای مداوم کیفیت سعی کردهایم تا همواره فاصله خود را با گوگل حفظ کنیم و در این موضوع تا بدانجا پیش رفتیم که دو قرارداد توسعه موتور ترجمه بینالمللی با یک شرکت اروپایی و یک شرکت ژاپنی منعقد کردیم. به واسطه یکی از همین دو قرارداد امروز ترگمان امکان سرویس دهی به ۹ زبان زنده دنیا را یافته و آمارها حاکی از استقبال بسیار خوب مردم است.
از آنجایی که در ترگمان معتقدیم که حمایت دولتی از طرحها صرفا در فاز تحقیق و توسعه پروژههای دانشبنیان که منطقا تامین هزینههای آن از عهده بخش خصوصی خارج است معنی دارد، بلافاصله پس از پایان پروژه طرحی را به پژوهشگاه ارایه کردیم تا هزینههای نگهداری و پشتیبانی از سرویس را خود متقبل شویم.
جمعبندی
تاریخچه پرفراز و نشیب ترگمان نکات بسیار زیادی داشته که در این متن سعی کردم فقط به مواردی بپردازم که بیشترین سوالات و ابهامات را پدید آورده بود. هرچند مطمئن هستم که علیرغم ذکر تمامی جزییات عدهای کماکان نخواهند توانست قبول کنند که بدون رانت هم میشود پروژه انجام داد و بخشهایی از همین متن را بر علیه خودمان استفاده خواهند کرد، اما حداقل پیش وجدان خود آسوده هستم که هرآنچه رخ داده، مستقل از خوب یا بد بودن آن، تعریف کردهام.
معتقدم آنچه باعث شد ترگمان در جایگاه امروزین خود بایستد همیت و پایمردی همه دستاندرکاران پروژه اعم از تیم اجرایی در دانشگاه و شرکت، تیم نظارت در پژوهشگاه و وزارت ارتباطات و مجموعه مدیران دلسوز در سطوح مختلف وزارت و پژوهشگاه ارتباطات بوده است؛ که در طول همه این سالها ناملایمات، سختیها، انگها و افتراها را تحمل کردند و بدون آنکه خم به ابرو بیاورند سعی کردند بهترین خروجی را تولید و عرضه دارند.
افتخار میکنم به اینکه در طول ۸ سال گذشته به هیچ احدی در هیچ سطحی حتی یک عدد خودکار تبلیغاتی رشوه ندادهایم و همواره صرفا کارمان را و کیفیت خروجی آن را مستمسک جلب حمایت قرار دادیم. همچنین افتخار میکنم به اینکه در طول ۸ سال گذشته حتی ثانیهای مترجم گوگل یا سایر سرویسهای ترجمه دچار فیلترینگ نشدند و در یک فضای رقابتی سالم توانستیم جایگاه ترگمان را ثابت کنیم.
فارق از تمامی مسایلی که در طول ۸ سال گذشته در خصوص ترگمان وجود داشته این پروژه توانست حداقل چند چیز را ثابت کند:
- بدون رانت و رشوه هم میشود از حمایتهای دولت برخوردار شد و لازم نیست فامیل کسی باشی.
- اگر پیمانکار متعهد باشد خروجی پروژههای دولتی هم میتوانند موفق باشند.
- هرچند کار تمیز و بدون رانت با دولت پاشنه آهنین و صبر ایوب نیاز دارد اما شدنی است.
- خروجی یک پروژه پژوهشی میتواند فراتر از چند ورق کاغذ و یک سیستم آزمایشگاهی باشد.
- با غولهای فناوری هم میتوان رقابت کرد و برای اینکار نیازی به بودجههای چند ده میلیاردی نیست.
- مردم با کالای ایرانی عناد ندارند. اگر کار با کیفیت ارایه کنی مردم حاضرند حتی با وجود کالای رایگان خارجی بهای کالای با کیفیت ایرانی را بپردازند.
- برای حمایت از کالای داخلی نیازی به فیلتر کردن نمونه خارجی نیست. اگر به مردم حق انتخاب بدهیم خودشان کالای بهتر را انتخاب خواهند کرد.
مخلص کلام.
باور داشته باشیم مقابله با فساد، دزدی، سودجویی و رانتخواری جز از راه ارایه خدمت سالم و افزایش هزینهها برای مفسدین میسر نیست. اتفاقا مفسدین، رانتخواران و سودجویان لذت میبرند از اینکه ما به کناری بنشینیم و صرفا توییت بزنیم که دولت یا حاکمیت چنان است و چنین است. باید به مسیرشان نفوذ کرد و چراغها را بر آنها تاباند.
زیاده گزافه است.
تهران - ۱۶ اردیبهشت ۱۳۹۸
به روزرسانیها:
- آذرماه ۱۳۹۹ - رکورد ترجمه ۷۰ میلیون کلمه در روز
- آبان ۱۴۰۰ - ماجرای استفاده گوگل از ترگمان
- بهمنماه ۱۴۰۰ - بهروزرسانی ترگمان
پ.ن. اگر در هرکجای این تاریخچه نقطه ابهامی وجود دارد یا نیاز است تا بیشتر توضیح داده شود در کامنتها یا توییتر (ziabary@) اعلام کنید سعی میکنم در حد بضاعت در متن بگنجانم.
مطلبی دیگر از این انتشارات
راه اندازی یک highavailable system به همراه لود بالانسر
مطلبی دیگر از این انتشارات
نشست ترجمه و نشر در عصر فناوری
مطلبی دیگر از این انتشارات
یا کار بزرگی انجام بده یا وسایلت رو جمع کن برو خونه :)