ویرگول
ورودثبت نام
عباس پالاش
عباس پالاشداد جاروبی به دستم آن نگار / گفت کز دریا برانگیزان غبار
عباس پالاش
عباس پالاش
خواندن ۳ دقیقه·۲ ماه پیش

دشواری‌های غلط‌یابی پارسی در قیاس با انگلیسی - ۵

بخش ۱ - ۲ - ۳ - ۴

راهکار‌های رفع ابهام: اولویت متن یا زمینه

در بخش ۴ گفتیم که مهم‌ترین مشکل در غلط‌یابی زبان انگلیسی، مشکل اصلی معنایی است، در نتیجه کارآمدترین راه‌حل‌ها برای بررسی املای انگلیسی، آن‌هایی هستند که در تحلیل زمینه‌ای برتری دارند.

● مدل‌های زبانی Nگرام یا چند واژه‌ای: به طور تاریخی، مدل‌های Nگرام ابزار اصلی برای رفع ابهام خطاهای کلمات واقعی بوده‌اند. با محاسبه احتمال توالی‌های کلمات، نرم‌افزار می‌تواند حدس آگاهانه‌ای درباره واژه مورد نظر بزند. به عنوان مثال، احتمال Biگرام یا دوتایی «your book» یا کتاب شما بسیار بالاتر از «you're book» تو کتاب هستی است، که به نرم‌افزار امکان می‌دهد تا خطا را علامت‌گذاری کند. به طور مشابه، یک مدل Nگرام یا چند-واژه‌ای می‌تواند بر اساس فراوانی‌ها در یک مجموعه داده بزرگ به راحتی بین «there are» آنجا هستند و «their are» آن‌ها هستند، تمایز قائل شود.

● بررسی‌کننده‌های یکپارچه دستور زبان و سبک: ماهیت خطاهای انگلیسی که بیشتر معنایی هستند باعث شده تا به فناوری فراتر از اصلاح ساده کلمات نیاز باشد. ابزارهای پیشرفته‌ای مانند Grammarly، Reverso و ProWritingAid بهتر است به‌عنوان دستیارهای جامع نوشتاری و نه تنها غلط‌یاب توصیف شوند. آنها بررسی دستور زبان را برای شناسایی مشکلاتی مانند تطابق فاعل و فعل را که ممکن است پس از اصلاح املا به وجود آید (مثلاً اصلاح «boy» به «boys» نیازمند به تغییر «runs» به «run» است) یکپارچه می‌کنند. این ابزارها همچنین پیشنهادهای مترادف، بازنویسی برای وضوح و بهبودهای سبک را ارائه می‌دهند که اغلب توسط مدل‌های پیشرفته هوش مصنوعی پشتیبانی می‌شوند که ساختار و معنای جمله را در سطح عمیق‌تری تحلیل می‌کنند.

● یادگیری عمیق و مدل‌های ترنسفورمر: در قسمت ۳ از مدل‌های ترنسفورمر گفتیم. پیشرفته‌ترین سطح تحلیل متنی توسط مدل‌های یادگیری عمیق، به‌ویژه ترنسفورمرهایی مانند BERT انجام می‌شود. این مدل‌ها کل جمله را به‌صورت دوسویه در نظر می‌گیرند و به آن‌ها امکان می‌دهند وابستگی‌های بلندمدت و ظرایف معنایی ظریف را که برای مدل‌های n-gram یا چندواژه‌ای نامریی هستند، درک کنند. برای نمونه، در جمله‌ی
«The effect of the new policy was not immediately apparent, but it began to affect the economy within a year»، «اثر سیاست جدید بلافاصله آشکار نبود، اما ظرف یک سال آغاز به تاثیرگذاری بر اقتصاد کرد.»
یک مدل ترنسفورمر می‌تواند به‌درستی تشخیص دهد که جابجایی effect و affect نادرست خواهد بود، زیرا هر یک به‌ترتیب در نقش اسم و فعل در بافت کلی جمله به‌کار رفته‌اند.
مورد دیگر جایگزینی واژه درست اما کمتر شناخته شده با واژه شناخته‌شده ولی نادرست دیگر است که به آن اثر Cupertino کوپرتینو می‌گویند. کوپرتینو شهری در کالیفرنیا است که دفتر مرکزی اپل در آن واقع است و گاهی در خبرها به کنایه از شرکت اپل از آن استفاده می‌شود. این واژه در غلط‌یاب‌ها به اشتباه به واژه cooperation یا همکاری تغییر داده می‌شد و به عنوان نمونه‌ای قدرتمند از محدودیت‌های مدل‌هایی است که به زمینه متن توجه ندارند. این اتفاق زمانی رخ می‌دهد که مدل زبانی بر پایه‌ی فراوانی واژه‌ها عمل می‌کند و چون واژه cupertino واژه کم‌کاربردی است با واژه پرکاربردتری مانند cooperation جایگزین می‌شود، بدون آن‌که اعتبارسنجی متنی کافی صورت گیرد. فراوانی چالش‌های خطاهای «واژه‌ی واقعی» در زبان انگلیسی، باعث شده است تا مجبور به طراحی مدل‌های متنی قدرتمند باشیم. مدل‌هایی که نه‌تنها مساله‌ی اصلی ابهام‌زدایی معنایی را حل می‌کنند، بلکه با فراهم آوردن نوعی بررسی منطقی اساسی بر پیشنهادهای تولیدشده، کیفیت اصلاح خطاهای «غیرواژه» را نیز بهبود می‌دهند.

نرم‌افزار ویراستیار پارسی هم در این زمینه دچار مشکل بود و بسیاری از واژه‌ها مانند اسامی رایج داروها یا اصطلاحات پذیرفته شده خاص رشته‌های مختلف را به اشتباه به واژگان آشنا ولی نادرست تغییر می‌داد.

BERTیادگیری عمیقdeep learning
۱
۰
عباس پالاش
عباس پالاش
داد جاروبی به دستم آن نگار / گفت کز دریا برانگیزان غبار
شاید از این پست‌ها خوشتان بیاید