امین زارع
امین زارع
خواندن ۱ دقیقه·۵ سال پیش

رونویسی آوایی زبان فارسی(خودکار)

بعنوان برنامه‌نویس یکی از کارهایی که دوس داشتم در حوزه وب انجام بدم، تحلیل آوایی و واجی برای زبان فارسی بود که منجرب نتایج خوبی مثل رونویسی آوایی صدهاهزار واژه فارسی به صورت خودکار شد.

در نسخه یک، مشکل تشخیص واکه‌های فارسی رو داشتم که با راهنمایی بعضی از دوستان و اساتید خوب حوزه زبان‌شناسی حل شد و در نسخه دوم طیف زیادی از قواعد آوا و واج‌شناسی زبان فارسی رو بصورت الگوریتم پیاده‌سازی کردم. برای توسعه این الگوریتم از کتاب آواشناسی استاد بزرگ و همیشه در یاد یدالله ثمره بسیار استفاده کردم. با توجه به اینکه در این پروژه رونویسی آوایی بر اساس الفبای آوانگاری بین‌المللی(IPA) انجام شده، برای آشنایی بیشتر با این الفبا از بیشتر مقالاتی که در این زمینه برای زبان فارسی منتشر شده نیز استفاده کردم.

برای شروع همکاری با یک تیم روسی که در زمینه آموزش زبان‌های مختلف بسیار فعال هستند، فهرست تلفظ هزاران واژه فارسی که توسط الگوریتم بصورت خودکار تولید شده رو در اختیار این تیم گذاشتیم و زبان فارسی نیز به لیست بقیه زبان‌های این تیم، برای آموزش زبان فارسی به غیر از فارسی زبانان اضافه شد.

برای رونویسی آوایی و تلفظ IPA واژگان فارسی از وبسایت این تیم به آدرس easypronunciation.com میتونید استفاده کنید.

در جهت بالابردن کیفیت رونویسی و توسعه هرچه بهتر این الگوریتم تلاش بسیاری شده و با وجود اینکه رشته تحصیلی من زبان‌شناسی نبوده تا حد ممکن همه نکات تخصصی وقواعد آواشناسی و واج‌‌شناسی زبان فارسی رو اعمال و پیاده سازی کردم؛ ولی مانند هر برنامه‌ای که باگ و مشکلات خودش رو داره، خروجی این الگوریتم نیز خالی از اشکال نمیتونه باشه و برای حل این مشکلات، از راهنمایی دوستان خوب زبان‌شناس استقبال میکنم.

برنامه نویس پی‌اچ‌پی و فعال پردازش زبان و تصویر در محیط وب
شاید از این پست‌ها خوشتان بیاید