سرویسهای متنکاوی و پردازش متن فارسییار
کاربردهای پردازش زبان طبیعی
مقدمه
بطور کلی کاربردهای پردازش زبان طبیعی در زندگی روزمره ما، محیطهای آموزشی، درمان و صنعت را میتوان به چند دسته، مطابق ذیل، تقسیمبندی نمود:
- پردازش گفتار
- پردازش تصویر
- پردازش متن
کاربردهای پردازش گفتار :
- دستیار شخصی (Personal assistants) : هدف این برنامههای هوشمند اجرای فرامین صوتی انسان در گوشی هوشمند یا کامیپوتر است. مانند: Apple Siri، Amazon Alexa، Google Assistant، Microsoft Cortana، Samsung Bixby و دستیار صوتی فارسی رایمون
- تبدیل گفتار به نوشتار (Speech to Text) : هدف این ابزار تبدیل صدا به متن معادل با صحبتهای گوینده است. برای زبان فارسی استفاده از صفحه کلید گوگل برای گوشی هوشمند و نرمافزار نویسا توصیه میشود. سایر موتورهای تبدیل گفتار به نوشتار معروف میتوان به wit.ai ،Google Speech و Yandex SpeechKit را نام برد.
- تبدیل نوشتار به گفتار (Text to Speech) : درست برخلاف ابزار قبل، اینجا هدف تبدیل متن به کلام است. این ابزار برای خواندن متن پیام بطور صوتی در بسیاری از نرمافزارها و سیستمهای نوبتدهی و … استفاده میشود. مانند: نرمافزار فارسی آریانا
- مترجمهای صوتی (Translator) : که کار ترجمه برخط صدای گوینده از یک زبان به زبان دیگر را انجام میدهند. مانند: Google Translate
- کاربردهای دیگر پردازش گفتار کمتر در زیرشاخه علم پردازش زبان طبیعی قرار میگیرند. برای سایر کاربردهای پردازش گفتار میتوان به موارد استفاده آن در صنعت مخابرات و ارتباطات، تشخیص شخص گوینده از روی صدا (برای کاربردهای امنیتی)، تشخیص حس گوینده (یا میزان راستگویی گوینده) و … اشاره نمود.
کاربردهای پردازش تصویر :
- نویسه خوان نوری (Optical Character Recognition/Reader) یا بصورت مخفف OCR: عبارت است از تشخیص (recognition) خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه.
- مترجمهای تصویری (Translator) : که کار استخراج متن از درون تصویر و ترجمه آن به زبان دیگر را انجام میدهند. مانند: Google Translate
- شرح تصاویر (Image Captioning) : توضیح عناصر و اتفاقات درون تصویر که معمولاً بوسیله تکنیکهای یادگیری عمیق انجام میشود. مثلاً: با دریافت یک تصویر خروجی مینویسد که «دو پرنده بر روی یک شاخه درخت نشستهاند»
کاربردهای پردازش متن (کاربردهای متن کاوی) و بازیابی اطلاعات :
- نظرکاوی (تحلیل حسی متن): برای تحلیل میزان رضایت عمومی مردم، کاربران یا مشتریان در انتخابات (و سایر موضوعات سیاسی)، فروشگاهها، مراکز خدمترسانی و …
- خلاصهسازی خودکار: کم کردن حجم متن با حفظ مفاهیم (موضوع) و پیوستگی (خوانایی) متن اصلی. با کاربردهایی از قبیل خلاصه اخبار، خلاصه محتوای سایت در نتیجه موتورهای جستجو و …
- ترجمه ماشینی متن: ترجمه جملات درون متن از زبان مبدا به زبان مقصد
- تشابهیابی و ابهام زدایی کلمات در متن
- تشخیص تقلب ادبی (علمی)
- تشخیص شخص نویسنده (یا جنسیت نویسنده) متن از روی سبک نوشتار
- تولید زبان: تبدیل یا بیان اطلاعات درون پایگاه داده به زبان انسان توسط ماشین
- غنیسازی متن: حاشیهنویسی، ارزش افزوده در متن برای موتورهای جستجو و سایر تحلیلهای معنایی متنی
- سامانههای پرسش و پاسخ و چتباتها
- موتور جستجو: تولید و بهینهسازی اجزای مختلف موتورهای جستجو برای حجم بالای داده
- استخراج اطلاعات: کشف موجودیتها و روابط بین آنها در متن
- استخراج کلمات کلیدی: با هدف برچسبزنی یا تگزنی موضوعی خودکار متن
- دستهبندی و خوشهبندی متون: گروهبندی (باناظر یا بدون ناظر) مجموعه متون با کاربردهایی از قبیل تشخیص موضوع متن (هر گروه از متون)، نمایهزنی خودکار متن، گروهبندی متون (اخبار) مشابه با هدف شناسایی مسائل/رویدادها/… مهم در انبوه متون شبکههای اجتماعی یا اخبار
- ابزارهای پایه پردازش زبان طبیعی (شبکه واژگان، پارسر، برچسب زن معنایی کلمات، کشف مرجع ضمایر، تشخیص و طبقه بندی اسامی)
- عملیات پایه بازیابی اطلاعات (تبدیل متن به بردارهای عددی، تعیین معیار فاصله یا شباهت متنی، مهندسی ویژگیها)
استفاده از این مقاله با ذکر منبع (سامانه متن کاوی فارسییار)، بلامانع است.
مطلبی دیگر از این انتشارات
فراخوان مشارکت عمومی برای کمک به زبان فارسی
مطلبی دیگر از این انتشارات
معرفی پیکره ویکیپدیا فارسی برای متن کاوی (بصورت اطلاعات تفکیک و پیشپردازش شده) بهمراه مدلهای تعبیه کلمات (یادگیری عمیق)
مطلبی دیگر از این انتشارات
ابزارها و فعالان واقعی در حوزه پردازش متن فارسی