سرویسهای متنکاوی و پردازش متن فارسییار
پیکره اخبار فارسییار (مناسب برای زمینههای مختلف متن کاوی)
با توجه به کمبود پیکرههای متنی بزرگ و مناسب برای فعالیتهای پردازش زبان طبیعی متن کاوی در زبان فارسی، تصمیم به تهیه یکی از بزرگترین پیکرههای متن باز فارسی گرفتیم. به این منظور حجم زیادی از اخبار چند خبرگزاری بصورت تفکیک شده (بخشهای مختلف خبر اعم از عنوان، خلاصه، متن اصلی، تاریخ، نظرات، برچسبها و ...) و قابل استفاده در مسائل مختلف متن کاوی گردآوری شدند. پیکره اخبار در حال حاضر شامل دو بخش (مجموعه اخبار دو خبرگزاری) است.
این پیکره هماکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.
بخش اول پیکره اخبار، شامل اخبار سال 1397 خبرگزاری باشگاه خبرنگاران جوان است. در این پیکره بخشهای (فیلدهای) مختلف حدود 1000000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمعآوری شده، استفاده از این پیکره علاوه بر تحلیلهای آماری و ساخت مدلهای تعبیه کلمات، برای کاربردهای مختلف متن کاوی نظیر خلاصهسازی خودکار، تشخیص موضوع (زمینه) متن خبر (دستهبندی متون) و میزان مفید بودن نظرات، قابل استفاده است.
در این بخش از پیکره (YJC) برای هر خبر فیلدهای ذیل وجود دارد:
- عنوان خبر (Title)
- تاریخ انتشار (Date)
- گروه/نوع خبری (بصورت فارسی و انگلیسی) (CatPanel و CatFa، CatEn) - هر خبر میتواند یک یا دو گروه (و زیرگروه) خبری داشته باشد.
- متن نرمالشده خلاصه خبر (Summary)
- متن نرمالشده اصلی خبر (Body)
- برچسبهای خبر (Tag)
- نظرات (CommentItemPanel) شامل: 1.تاریخ، 2.تعداد رای مثبت و منفی، 3.متن نظر
نمونه خبر (یک سطر) از اخبار باشگاه خبرنگاران جوان:
بخش دوم پیکره اخبار، شامل اخبار سال 1397 خبرگزاری فارسنیوز است. در این پیکره بخشهای (فیلدهای) مختلف حدود 286000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمعآوری شده، استفاده از این پیکره برای مسائل زیادی در حوزه متن کاوی قابل استفاده است.
در این بخش از پیکره اخبار (FarsNews) برای هر خبر یک سطر از فایل json شامل فیلدهای ذیل در نظر گرفته شده است:
- عنوان خبر (NewsTitle)
- تاریخ انتشار (NewsDate)
- گروه/نوع خبری بصورت فارسی و انگلیسی (CategoryPanel و CategoryEn، CategoryFa) - هر خبر میتواند یک یا دو گروه (و زیرگروه) خبری داشته باشد.
- متن نرمالشده خلاصه خبر (NewsSummary)
- متن نرمالشده اصلی خبر (NewsBody)
- نظرات (CommentsJsonArray) شامل: 1.تاریخ، 2.مشخصات نویسنده، 3.متن نظر، 4.پاسخهای هر نظر (در صورت وجود)
نمونه خبر (یک سطر) از اخبار فارسنیوز:
مطلبی دیگر از این انتشارات
معرفی بهترین کتابخانههای پردازش متن - بخش سوم (Polyglot, Gensim, NLP Curator)
مطلبی دیگر از این انتشارات
معرفی بهترین کتابخانههای پردازش متن - بخش دوم (TextBlob, Pattern, StanfordNLP)
مطلبی دیگر از این انتشارات
ابزارها و فعالان واقعی در حوزه پردازش متن فارسی