پیکره اخبار فارسی‌یار (مناسب برای زمینه‌های مختلف متن کاوی)

با توجه به کمبود پیکره‌های متنی بزرگ و مناسب برای فعالیت‌های پردازش زبان طبیعی متن کاوی در زبان فارسی، تصمیم به تهیه یکی از بزرگترین پیکره‌های متن باز فارسی گرفتیم. به این منظور حجم زیادی از اخبار چند خبرگزاری بصورت تفکیک شده (بخش‌های مختلف خبر اعم از عنوان، خلاصه، متن اصلی، تاریخ، نظرات، برچسب‌ها و ...) و قابل استفاده در مسائل مختلف متن کاوی گردآوری شدند. پیکره اخبار در حال حاضر شامل دو بخش (مجموعه اخبار دو خبرگزاری) است.

این پیکره هم‌اکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.

بخش اول پیکره اخبار، شامل اخبار سال 1397 خبرگزاری باشگاه خبرنگاران جوان است. در این پیکره بخش‌های (فیلدهای) مختلف حدود 1000000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمع‌آوری شده، استفاده از این پیکره علاوه بر تحلیل‌های آماری و ساخت مدل‌های تعبیه کلمات، برای کاربردهای مختلف متن کاوی نظیر خلاصه‌سازی خودکار، تشخیص موضوع (زمینه) متن خبر (دسته‌بندی متون) و میزان مفید بودن نظرات، قابل استفاده است.

در این بخش از پیکره (YJC) برای هر خبر فیلدهای ذیل وجود دارد:

  1. عنوان خبر (Title)
  2. تاریخ انتشار (Date)
  3. گروه/نوع خبری (بصورت فارسی و انگلیسی) (CatPanel و CatFa، CatEn) - هر خبر می‌تواند یک یا دو گروه (و زیرگروه) خبری داشته باشد.
  4. متن نرمال‌شده خلاصه خبر (Summary)
  5. متن نرمال‌شده اصلی خبر (Body)
  6. برچسب‌های خبر (Tag)
  7. نظرات (CommentItemPanel) شامل: 1.تاریخ، 2.تعداد رای مثبت و منفی، 3.متن نظر

نمونه خبر (یک سطر) از اخبار باشگاه خبرنگاران جوان:

https://gist.github.com/ehsanasgarian/15e7347036e014daded6e9e4630decd7

بخش دوم پیکره اخبار، شامل اخبار سال 1397 خبرگزاری فارس‌نیوز است. در این پیکره بخش‌های (فیلدهای) مختلف حدود 286000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمع‌آوری شده، استفاده از این پیکره برای مسائل زیادی در حوزه متن کاوی قابل استفاده است.

در این بخش از پیکره اخبار (FarsNews) برای هر خبر یک سطر از فایل json شامل فیلدهای ذیل در نظر گرفته شده است:

  1. عنوان خبر (NewsTitle)
  2. تاریخ انتشار (NewsDate)
  3. گروه/نوع خبری بصورت فارسی و انگلیسی (CategoryPanel و CategoryEn، CategoryFa) - هر خبر می‌تواند یک یا دو گروه (و زیرگروه) خبری داشته باشد.
  4. متن نرمال‌شده خلاصه خبر (NewsSummary)
  5. متن نرمال‌شده اصلی خبر (NewsBody)
  6. نظرات (CommentsJsonArray) شامل: 1.تاریخ، 2.مشخصات نویسنده، 3.متن نظر، 4.پاسخ‌های هر نظر (در صورت وجود)

نمونه خبر (یک سطر) از اخبار فارس‌نیوز:

https://gist.github.com/ehsanasgarian/8e2b7318bbd78c114025f0d2a8f8cd92