معرفی پیکره ویکی‌پدیا فارسی برای متن کاوی (بصورت اطلاعات تفکیک و پیش‌پردازش شده) بهمراه مدلهای تعبیه کلمات (یادگیری عمیق)

اخیراً با استخراج بخش‌های مختلف صفحات (مقالات) ویکی‌پدیا پیکره‌ای تهیه و در گیت‌هاب بارگزاری کردیم. در ساخت پیکره موجودیت‌های نامی زبان فارسی از همین پیکره استفاده شده است. همچنین این پیکره کاربردهای مختلفی دیگری نیز برای پژوهشگران خواهد داشت.

هر سطر از پیکره شامل اطلاعات یک صفحه ویکی‌پدیا با فرمت JSON و شامل موارد ذیل است:

  1. شناسه (Id): یک عدد منحصربه‌فرد براساس ترتیب صفحات
  2. عنوان صفحه (Title): عنوان مقاله بصورت متن غیرنرمال
  3. نوع موجودیت (Type): عدد صحیح که نوع موجودیت (0: نامعلوم؛ 1:شخص؛ 2:مکان؛ 3:سازمان؛ 4:رویداد، 5:سایر که شامل فیلم، موسیقی، کتاب و ... می‌شود) را نشان می‌دهد.
  4. رتبه (Rank): عددی صحیح که میزان اهمیت صفحه (مقاله) را براساس طول متن، لینک‌های ارجاع شده به آن مقاله و ... مشخص می‌نماید.
  5. فضای نام (Namespace): عدد صحیح معادل Wikipedia namespace استاندارد است.
  6. لیست تغییرمسیر (RedirectList): شامل عناوین صفحات (مقالات) دیگر ویکی‌پدیا است که به این مقاله تغییر مسیر داده شده‌اند.
  7. مشخص‌کننده ابهام‌زدایی (IsDisambiguati): مقدار بولین (false, true) که مشخص می‌کند صفحه فعلی یک صفحه ابهام‌زدایی است یا خیر.
  8. تعداد ارجاعات (TargetLinksCount): عدد صحیح که تعداد مقالاتی که به این مقاله ارجاع دادند را نشان می‌دهد.
  9. بخش جعبه اطلاعات (InfoBox): در صورت وجود جعبه اطلاعات در صفحه مربوطه، حاوی لیستی از بخش‌های (فیلدهای) مختلف جعبه اطلاعات مقاله بصورت تفکیک شده است.
  10. متن اصلی (Text): متن نرمال (استانداردسازی) شده‌ی مقاله است.
  11. لینک‌ها (Links): لینک به سایر مقالات ویکی‌پدیا یا ارجاعات به خارج (لیست عناوین صفحات) از این مقاله است.
  12. لیست رده‌ها (Parents): لیست اسامی رده‌های مشخص شده برای مقاله فعلی است.


همچنین خروجی مدل‌های زبانی مختلف آموزش داده شده‌ی بوسیله روش‌های مدرن یادگیری عمیق از قبیل (word2vec، glove و fast-text) به مخرن مربوطه اضافه شدند.

این پیکره هم‌اکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.


در ذیل مثالی از محتوای یک خط (سطر) که معادل با بخش‌های یکی از مقالات ویکی‌پدیا است، آورده شده است. البته انتهای بخش‌های طولانی آن، برای اختصار، حذف و علامت ... گذاشتیم.

{
   &quotId&quot:56,
   &quotTitle&quot:&quotسعدی&quot,
   &quotType&quot:1,
   &quotRank&quot:1414,
   &quotNamespace&quot:0,
   &quotRedirectList&quot:[
      &quotسعدي&quot,
      &quotسعدي شيرازي&quot,
      &quotسعدی شیرازی&quot,
      &quotسعدي و غزل&quot,
      &quotشیخ مشرف الدین بن مصلح الدین سعدی شیرازی&quot,
      &quotسعدی و غزل&quot,
      &quotغزل سعدی&quot,
      &quotغزليات سعدي&quot,
      &quotمصلح سعدی&quot,
      &quotشیخ اجل&quot,
      &quotاستاد سخن&quot,
      &quotشيخ اجل&quot,
      &quotشيخ مشرف الدين بن مصلح الدين سعدي شيرازي&quot,
      &quotغزل سعدي&quot,
      &quotمصلح سعدي&quot,
      &quotمصلح‌الدین&quot
   ],
   &quotIsDisambiguati&quot:false,
   &quotTargetLinksCount&quot:508,
   &quotInfoBox&quot:{
      &quotTitle&quot:&quotشاعر و نویسنده&quot,
      &quotKeysAndValues&quot:[
         {
            &quotItem1&quot:&quotنام&quot,
            &quotItem2&quot:&quotسعدی شیرازی&quot
         },
         {
            &quotItem1&quot:&quotتصویر&quot,
            &quotItem2&quot:&quotSadi in a Rose garden.jpg&quot
         },
         {
            &quotItem1&quot:&quotتوضیح تصویر&quot,
            &quotItem2&quot:&quotسعدی در گلستان، از یک نسخه خطی گورکانی ''[[گلستان]]''، حدود ۱۶۴۵&quot
         },
         {
            &quotItem1&quot:&quotنام اصلی&quot,
            &quotItem2&quot:&quot'''[[لقب]]''': مشرف‌الدین'''[[کنیه]]''': ابومحمد'''[[نام کوچک]]''': مصلح'''[[تخلص شعری]]''': سعدی'''نسبت''': شیرازی&quot
         },
         {
            &quotItem1&quot:&quotزمینه فعالیت&quot,
            &quotItem2&quot:&quotشعر و نثر فارسی&quot
         },
         {
            &quotItem1&quot:&quotملیت&quot,
            &quotItem2&quot:&quot[[ایران]]ی&quot
         },
         {
            &quotItem1&quot:&quotتاریخ تولد&quot,
            &quotItem2&quot:&quot۶۰۶ هجری قمری (۱۲۱۰ میلادی)&quot
         },
         {
            &quotItem1&quot:&quotمحل تولد&quot,
            &quotItem2&quot:&quot[[شیراز]]&quot
         },
         ...
      ]
   },
&quotText&quot:&quotابومحمد مشرف‌الدین مصلح بن عبدالله بن مشرف متخلص به سعدی (۶۰۶ – ۶۹۰ هجری قمری) شاعر و نویسنده پارسی‌گوی ایرانی است. اهل ادب به او لقب استاد سخن، پادشاه سخن، شیخ اجل و حتی به‌طور مطلق، استاد داده‌اند. او در نظامیه بغداد — که مهم‌ترین مرکز علم و دانش جهان اسلام در آن زمان به حساب می‌آمد — تحصیل و پس از آن  ...&quot,
 &quotLinks&quot:[
      &quotگلستان سعدی&quot,
      &quotلقب&quot,
      &quotکنیه&quot,
      &quotنام کوچک&quot,
      &quotتخلص&quot,
      &quotایران&quot,
      &quotشیراز&quot,
      &quotبغداد&quot,
      &quotسعدیه&quot,
      &quotاتابکان فارس&quot,
      &quotخلفای عباسی&quot,
      &quotخوارزمشاهیان&quot,
      &quotایلخانان&quot,
      &quotحمله مغول به ایران&quot,
      &quotاسلام&quot,
      ...
   ],
   &quotParents&quot:[
      &quotسعدی&quot,
      &quotافراد صدساله اهل ایران&quot,
      &quotافراد صدساله فارسی‌زبانان&quot,
      &quotاهالی ایران در سده ۱۳ (میلادی)&quot,
      &quotاهالی شیراز&quot,
      &quotدانش‌آموختگان نظامیه بغداد&quot,
      ...  
   ]
}