سرویسهای متنکاوی و پردازش متن فارسییار
معرفی پیکره ویکیپدیا فارسی برای متن کاوی (بصورت اطلاعات تفکیک و پیشپردازش شده) بهمراه مدلهای تعبیه کلمات (یادگیری عمیق)
اخیراً با استخراج بخشهای مختلف صفحات (مقالات) ویکیپدیا پیکرهای تهیه و در گیتهاب بارگزاری کردیم. در ساخت پیکره موجودیتهای نامی زبان فارسی از همین پیکره استفاده شده است. همچنین این پیکره کاربردهای مختلفی دیگری نیز برای پژوهشگران خواهد داشت.
هر سطر از پیکره شامل اطلاعات یک صفحه ویکیپدیا با فرمت JSON و شامل موارد ذیل است:
- شناسه (Id): یک عدد منحصربهفرد براساس ترتیب صفحات
- عنوان صفحه (Title): عنوان مقاله بصورت متن غیرنرمال
- نوع موجودیت (Type): عدد صحیح که نوع موجودیت (0: نامعلوم؛ 1:شخص؛ 2:مکان؛ 3:سازمان؛ 4:رویداد، 5:سایر که شامل فیلم، موسیقی، کتاب و ... میشود) را نشان میدهد.
- رتبه (Rank): عددی صحیح که میزان اهمیت صفحه (مقاله) را براساس طول متن، لینکهای ارجاع شده به آن مقاله و ... مشخص مینماید.
- فضای نام (Namespace): عدد صحیح معادل Wikipedia namespace استاندارد است.
- لیست تغییرمسیر (RedirectList): شامل عناوین صفحات (مقالات) دیگر ویکیپدیا است که به این مقاله تغییر مسیر داده شدهاند.
- مشخصکننده ابهامزدایی (IsDisambiguati): مقدار بولین (false, true) که مشخص میکند صفحه فعلی یک صفحه ابهامزدایی است یا خیر.
- تعداد ارجاعات (TargetLinksCount): عدد صحیح که تعداد مقالاتی که به این مقاله ارجاع دادند را نشان میدهد.
- بخش جعبه اطلاعات (InfoBox): در صورت وجود جعبه اطلاعات در صفحه مربوطه، حاوی لیستی از بخشهای (فیلدهای) مختلف جعبه اطلاعات مقاله بصورت تفکیک شده است.
- متن اصلی (Text): متن نرمال (استانداردسازی) شدهی مقاله است.
- لینکها (Links): لینک به سایر مقالات ویکیپدیا یا ارجاعات به خارج (لیست عناوین صفحات) از این مقاله است.
- لیست ردهها (Parents): لیست اسامی ردههای مشخص شده برای مقاله فعلی است.
همچنین خروجی مدلهای زبانی مختلف آموزش داده شدهی بوسیله روشهای مدرن یادگیری عمیق از قبیل (word2vec، glove و fast-text) به مخرن مربوطه اضافه شدند.
این پیکره هماکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.
در ذیل مثالی از محتوای یک خط (سطر) که معادل با بخشهای یکی از مقالات ویکیپدیا است، آورده شده است. البته انتهای بخشهای طولانی آن، برای اختصار، حذف و علامت ... گذاشتیم.
{
"Id":56,
"Title":"سعدی",
"Type":1,
"Rank":1414,
"Namespace":0,
"RedirectList":[
"سعدي",
"سعدي شيرازي",
"سعدی شیرازی",
"سعدي و غزل",
"شیخ مشرف الدین بن مصلح الدین سعدی شیرازی",
"سعدی و غزل",
"غزل سعدی",
"غزليات سعدي",
"مصلح سعدی",
"شیخ اجل",
"استاد سخن",
"شيخ اجل",
"شيخ مشرف الدين بن مصلح الدين سعدي شيرازي",
"غزل سعدي",
"مصلح سعدي",
"مصلحالدین"
],
"IsDisambiguati":false,
"TargetLinksCount":508,
"InfoBox":{
"Title":"شاعر و نویسنده",
"KeysAndValues":[
{
"Item1":"نام",
"Item2":"سعدی شیرازی"
},
{
"Item1":"تصویر",
"Item2":"Sadi in a Rose garden.jpg"
},
{
"Item1":"توضیح تصویر",
"Item2":"سعدی در گلستان، از یک نسخه خطی گورکانی ''[[گلستان]]''، حدود ۱۶۴۵"
},
{
"Item1":"نام اصلی",
"Item2":"'''[[لقب]]''': مشرفالدین'''[[کنیه]]''': ابومحمد'''[[نام کوچک]]''': مصلح'''[[تخلص شعری]]''': سعدی'''نسبت''': شیرازی"
},
{
"Item1":"زمینه فعالیت",
"Item2":"شعر و نثر فارسی"
},
{
"Item1":"ملیت",
"Item2":"[[ایران]]ی"
},
{
"Item1":"تاریخ تولد",
"Item2":"۶۰۶ هجری قمری (۱۲۱۰ میلادی)"
},
{
"Item1":"محل تولد",
"Item2":"[[شیراز]]"
},
...
]
},
"Text":"ابومحمد مشرفالدین مصلح بن عبدالله بن مشرف متخلص به سعدی (۶۰۶ – ۶۹۰ هجری قمری) شاعر و نویسنده پارسیگوی ایرانی است. اهل ادب به او لقب استاد سخن، پادشاه سخن، شیخ اجل و حتی بهطور مطلق، استاد دادهاند. او در نظامیه بغداد — که مهمترین مرکز علم و دانش جهان اسلام در آن زمان به حساب میآمد — تحصیل و پس از آن ...",
"Links":[
"گلستان سعدی",
"لقب",
"کنیه",
"نام کوچک",
"تخلص",
"ایران",
"شیراز",
"بغداد",
"سعدیه",
"اتابکان فارس",
"خلفای عباسی",
"خوارزمشاهیان",
"ایلخانان",
"حمله مغول به ایران",
"اسلام",
...
],
"Parents":[
"سعدی",
"افراد صدساله اهل ایران",
"افراد صدساله فارسیزبانان",
"اهالی ایران در سده ۱۳ (میلادی)",
"اهالی شیراز",
"دانشآموختگان نظامیه بغداد",
...
]
}
مطلبی دیگر از این انتشارات
مقدمهای بر نظرکاوی (تحلیل حس) و کاربردهای آن
مطلبی دیگر از این انتشارات
حوزههای تحقیقاتی نظرکاوی (تحلیل حس نویسنده از روی متن)
مطلبی دیگر از این انتشارات
مفاهیم اولیه پردازش زبان طبیعی