تطبیق برچسب های واژگانی سراجی، PerDT و وابستگی های جهانی

پیش از این در «انتشارات وابستگی های جهانی» در ویرگول، شروع به ترجمه ی متن های این پروژه (Universal Dependencies یا UD) کرده بودم که هنوز ادامه دارد. در این نوشته می خواهم برچسب های واژگانی (Morphological یا اجزای سخن یا Part of Speech یا POS) سه پروژه را مقایسه کنم: پروژه ی دانشگاه اوپسالا (مژگان سراجی)، PerDT (محمدصادق رسولی، پگاه صفری، امیرسعید مولودی و علیرضا نوریان) و وابستگی های جهانی.

سراجی پیش از این در مقالۀ «وابستگی های جهانی برای فارسی» جدولی از مقایسۀ «درخت بانک وابستگی فارسی اوپسالا» با وابستگی های جهانی ارائه داده است. من در این نوشته مبنا را بر وابستگی های جهانی می گذارم و می نویسم که هر برچسب اجزای سخن در وابستگی جهانی چه معادلی در پروژه ی دانشگاه اوپسالا و «پروژه ی دادگان وابستگی زبان فارسی» دارد.

جدول مقایسه برچسب های وابستگی زبان فارسی (برچسب های جهانی، پروژه سراجی، پروژه دادگان)
جدول مقایسه برچسب های وابستگی زبان فارسی (برچسب های جهانی، پروژه سراجی، پروژه دادگان)


17 برچسب اجزای سخن جهانی در UD تعریف شده است:

1- صفت یا ADJ: adjective

سراجی: پنج برچسب «صفت» تعریف کرده است:

  • صفت تفضیلی برتر یا ADJ_CMPR یا Comparative adjective. مانند «بیشتر»، «مناسبتر»، «محکمتر»، «ناامیدتر».
  • صفت مفعولی یا ADJ_INO یا Participle adjective. مانند «انداخته»، «نیفتاده»، «شناخته شده»، «پیش آمده»، «انجام شده»، «آمده» (در «نتایج به دست آمده»).
  • صفت یا ADJ یا Adjective. مانند «قابل»، «مذکور»، «تجاری»، «پذیرفتنی»، «جنبی»، «مربوط».
  • صفت عالی یا ADJ_SUP یا Superlative adjective. مانند «بهترین»، «بیشترین»، «نازپرورده ترین».
  • صفت ندا یا ADJ_VOC یا Vocative adjective. مانند «خوشا».

دادگان برچسب ADJ را تعریف کرده است که خود شامل سه «برچسب ریز» است:

  • صفت مطلق یا AJP. مانند «پیدا» (در «ترمیم پیدا نمی کند»)، «باعث»، «جدید»، «متنوع»، «عزیزم»، «بسته»، «اصلی».
  • صفت تفضیلی یا AJCM. مانند «بیشتری»، «ابله تر»، «افضل»، «بهتر»، «مجهزتر»، «کمتر»، «بیش» (در «بیش از گزش مار خسارت آور است»).
  • صفت عالی یا AJSUP. مانند «مشهورترین»، «ابتدایی ترین»، «مهم ترین»، «بهترین»، «داغ ترین»، «بیشترین».

همچنین دادگان POSNUM یا «صفت شمارشی پسین» را هم جدا کرده است. مانند «سوم»، «چهارم»، «اول»، «بیست» و «نهم» (در «هفتۀ بیست و نهم»).

2- حرف اضافه یا ADP: adposition

سراجی برچسب P یا Preposition را تعریف کرده است. مانند: «بر»، «از»، «به»، «در».

دادگان برچسب PREP یا «حرف اضافه پیشین» را تعریف کرده است. مانند «در»، «به»، «از»، «با»، «برای».

3- قید یا ADV: adverb

سراجی شش برچسب «قید» تعریف کرده است:

  • قید مقایسه یا ADV_COMP یا Adverb of Comparison. مانند «همچو»، «همچون»، «چون»، «چو»، «همانند»، «نظیر»، «مانند»، «یعنی»، «مثل».
  • قید استفهام یا ADV_I یا Adverb of Interrogation. مانند «چه»، «چرا»، «مگر»، «کدام»، «کجا»، «چگونه»، «چقدر»، «کجا».
  • قید مکان یا ADV_LOC یا Adverb of Location. مانند «بالا»، «اینجا»، «آنجا»، «بیرون»، «پایین»، «غیرپایین»، «پیش» (در «همین شکل پیش»).
  • قید نفی یا ADV_NEG یا Adverb of Negation. مانند «دیگر»، «هیچ»، «غیر»، «هرگز»، «خیر»، «نه»، «متغیر»، «هیچگاه»، «تصغیر»، «اصلا».
  • قید یا ADV یا Adverb. مانند «فقط»، «بسیار»، «ان شاء الله»، «مختصرا»، «واقع»، «کماوبیش»، «به تنهایی»، «هنوز»، «نهایتا»، «به درستی»، «حداقل».
  • قید زمان یا ADV_TIME یا Adverb of time. مانند «پس»، «پیش»، «قبل»، «هم اکنون»، «امروز»، «همواره»، «بعد»، «در حال حاضر»، «گاهی»، «کنون»، «همیشه»، «قبلا»، «دائما»، «همزمان»، «حال».

دادگان برچسب ADV را تعریف کرده است که شامل یک ریزبرچسب است:

  • قید مختص یا SADV. مانند «کمی»، «نیز»، «باز» (در «در دفعات بعد نیز آن لغت را باز به همین صورت تلفظ خواهید کرد.»)، «حتی»، «قطعا»، «سرانجام»، «هم»، «یا»، «فقط»، «بعد»، «معمولا».

در دادگان گاهی PSUS تعریف شده است. مانند «انگار» و «یعنی». همچنین گاهی PART تعریف شده است مانند «مگر» (در «مگر تابلویی که قرآن از بهشت ترسیم می کند، غیر از این است؟»)

4- فعل کمکی یا AUX: auxiliary

سراجی برچسب V_AUX یا Auxiliary Verb را تعریف کرده است. مانند «باید» (در «باید گفت» یا «باید آماده جنگ شوید»)، «نتوان»، «نخواهیم» (در «نخواهیم آورد»)، «خواهد» (در «خواهد آمد»)، «خواهیم» (در «خواهیم بود»)، «داشت» (در «ولی دستش داشت کنده می شد»)، «می بایست»، «بایستی»، «نباید».

در دادگان با برچسب V و برچسب ریز MODL مشخص شده است. مانند «بایست»، «نتوان».

5- حرف ربط هم پایه ساز یا CCONJ: coordinating conjunction

سراجی برای این برچسب و برچسب SCONJ یک برچسب واحد به نام CON یا Conjunction تعریف کرده است. مانند «همچنین»، «که»، «و»، «گرچه»، «نیز»، «زیرا»، «یا»، «اما».

دادگان برچسب CONJ یا «نقش نمای همپایگی» را تعریف کرده است. مانند «و» و «یا».

6- مشخصگر یا DET: determiner

سراجی همان برچسب DET را تعریف کرده است. مانند «دیگر»، «هر»، «این»، «آن»، «همین»، «همان»، «برخی»، «تمام» (در «تمام ساخت های شناختی»)، «تمامی»، «تنها»، «کدام» (در «با کدام دستتان می نویسید؟»)، «تعدادی»، «بعضی».

دادگان برچسب PREM یا «پیش توصیف گر» را تعریف کرده است که خود شامل چهار برچسب ریز است:

  • صفت تعجبی یا EXAJ. مانند «چه» و «چقدر».
  • صفت پرسشی یا QUAJ. مانند «چه»، «چند»، «کدام».
  • صفت اشاره یا DEMAJ. مانند «این»، «همین»، «همان»، «آن»، «چنین».
  • صفت مبهم یا AMBAJ. مانند «برخی»، «هر»، «هیچ»، «میلیون ها»، «صدها»، «دیگر».

7- صوت و حرف ندا یا INTJ: interjection

سراجی برچسب INT یا Interjection را تعریف کرده است. مانند «اوهو»، «بله»، «نخیر»، «وای»، «ا»، «آره»، «ها»، «خداحافظ»، «آخ»، «هی»، «آهان»، «آوه»، «ن» (در «ها...ن»)، «فر» و «دا» (در «مریم: فر-دا!»)، «هوی»، «نه»، «آهای»، «ای» (در «شما ای بنی هاشم»)، «خیر»، «زهی»، «بلی»، «هیچ» (در «گفتم: هیچ.»)، «سبحان الله»، «ایوالله»، «وه»، «والله اعلم»، «والسلام علیکم»، «سلام»، «آه»، «آاو» و «و» (در «می گویم: آاو و و و...»)، «ناسلامتی» (در «ناسلامتی مثلا استاد غضنفری گفته اند»).

دادگان برچسب ADR یا «نقش نمای ندا» را تعریف کرده است که خود شامل دو برچسب ریز است:

  • نقش نمای ندا پیشین یا PRADR. مانند «ای» و «یا».
  • نقش نمای ندا پسین یا POSADR. «ا» (در آخر «خدایا»)، «ا» (در آخر «پروردگارا»)، «ا» (در آخر «بارالها»).

در دادگان گاهی PSUS معرفی شده است. مانند «نه»، «بله».

8- اسم یا NOUN: noun

سراجی سه برچسب «اسم» تعریف کرده است:

  • اسم جمع یا N_PL یا Plural noun. مانند «خوانندگان»، «صفحات»، «مطالب»، «رسانه های»، «نشانه های»، «تئوری هایی»، «انگاره ها»، «واقعیات»، «فیلم ها»، «افکار»، «کلیشه ها»، «آداب»، «افراد»، «مناسبات».
  • اسم مفرد یا N_SING یا Singular noun. مانند «نحوی» (در «به نحوی که»)، «رفتار»، «زندگی»، «مفهوم»، «ماکس» (در «ماکس وبر»)، «جهان»، «غرب».
  • اسم ندا یا N_VOC یا Vocative noun. مانند «الهی»، «یارب»، «پروردگارا»، «حافظا»، «شهنشاها»، «خدایا»، «رهبرا»، «والله»، «نگارا»، «زهازه»، «شهریارا».

دادگان برچسب N یا «اسم» را تعریف کرده است که خود شامل دو برچسب ریز است:

  • جاندار یا ANM. مانند «مستمندان»، «افراد»، «نصرالدین»، «مردم»، «اهالی».
  • بی جان یا IANM. مانند «دِه»، «جمع»، «صدقه»، «چیز»، «وسیلۀ»، «سرافرازی».

همچنین دادگان برچسب IDEN یا «شاخص» را جدا کرده است. مانند «دکتر»، «امام»، «استاد»، «مرحوم»، «شیخ»، «شهید»، «خواجه»، «حاجی»، «شاه»، «سید»، «سردار»، «قاضی».

9- عدد یا NUM: numeral

سراجی همان برچسب NUM یا numeral را تعریف کرده است. مانند «دو»، «یک»، «یکصد»، «102»، »7»، «1930»، «14»، «یه»، «یازده»، «یکی»، «هزاران»، «میلیون».

دادگان برچسب PRENUM یا «صفت شمارشی پیشین» و POSNUM یا «صفت شمارشی پسین»را جدا کرده است. مانند «دو»، «یک»، «95»، «6»، «40».

10- ادات یا PART: particle

سراجی برچسب CLITIC یا Accusative marker را تعریف کرده است که فقط «را» است.

دادگان برچسب POSTP یا «حرف اضافه پسین» را برای «را» تعریف کرده است.

11- ضمیر یا PRON: pronoun

سراجی برچسب PRO یا Pronoun را تعریف کرده است. مانند «همانها»، «این»، «من»، «آنها»، «شما»، «ما»، «یکی» (در «یک قسمت از یکی از این ها»)، «همین»، «همان»، «همه» (در «همه چیز در نهایت خوب تمام می شود»)، «هم» (در «به هم می رسند»)، «خودش»، «بعضی شان»، «خودمان»، «خود»، «او».

دادگان برچسب PR را تعریف کرده است که شامل هفت برچسب ریز است:

  • ضمیر شخصی جدا یا SEPER. مانند «من»، «تو»، «او»، «ما»، «آنها».
  • ضمیر شخصی پیوسته یا JOPER. مانند «ش» (در «ارزشش»)، «ش» (در «میشناسیمش»)، «مان» (در «گرممان می کند»)، «اش» (در «درباره اش»).
  • ضمیر اشاره یا DEMON. مانند «این»، «آن»، «اینها»، «آنها».
  • ضمیر پرسشی یا INTG. مانند «کجا»، «کی»، «چه»، «که» (در «فکرِ که می رود و چه می شود انتخابات ذهنم را به دور خودش پیچ می داد»)، «چی»، «کو»، «کدام».
  • ضمیر بازتابی مشترک یا CREFX. مانند «خود»، «خودم»، «خویش»، «آنچه».
  • ضمیر بازتابی غیرمشترک یا UCREFX. مانند «خودشان»، «خودم»، «خودش»، «خودت».
  • ضمیر متقابل یا RECPR. مانند «هم»، «یکدیگر»، «همدیگر».

12- اسم خاص یا PROPN: proper noun

سراجی و دادگان هیچ کدام معادلی تعریف نکرده اند.

13- علامت نگارشی یا PUNCT: punctuation

سراجی برچسب DELM یا Delimiter و دادگان برچسب PUNC یا «علامت نگارشی» را تعریف کرده است. مانند «.»، «،»، « علامت « »، «*»، «؟»، «...»، «؛»، «:».

14- حرف ربط وابسته ساز یا SCONJ: subordinating conjunction

سراجی برای این برچسب و برچسب CCONJ یک برچسب واحد به نام CON یا Conjunction تعریف کرده است. مانند «همچنین»، «که»، «و»، «گرچه»، «نیز»، «زیرا»، «یا»، «اما».

دادگان برچسب SUBR یا «نقش نمای وابستگی» را تعریف کرده است. مانند «زیرا»، «که»، «اگر»، «چون»، «اما»، «چرا» (در «چرا که»).

15- نماد یا SYM: symbol

سراجی همان برچسب SYM را تعریف کرده است. مانند «GB» (در «1 GB دیسک سخت»)، «C» (در «درجه حرارتهای 500 C به بالا)، «x» (در «ابعاد 60x60») و «m» (در «حدود 1/5 m باشد»).

دادگان معادلی تعریف نکرده است.

16- فعل یا VERB: verb

سراجی شش برچسب «فعل» تعریف کرده است:

  • فعل امری یا V_IMP یا Imperative verb. مانند «بفرمایید»، «برو»، «بیا»، «گو»، «بچش»، «بدانید»، «بگذار»، «نباش»، «باش»، «کن» (در «سعی کن»)، «نترس»، «زی»، «بیانداز»، «شو»، «بده»، «برخیز».
  • فعل زمان گذشته یا V_PA یا Past tense verb. مانند «گفتند»، «داشت»، «گذاشت»، «بود»، «نوشت»، «آمد»، «بودم»، «نبود»، «برداشتیم»، «برداشتی»، «گذاشتی»، «نفهمید»، «زد»، «کرد»، «گردیدیم»، «خواستیم»، «بافته»، «چشیده»، «می داده»، «نمی نویسد»، «اقتاد».
  • فعل گذشته کامل یا V_PP یا Past participle verb. مانند «فرستاده»، «افکنده»، «بوده»، «گفته اند»، «مانده»، «داده»، «کرده اند»، «شده»، «پاشیده»، «رسانیده»، «داده اند».
  • فعل ربطی یا V_COP یا Verb copula. هیچ واژه ای این برچسب را نخورده است.
  • فعل زمان حال یا V_PRS یا Present tense verb. مانند «است»، «می کند»، «می تواند»، «می دهد»، «می گویند»، «می زند»، «پدیده هاست» (در «واکنشی به این پدیده هاست»)، «می رسد»، «می برد»، «می کند»، «دارد»، «می توانند».
  • فعل شرطی (التزامی) یا V_SUB یا Subjunctive verb. مانند «بزند»، «بیافریند»، «بدهد»، «دهد»، «کند»، «باشد»، «بیام»، «بشورم»، «بسازد»، «بگم»، «باشه»، «بره»، «نشه»، «گیرد»، «بخواهیم» (در «اگر ما بخواهیم دربارۀ فواید روزه بنویسیم»)، «کنیم»، «کنه»، «نترسد».

دادگان برچسب V را تعریف کرده است که شامل سه برچسب ریز است:

  • معلوم یا ACT. مانند «دانست»، «برخاستند»، «کرد»، «دارند»، «ست» (در «شارح ارسطوست»)، «می برند».
  • مجهول یا PASS (این برچسب در مستندات دادگان به شکل PAS آمده است). مانند «شدند» (در وارد صحنه شدند»)، «شد» (در «بعدا تفسیر قلمداد شد»)، «شده بود» (در «روی سنگ حک شده بود»).
  • وجهی یا MODL (این برچسب در مستندات دادگان به شکل MOD آمده است). مانند «باید»، «می توان»، «نمی شد».

17- دیگر واژه ها یا X: other

سراجی برچسب «واژه خارجی» یا FW یا Foreign word را انتخاب کرده است. مانند واژه های «انی لارجو ان یکون رای اخی رحمه الله فی الموادعه و رایی فی جهاد الظلمه رشداً و سداداً فالصقوا بالارض و اخفواالشخص واکتموا الهدی واحترسها من الاخطاأ مادام ابن هندحیا فان یحدث به حدث و اناحی یؤتکم رایی»، «بن» (در «علی بن حسین»)، «مع الاسف»، واژه های «السلام علیک یابن رسول الله».

در دادگان گاهی به عنوان PSUS تعریف شده است. مانند «بحمدالله».