وابستگی های جهانی: صفحه ی اول

این متن ترجمه ای است از صفحه ی «اول» در سایت اصلی وابستگی های جهانی. لطفن اگر نظری برای بهبود این ترجمه یا درباره ی خود وابستگی های جهانی دارید بنویسید. معادل بسیاری از واژگان تخصصی بر اساس «واژه نامۀ زبان شناسی و علوم وابسته» از همادخت همایون (پژوهشگاه علوم انسانی و مطالعات فرهنگی) انتخاب شده اند. صفحه ی اصلی ممکن است تغییر کند. لطفن به تاریخ انجام این ترجمه (12 آبان 1398) توجه کنید.

لوگوی دستور وابستگی جهانی
لوگوی دستور وابستگی جهانی


«دستور وابستگی های جهانی» (Universal Dependencies یا به اختصار: UD. در این جا این مخفف را «واوجیم» می نامم) چارچوبی برای برچسب گذاری دستوری (اجزای سخن -parts of speech یا به اختصار: PoS- ویژگی های صرفی -morphological- و وابستگی های نحوی) برای زبان های بشری (human languages) مختلف است. واوجیم جامعه ای باز با بیش از 200 همکار دارد که روی بیش از 100 درخت‌بانک (treebank) برای بیش از 70 زبان کار می کنند. اگر تازه با واوجیم آشنا شده اید، با خواندن «معرفی کوتاه واوجیم» و سپس مرور «برچسب گذاری» شروع کنید.

بخش های اصلی واوجیم:

  • معرفی کوتاه واوجیم
  • راهنمای برچسب گذاری واوجیم
  • اطلاعات بیشتر درباره ی واوجیم
  • -- چطور با واوجیم همکاری کنیم؟
  • -- ابزارهای کار با واوجیم
  • -- بحث درباره ی واوجیم
  • -- رویدادهای مرتبط با واوجیم
  • مدیریت کوئری (Query) های آنلاین درخت بانک های واوجیم
  • -- جستجو در مجموعه های درخت بانک (SETS)- دانشگاه تورکو (فنلاند)
  • -- کوئری درخت PML- دانشگاه کارل پراگ (جمهوری چک)
  • -- جستجوگر KonText- دانشگاه کارل پراگ (جمهوری چک)
  • -- تطبیق گریو (Grew-match)- کاری از Inria in Nancy
  • -- آی ان ای اس اس (INESS: زیرساخت نروژی اکتشاف دستور و معنا)- دانشگاه برگن
  • دانلود درخت های واوجیم

برای آگاهی از آخرین اخبار درباره دستور وابستگی جهانی می توانید در فهرست ایمیل واوجیم عضو شوید. اگر درباره برچسب زنی سوال دارید در بخش موضوعات (issues) گیت هاب پروژه بپرسید.

زبان های فعلی واوجیم [+]

اطلاعات موجود درباره ی خانواده های زبانی (و ژانر برای خانواده هایی با چند شاخه) عمومن از اطلس جهانی ساختارهای زبانی (آنلاین) گرفته شده است (IE مخفف Indo-European، هندواروپایی است).

در هر سطر ابتدا نام زبان، سپس تعداد پروژه ی موجود برای آن زبان، تعداد توکن (token) پروژه یا پروژه های آن زبان (K در این جا به معنی هزار است: 49K یعنی 49000 توکن) و در پایان خانواده های زبانی آن زبان آمده است.

  • Afrikaans 1 49K IE, Germanic
  • Akkadian 1 1K Afro-Asiatic, Semitic
  • Amharic 1 10K Afro-Asiatic, Semitic
  • Ancient Greek 2 416K IE, Greek
  • Arabic 3 1,042K Afro-Asiatic, Semitic
  • Armenian 1 36K IE, Armenian
  • Assyrian 1 <1K Afro-Asiatic, Semitic
  • Bambara 1 13K Mande
  • Basque 1 121K Basque
  • Belarusian 1 13K IE, Slavic
  • Breton 1 10K IE, Celtic
  • Bulgarian 1 156K IE, Slavic
  • Buryat 1 10K Mongolic
  • Cantonese 1 13K Sino-Tibetan
  • Catalan 1 531K IE, Romance
  • Chinese 5 161K Sino-Tibetan
  • Classical Chinese 1 55K Sino-Tibetan
  • Coptic 1 25K Afro-Asiatic, Egyptian
  • Croatian 1 199K IE, Slavic
  • Czech 5 2,222K IE, Slavic
  • Danish 2 100K IE, Germanic
  • Dutch 2 307K IE, Germanic
  • English 7 603K IE, Germanic
  • Erzya 1 15K Uralic, Mordvin
  • Estonian 2 461K Uralic, Finnic
  • Faroese 1 10K IE, Germanic
  • Finnish 3 377K Uralic, Finnic
  • French 8 1,156K IE, Romance
  • Galician 2 164K IE, Romance
  • German 4 3,409K IE, Germanic
  • Gothic 1 55K IE, Germanic
  • Greek 1 63K IE, Greek
  • Hebrew 1 161K Afro-Asiatic, Semitic
  • Hindi 2 375K IE, Indic
  • Hindi English 1 26K Code switching
  • Hungarian 1 42K Uralic, Ugric
  • Indonesian 2 141K Austronesian, Malayo-Sumbawan
  • Irish 1 23K IE, Celtic
  • Italian 6 781K IE, Romance
  • Japanese 5 1,688K Japanese
  • Karelian 1 3K Uralic, Finnic
  • Kazakh 1 10K Turkic, Northwestern
  • Komi Zyrian 2 3K Uralic, Permic
  • Korean 5 446K Korean
  • Kurmanji 1 10K IE, Iranian
  • Latin 3 582K IE, Latin
  • Latvian 1 208K IE, Baltic
  • Lithuanian 2 42K IE, Baltic
  • Maltese 1 44K Afro-Asiatic, Semitic
  • Marathi 1 3K IE, Indic
  • Mbya Guarani 2 13K Tupian
  • Moksha 1 <1K Uralic, Mordvin
  • Naija 1 12K Creole
  • North Sami 1 26K Uralic, Sami
  • Norwegian 3 666K IE, Germanic
  • Old Church Slavonic 1 57K IE, Slavic
  • Old French 1 170K IE, Romance
  • Old Russian 2 164K IE, Slavic
  • Persian 1 152K IE, Iranian
  • Polish 3 500K IE, Slavic
  • Portuguese 3 570K IE, Romance
  • Romanian 3 460K IE, Romance
  • Russian 4 1,263K IE, Slavic
  • Sanskrit 1 1K IE, Indic
  • Serbian 1 97K IE, Slavic
  • Skolt Sami 1 <1K Uralic, Sami
  • Slovak 1 106K IE, Slavic
  • Slovenian 2 170K IE, Slavic
  • Spanish 3 1,004K IE, Romance
  • Swedish 3 195K IE, Germanic
  • Swedish Sign Language 1 1K Sign Language
  • Tagalog 1 <1K Austronesian, Central Philippine
  • Tamil 1 9K Dravidian, Southern
  • Telugu 1 6K Dravidian, South Central
  • Thai 1 22K Tai-Kadai
  • Turkish 4 91K Turkic, Southwestern
  • Ukrainian 1 122K IE, Slavic
  • Upper Sorbian 1 11K IE, Slavic
  • Urdu 1 138K IE, Indic
  • Uyghur 1 40K Turkic, Southeastern
  • Vietnamese 1 43K Austro-Asiatic, Viet-Muong
  • Warlpiri 1 <1K Pama-Nyungan
  • Welsh 1 10K IE, Celtic
  • Wolof 1 44K Niger-Congo, Northern Atlantic
  • Yoruba 1 2K Niger-Congo, Defoid

زبان های در حال توسعه واوجیم

  • Assamese 1 - IE, Indic
  • Bengali 2 - IE, Indic
  • Bhojpuri 1 - IE, Indic
  • Cusco Quechua 1 - Quechuan
  • Dargwa 1 - Nakho-Dagestanian
  • Georgian 1 - Kartvelian
  • Kannada 1 - Dravidian, Southern
  • Komi Permyak 1 - Uralic, Permic
  • Kyrgyz 1 - Turkic, Northwestern
  • Livvi 1 - Uralic, Finnic
  • Macedonian 1 - IE, Slavic
  • Maghrebi Arabic French 1 - Code switching
  • Pnar 1 - Austro-Asiatic, Khasian
  • Romansh 2 - IE, Romance
  • Scottish Gaelic 1 - IE, Celtic
  • Shipibo Konibo 1 - Panoan
  • Sindhi 1 - IE, Indic
  • Somali 1 - Afro-Asiatic, Cushitic
  • Sorani 1 - IE, Iranian
  • Swiss German 1 - IE, Germanic

سلب مسئولیت (سایت دستور وابستگی جهانی): استفاده از پرچم برای هر زبان فقط جهت جلوه ی بصری وبسایت است و به هیچ وجه معنای سیاسی ندارد.

دانلود

به طور کلی ما هر شش ماه درخت بانک ها را منتشر می کنیم. نسخه های 2.0 و 2.2 به علت استفاده از آنها در «وظایف اشتراکی پارس کردن (Parsing) چندزبانه ی CoNLL 2017 و 2018» زودتر عرضه شدند.

  • نسخه ی 1.0: شامل 10 درخت بانک و 10 زبان، منتشرشده در 15 ژانویه 2015 [http://hdl.handle.net/11234/1-1464]
  • نسخه ی 1.1: شامل 19 درخت بانک و 18 زبان، منتشرشده در 15 می 2015 [http://hdl.handle.net/11234/LRT-1478] (زبان فارسی پردازش شده به دست مژگان سراجی از این نسخه به بعد موجود است)
  • نسخه ی 1.2: شامل 37 درخت بانک و 33 زبان، منتشرشده در 15 نوامبر 2015 [http://hdl.handle.net/11234/1-1548]
  • نسخه ی 1.3: شامل 54 درخت بانک و 40 زبان، منتشرشده در 15 می 2016 [http://hdl.handle.net/11234/1-1699]
  • نسخه ی 1.4: شامل 64 درخت بانک و 47 زبان، منتشرشده در 15 نوامبر 2016 [http://hdl.handle.net/11234/1-1827]
  • نسخه ی 2.0: شامل 70 درخت بانک و 50 زبان، منتشرشده در 1 مارس 2017 [http://hdl.handle.net/11234/1-1983]
  • -- داده های آزمایشی نسخه ی 2.0: شامل 81 درخت بانک و 49 زبان، منتشرشده در 18 می 2017 [http://hdl.handle.net/11234/1-2184]
  • نسخه ی 2.1: شامل 102 درخت بانک و 60 زبان، منتشرشده در 15 نوامبر 2017 [http://hdl.handle.net/11234/1-2515]
  • نسخه ی 2.2: شامل 122 درخت بانک و 71 زبان، منتشرشده در 1 جولای 2018 [http://hdl.handle.net/11234/1-2837]
  • نسخه ی 2.3: شامل 129 درخت بانک و 76 زبان، منتشرشده در 15 نوامبر 2018 [http://hdl.handle.net/11234/1-2895]
  • نسخه ی 2.4: شامل 146 درخت بانک و 83 زبان، منتشرشده در 15 می 2019 [http://hdl.handle.net/11234/1-2988]
  • نسخه ی بعدی (2.5): برای انتشار در 15 نوامبر 2019 برنامه ریزی شده است (داده ها 1 نوامبر 2019 بسته شده اند).