این متن ترجمه ای است از صفحه ی «اول» در سایت اصلی وابستگی های جهانی. لطفن اگر نظری برای بهبود این ترجمه یا درباره ی خود وابستگی های جهانی دارید بنویسید. معادل بسیاری از واژگان تخصصی بر اساس «واژه نامۀ زبان شناسی و علوم وابسته» از همادخت همایون (پژوهشگاه علوم انسانی و مطالعات فرهنگی) انتخاب شده اند. صفحه ی اصلی ممکن است تغییر کند. لطفن به تاریخ انجام این ترجمه (12 آبان 1398) توجه کنید.
«دستور وابستگی های جهانی» (Universal Dependencies یا به اختصار: UD. در این جا این مخفف را «واوجیم» می نامم) چارچوبی برای برچسب گذاری دستوری (اجزای سخن -parts of speech یا به اختصار: PoS- ویژگی های صرفی -morphological- و وابستگی های نحوی) برای زبان های بشری (human languages) مختلف است. واوجیم جامعه ای باز با بیش از 200 همکار دارد که روی بیش از 100 درختبانک (treebank) برای بیش از 70 زبان کار می کنند. اگر تازه با واوجیم آشنا شده اید، با خواندن «معرفی کوتاه واوجیم» و سپس مرور «برچسب گذاری» شروع کنید.
-- جستجو در مجموعه های درخت بانک (SETS)- دانشگاه تورکو (فنلاند)
-- کوئری درخت PML- دانشگاه کارل پراگ (جمهوری چک)
-- جستجوگر KonText- دانشگاه کارل پراگ (جمهوری چک)
-- تطبیق گریو (Grew-match)- کاری از Inria in Nancy
-- آی ان ای اس اس (INESS: زیرساخت نروژی اکتشاف دستور و معنا)- دانشگاه برگن
دانلود درخت های واوجیم
برای آگاهی از آخرین اخبار درباره دستور وابستگی جهانی می توانید در فهرست ایمیل واوجیم عضو شوید. اگر درباره برچسب زنی سوال دارید در بخش موضوعات (issues) گیت هاب پروژه بپرسید.
اطلاعات موجود درباره ی خانواده های زبانی (و ژانر برای خانواده هایی با چند شاخه) عمومن از اطلس جهانی ساختارهای زبانی (آنلاین) گرفته شده است (IE مخفف Indo-European، هندواروپایی است).
در هر سطر ابتدا نام زبان، سپس تعداد پروژه ی موجود برای آن زبان، تعداد توکن (token) پروژه یا پروژه های آن زبان (K در این جا به معنی هزار است: 49K یعنی 49000 توکن) و در پایان خانواده های زبانی آن زبان آمده است.
Afrikaans 1 49K IE, Germanic
Akkadian 1 1K Afro-Asiatic, Semitic
Amharic 1 10K Afro-Asiatic, Semitic
Ancient Greek 2 416K IE, Greek
Arabic 3 1,042K Afro-Asiatic, Semitic
Armenian 1 36K IE, Armenian
Assyrian 1 <1K Afro-Asiatic, Semitic
Bambara 1 13K Mande
Basque 1 121K Basque
Belarusian 1 13K IE, Slavic
Breton 1 10K IE, Celtic
Bulgarian 1 156K IE, Slavic
Buryat 1 10K Mongolic
Cantonese 1 13K Sino-Tibetan
Catalan 1 531K IE, Romance
Chinese 5 161K Sino-Tibetan
Classical Chinese 1 55K Sino-Tibetan
Coptic 1 25K Afro-Asiatic, Egyptian
Croatian 1 199K IE, Slavic
Czech 5 2,222K IE, Slavic
Danish 2 100K IE, Germanic
Dutch 2 307K IE, Germanic
English 7 603K IE, Germanic
Erzya 1 15K Uralic, Mordvin
Estonian 2 461K Uralic, Finnic
Faroese 1 10K IE, Germanic
Finnish 3 377K Uralic, Finnic
French 8 1,156K IE, Romance
Galician 2 164K IE, Romance
German 4 3,409K IE, Germanic
Gothic 1 55K IE, Germanic
Greek 1 63K IE, Greek
Hebrew 1 161K Afro-Asiatic, Semitic
Hindi 2 375K IE, Indic
Hindi English 1 26K Code switching
Hungarian 1 42K Uralic, Ugric
Indonesian 2 141K Austronesian, Malayo-Sumbawan
Irish 1 23K IE, Celtic
Italian 6 781K IE, Romance
Japanese 5 1,688K Japanese
Karelian 1 3K Uralic, Finnic
Kazakh 1 10K Turkic, Northwestern
Komi Zyrian 2 3K Uralic, Permic
Korean 5 446K Korean
Kurmanji 1 10K IE, Iranian
Latin 3 582K IE, Latin
Latvian 1 208K IE, Baltic
Lithuanian 2 42K IE, Baltic
Maltese 1 44K Afro-Asiatic, Semitic
Marathi 1 3K IE, Indic
Mbya Guarani 2 13K Tupian
Moksha 1 <1K Uralic, Mordvin
Naija 1 12K Creole
North Sami 1 26K Uralic, Sami
Norwegian 3 666K IE, Germanic
Old Church Slavonic 1 57K IE, Slavic
Old French 1 170K IE, Romance
Old Russian 2 164K IE, Slavic
Persian 1 152K IE, Iranian
Polish 3 500K IE, Slavic
Portuguese 3 570K IE, Romance
Romanian 3 460K IE, Romance
Russian 4 1,263K IE, Slavic
Sanskrit 1 1K IE, Indic
Serbian 1 97K IE, Slavic
Skolt Sami 1 <1K Uralic, Sami
Slovak 1 106K IE, Slavic
Slovenian 2 170K IE, Slavic
Spanish 3 1,004K IE, Romance
Swedish 3 195K IE, Germanic
Swedish Sign Language 1 1K Sign Language
Tagalog 1 <1K Austronesian, Central Philippine
Tamil 1 9K Dravidian, Southern
Telugu 1 6K Dravidian, South Central
Thai 1 22K Tai-Kadai
Turkish 4 91K Turkic, Southwestern
Ukrainian 1 122K IE, Slavic
Upper Sorbian 1 11K IE, Slavic
Urdu 1 138K IE, Indic
Uyghur 1 40K Turkic, Southeastern
Vietnamese 1 43K Austro-Asiatic, Viet-Muong
Warlpiri 1 <1K Pama-Nyungan
Welsh 1 10K IE, Celtic
Wolof 1 44K Niger-Congo, Northern Atlantic
Yoruba 1 2K Niger-Congo, Defoid
زبان های در حال توسعه واوجیم
Assamese 1 - IE, Indic
Bengali 2 - IE, Indic
Bhojpuri 1 - IE, Indic
Cusco Quechua 1 - Quechuan
Dargwa 1 - Nakho-Dagestanian
Georgian 1 - Kartvelian
Kannada 1 - Dravidian, Southern
Komi Permyak 1 - Uralic, Permic
Kyrgyz 1 - Turkic, Northwestern
Livvi 1 - Uralic, Finnic
Macedonian 1 - IE, Slavic
Maghrebi Arabic French 1 - Code switching
Pnar 1 - Austro-Asiatic, Khasian
Romansh 2 - IE, Romance
Scottish Gaelic 1 - IE, Celtic
Shipibo Konibo 1 - Panoan
Sindhi 1 - IE, Indic
Somali 1 - Afro-Asiatic, Cushitic
Sorani 1 - IE, Iranian
Swiss German 1 - IE, Germanic
سلب مسئولیت (سایت دستور وابستگی جهانی): استفاده از پرچم برای هر زبان فقط جهت جلوه ی بصری وبسایت است و به هیچ وجه معنای سیاسی ندارد.
دانلود
به طور کلی ما هر شش ماه درخت بانک ها را منتشر می کنیم. نسخه های 2.0 و 2.2 به علت استفاده از آنها در «وظایف اشتراکی پارس کردن (Parsing) چندزبانه ی CoNLL 2017 و 2018» زودتر عرضه شدند.
نسخه ی 1.0: شامل 10 درخت بانک و 10 زبان، منتشرشده در 15 ژانویه 2015 [http://hdl.handle.net/11234/1-1464]
نسخه ی 1.1: شامل 19 درخت بانک و 18 زبان، منتشرشده در 15 می 2015 [http://hdl.handle.net/11234/LRT-1478] (زبان فارسی پردازش شده به دست مژگان سراجی از این نسخه به بعد موجود است)
نسخه ی 1.2: شامل 37 درخت بانک و 33 زبان، منتشرشده در 15 نوامبر 2015 [http://hdl.handle.net/11234/1-1548]
نسخه ی 1.3: شامل 54 درخت بانک و 40 زبان، منتشرشده در 15 می 2016 [http://hdl.handle.net/11234/1-1699]
نسخه ی 1.4: شامل 64 درخت بانک و 47 زبان، منتشرشده در 15 نوامبر 2016 [http://hdl.handle.net/11234/1-1827]
نسخه ی 2.0: شامل 70 درخت بانک و 50 زبان، منتشرشده در 1 مارس 2017 [http://hdl.handle.net/11234/1-1983]
-- داده های آزمایشی نسخه ی 2.0: شامل 81 درخت بانک و 49 زبان، منتشرشده در 18 می 2017 [http://hdl.handle.net/11234/1-2184]
نسخه ی 2.1: شامل 102 درخت بانک و 60 زبان، منتشرشده در 15 نوامبر 2017 [http://hdl.handle.net/11234/1-2515]
نسخه ی 2.2: شامل 122 درخت بانک و 71 زبان، منتشرشده در 1 جولای 2018 [http://hdl.handle.net/11234/1-2837]
نسخه ی 2.3: شامل 129 درخت بانک و 76 زبان، منتشرشده در 15 نوامبر 2018 [http://hdl.handle.net/11234/1-2895]
نسخه ی 2.4: شامل 146 درخت بانک و 83 زبان، منتشرشده در 15 می 2019 [http://hdl.handle.net/11234/1-2988]
نسخه ی بعدی (2.5): برای انتشار در 15 نوامبر 2019 برنامه ریزی شده است (داده ها 1 نوامبر 2019 بسته شده اند).