وابستگی های جهانی: معرفی کوتاه

این متن ترجمه ای است از صفحه ی «معرفی» در سایت اصلی وابستگی های جهانی. لطفن اگر نظری برای بهبود این ترجمه یا درباره ی خود وابستگی های جهانی دارید بنویسید. معادل بسیاری از واژگان تخصصی بر اساس «واژه نامۀ زبان شناسی و علوم وابسته» از همادخت همایون (پژوهشگاه علوم انسانی و مطالعات فرهنگی) انتخاب شده اند. صفحه ی اصلی ممکن است تغییر کند. لطفن به تاریخ انجام این ترجمه (14 آبان 1398) توجه کنید.

(ترجمه ی صفحه ی اصلی وابستگی های جهانی)

معرفی

دستور وابستگی جهانی (واوجیم) پروژه ای در حال توسعه بر پایه زبان های گوناگون (cross-linguistic) است که کار برچسب گذاری (annotation) پایدار درخت بانک (treebank) برای تعداد زیادی زبان را انجام می دهد. اهداف این پروژه عبارتند از:

  • تسهیل توسعه پارسر چندزبانه
  • یادگیری زبان شناسی مرزگذر (cross lingual)
  • پژوهش های تجزیه کردن (parsing) از چشم اندازی در رده شناسی (typology) زبان.

طرح برچسب گذاری بر پایه ی این موارد است:

  • سیر تکاملی دستور وابستگی (جهانی) استنفورد (منبع: de Marneffe et al., 2006, 2008, 2014)
  • برچسب های جهانی اجزای سخن گوگل (منبع: Petrov et al., 2012)
  • میان زبانی (interlingua) جذابی برای مجموعه برچسب های (tagsets) واژگانی نحوی (morphosyntactic) (منبع: Zeman, 2008)

چشم انداز اصلی این پروژه ایجاد سیاهه ای جهانی از دسته بندی ها و راهنماهاست که برچسب گذاری ساخت‌های مشابه بین زبانی را پایدار و ساده می کنند و در عین حال، در صورت لزوم به افزونه های زبان-ویژه (language-specific) هم توجه می کنند.

تصویر زیر شَمایی از مثال هایی یکسان از زبان های انگلیسی، بلغاری، چک و سوئدی است که روابط دستوری اصلی آنها شامل فعل مجهول، نهاد اسمی (nominal subject) و عامل غیرفاعلی (oblique agent) آن مشابهند اما تحقق دستوری ساخت آنها متفاوت است (جمله به فارسی: «سگ به وسیله ی گربه تعقیب شد». این مثال در صفحه ی اصلی، به صورت تعاملی است و با بردن موس یا انگشت روی واژه ها و روابط آن، اطلاعات بیشتری را می توانید ببینید).

مثالی از دستور وابستگی جهانی
مثالی از دستور وابستگی جهانی

چه چیزی برای موفقیت واوجیم لازم است؟

طراحی واوجیم و موفقیتش مستلزم سازشی بسیار دقیق بین تقریبن 6 چیز است:

1- واوجیم باید در رابطه با تحلیل های زبان شناسی روی زبان های فردی نتایج رضایت بخشی داشته باشد.

2- واوجیم باید در نوع شناسی زبان شناختی مناسب باشد. مانند فراهم کردن مبنایی مناسب برای ایجاد ارتباط بین توازی (parallelism) زبان شناسی مرزگذر با زبان ها و خانواده های زبانی.

3- واوجیم باید برای برچسب زنی پایدار و سریع به صورت دستی مناسب باشد.

4- واوجیم باید با دقت بالایی برای پارس کردن رایانه ای مناسب باشد.

5- واوجیم باید برای غیرزبان‌شناسان به راحتی قابل فهم و استفاده باشد؛ چه یک زبان‌آموز و چه یک مهندس با نیازهایی غیرمرتبط با پردازش زبان. ما به این هدف به مثابه ی درخواستی برای یک طراحی قابل اتکا نگاه می کنیم و این موضوع باعث می شود که ما به مفاهیم (notions) و اصطلاحات (terminology) دستور زبان سنتی توجه کنیم.

6- واوجیم باید از امور جانبی مرتبط با فهم زبان هم پشتیبانی کند (استخراج رابطه ای، درک خواندن، ترجمه ماشینی و...).

تاریخچه

وابستگی های استنفورد در سال 2005 به عنوان زیرساخت پارسر استنفورد برای کمک به سیستم های استلزام [1] (entailment) تشخیص متنی توسعه داده شد. سپس به عنوان استاندارد بالفعلی برای تجزیه و تحلیل وابستگی های انگلیسی به کار گرفته شد و از آن پس با زبان های مختلفی سازگار شد (Chang et al., 2009, Bosco et al., 2013, Haverinen et al., 2013, Seraji et al., 2013, Tsarfaty, 2013, Lipenkova and Souček 2014). مجموعه برچسب های جهانی گوگل بر مبنای وظیفه اشتراکی CoNLL-X (به دست McDonald and Nivre 2007) با هدف تحلیل خطای زبان های گوناگون توسعه یافت. از این مجموعه ابتدا Das and Petrov (در سال 2011) با هدف برچسب زنی اجزای سخن بی نظارت (unsupervised) استفاده کردند و سپس به عنوان استانداردی پرکاربرد برای نگاشت مجموعه برچسب هایی متنوع به یک استاندارد مشترک سازگار شد. بینامجموعه (Interset: Zeman, 2008) به عنوان ابزاری برای تبدیل مجموعه برچسب های واژگانی نحوی زبان های مختلف شروع به کار کرد اما قدمت آن به سال 2006 برمی گردد که در اولین تجربه ی انطباق پارسر ناواژگان ساز (delexicalized) زبان شناسی مرزگذر استفاده شد (Zeman and Resnik, 2008). این ابزار بعدن نیز به عنوان لایه ی صرفی (morphological) در پروژه ی HamleDT استفاده شد (Zeman et al., 2014)؛ پروژه ای که درخت بانک های زبان های بسیاری را تحت طرح برچسب زنی مشترکی قرار می داد.

اولین تلاش برای ترکیب وابستگی های استنفورد و برچسب های جهانی گوگل به یک طرح برچسب گذاری جهانی، پروژه ی درخت بانک وابستگی جهانی (UDT) بود (McDonald et al., 2013) که درخت بانک های 6 زبان را در سال 2013 و 11 زبان را در سال 2014 منتشر کرد و اولین پیشنهاد برای وارد کردن صرف در این ساختار را Tsarfaty در سال 2013 داد. دومین نسخه ی HamleDT (رجوع شود به Rosa et al., 2014) در سال 2014 برچسب گذاری گوگل/ استنفورد را برای 30 زبان ارائه داد. این اتفاق به دنبال توسعه ی وابستگی های جهانی استنفورد (USD) افتاد (de Marneffe et al., 2014). وابستگی های جهانی جدید نتیجه ی ترکیب همه ی این ابتکارات در یک چارچوب منسجم مشترک بر مبنای این موارد بود: وابستگی های جهانی استنفورد، یک نسخه ی گسترش یافته از مجموعه برچسب های جهانی گوگل، یک زیرمجموعه ی اصلاح شده از سیاهه ی ویژگی های اینترست (Interset)، و یک نسخه ی اصلاح شده از فرمت CoNLL-X (که CoNLL-U نامیده می شود).

اولین نسخه از راهنمای جدید در اکتبر 2014 رونمایی شد. این نسخه مجموعه ای از برچسب های اجزای سخن جهانی گسترش یافته بود. این مجموعه تفاوت هایی را ایجاد می کرد که در طرح (proposal) اصلی وجود نداشت اما تعریف دسته بندی ها (categories) را روشن کرد و خیلی ها اهمیت آن را درک کردند. در نتیجه ی روشن شدن تعاریف، دسته بندی های اجزای سخن جهانی تعاریف اساسی پیدا کردند و اکنون لزوما طبقه های (classes) هم ارزی از دسته بندی ها در زیرمجموعه ی درخت بانک های زبان ویژه نیستند. بنابراین کار تبدیل کردن به برچسب های اجزای سخن واوجیم اغلب به قوانین بافت محور یا برخی تصحیح های دستی نیاز دارد. ویژگی های صرفی واوجیم با هدف فراهم کردن مجموعه ای مبنایی از ویژگی هایی محدود به موارد ضروری، طراحی شده اند. این نوع طراحی تحلیل را بسیار دقیق می کند و می تواند روی زبان های مختلف اجرا شود. بخش «وابستگی» واوجیم تکامل یافته ی وابستگی های استنفورد (SD) است و خود SD دنباله ی ایده هایی از توضیحات متمرکز بر روابط دستوری (relations-focused) است که در بسیاری از چارچوب های زبانشناسی دیده می شود. و همین است که باعث می شود این نوع وابستگی به طور مرکزی حول نقش های فاعل، مفعول، بندهای متممی، وابسته ی اسمی و... سازماندهی شود. هدف نسخه ی جهانی جدید اضافه کردن یا بهسازی روابط، منطبق بر ساختارهای دستوری رده شناسانه ی زبان های مختلف و حذف کردن برخی ویژگی های نامتوازن ویژه ی زبان انگلیسی از نسخه ی اصلی است. بنابراین طبقه بندی (taxonomy) جدید از وابستگی های استنفورد اصلی روابط کمتری دارد.

سازماندهی پروژه

واوجیم همکاری آزادی بین اعضای بسیار پروژه است. ساختار مدیریتی در حداقلی ترین حالت ممکن حفظ می شود و اکنون شامل موارد زیر است:

  • پروژه را «یوآکیم نیوره» (Joakim Nivre) هماهنگ می کند (و رئیس تیم هم نامیده می شود).
تصویر یوآکیم نیوره
تصویر یوآکیم نیوره


  • نسخه های منتشرشده را (شامل اعتبارسنجی و مستندسازی) فیلیپ گینتر (Filip Ginter)، سامپو پوسالو (Sampo Pyysalo) و دن زمان (Dan Zeman) مدیریت می کنند.
  • راهنماهای جهانی را گروه کوچکی از اعضای مرکزی مدیریت می کنند که اکنون شامل مغی دو مغنف (Marie de Marneffe)، فیلیپ گینتر (Filip Ginter)، یوآو گلدبرگ (Yoav Goldberg)، یان خاهیچ (Jan Hajič)، کریس منینگ (Chris Manning)، رایان مک دونالد (Ryan McDonald)، یوآکیم نیوره (Joakim Nivre)، اسلاو پتروف (Slav Petrov)، سامپو پوسالو (Sampo Pyysalo)، زباستین شوستا (Sebastian Schuster)، ناتالیا سولویره (Natalia Silveira)، رویت زارفتی (Reut Tsarfaty)، فرن تایرز (Fran Tyers) و دن زمان (Dan Zeman) است.
  • راهنماها و درخت بانک های زبان ویژه را تیم های مخصوص هر زبان پیش می برند.
  • مشکلات و مسائل در گیت هاب مطرح می شوند و با گفتگو و رای گیری درباره ی آنها تصمیم گیری می شود.

منابع منتشرشده مرتبط با واوجیم

2019

  • Proceedings of the Third Workshop on Universal Dependencies, UDW 2019, SyntaxFest, Paris. [نمایه ی سومین کارگاه دستور وابستگی جهانی، پاریس]
  • Kim Gerdes, Bruno Guillaume, Sylvain Kahane, Guy Perrier. 2019. Improving Surface-syntactic Universal Dependencies (SUD): surface-syntactic functions and deep-syntactic features, Proceedings of the 17th international conference on Treebanks and Linguistic Theories (TLT), SyntaxFest, Paris. [بهبود عملگرهای روساختی- نحوی دستور وابستگی جهانی (SUD): عملگرهای روساختی- نحوی و ویژگی های ژرف‌ساختی- نحوی، نمایه ی هفدهمین همایش بین المللی درخت بانک ها و نظریه های زبان شناسی]

2018

  • Proceedings of the Second Workshop on Universal Dependencies, UDW 2018, EMNLP,Brussels. [نمایه ی دومین کارگاه دستور وابستگی جهانی، بروکسل]
  • Agnieszka Patejuk and Adam Przepiórkowski. 2018. From Lexical Functional Grammar to Enhanced Universal Dependencies: Linguistically informed treebanks of Polish. Institute of Computer Science, Polish Academy of Sciences, Warsaw. (263 pages) [از دستور نقش گرای واژگانی تا وابستگی های جهانی پیشرفته: درخت بانک های اطلاعی زبان شناختی لهستانی]
  • Adam Przepiórkowski and Agnieszka Patejuk. 2018. Arguments and adjuncts in Universal Dependencies. In Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018), pages 3837–3852, Santa Fe, NM. [محمول ها و ادات در دستور وابستگی جهانی. در نمایه ی بیست و هفتمین همایش بین المللی زبان شناسی رایانشی]
  • Sylvain Kahane, Marine Courtin, Kim Gerdes. 2018. Multi-word annotation in syntactic treebanks: Propositions for Universal Dependencies, Proceedings of the 16th international conference on Treebanks and Linguistic Theories (TLT), Prague. [برچسب گذاری چند واژه ای در درخت بانک های نحوی: گزاره های دستور وابستگی جهانی، نمایه ی شانزدهمین همایش بین المللی درخت بانک ها و نظریه های زبان شناسی، پراگ]

2017

Proceedings of the First Workshop on Universal Dependencies, UDW 2017, NoDaLiDa, Gothenburg. [نمایه ی اولین کارگاه دستور وابستگی جهانی، گوتنبرگ]

2016

Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajič, Christopher D. Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman. 2016. Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of LREC. [نسخه ی اول وابستگی های جهانی: مجموعه ی درخت بانک چندزبانه]

2015

  • Kim Gerdes, Sylvain Kahane. 2015. Non-constituent coordination and other coordinative constructions as dependency graphs, Proceedings of the 3rd international conference on Dependency Linguistics (Depling), Uppsala. [همپایگی غیرسازه ای و دیگر سازه های همپایه به عنوان گراف های وابستگی، نمایه ی سومین همایش بین المللی زبان شناسی وابستگی]
  • Joakim Nivre. 2015. Towards a Universal Grammar for Natural Language Processing. Computational Linguistics and Intelligent Text Processing. [به سمت یک دستورزبان جهانی برای پردازش زبان طبیعی]
  • Petya Osenova and Kiril Simov. 2015. Universalizing BulTreeBank: a Linguistic Tale about Glocalization. In: Proceedings of BSNLP 2015, Hissar, Bulgaria, pp. 81–89. [جهانی سازی درخت‌بانک بال : داستانی زبان شناسانه درباره ی محلی سازی]
  • Sampo Pyysalo, Jenna Kanerva, Anna Missilä, Veronika Laippala, and Filip Ginter. 2015. Universal Dependencies for Finnish. In Proceedings of Nodalida 2015. [وابستگی های جهانی برای فنلاندی]
  • Daniel Zeman. 2015. Slavic Languages in Universal Dependencies. In Slovko 2015: Natural Language Processing, Corpus Linguistics, E-learning. Bratislava, Slovakia. [زبان های اسلاوی در وابستگی های جهانی]

2014

  • Joakim Nivre. 2014. Universal Dependencies for Swedish. In SLTC 2014. [وابستگی های جهانی برای سوئدی]
  • Rudolf Rosa, Jan Mašek, David Mareček, Martin Popel, Daniel Zeman, Zdeněk Žabokrtský. 2014. HamleDT 2.0: Thirty Dependency Treebanks Stanfordized. In Proceedings of LREC. [استنفوردسازی سی درخت بانک وابستگی]
  • Daniel Zeman, Ondřej Dušek, David Mareček, Martin Popel, Loganathan Ramasamy, Jan Štěpánek, Zdeněk Žabokrtský, and Jan Hajič. 2014. HamleDT: Harmonized multi-language dependency treebank. In Language Resources and Evaluation, DOI 10.1007/s10579-014-9275-2. (Extended version of paper from LREC 2012.) [درخت بانک وابستگی چندزبانه ی هماهنگ شده]

2013 و قبل از آن

  • Cristina Bosco, Simonetta Montemagni, Maria Simi. 2013. Converting Italian treebanks: Towards an Italian Stanford dependency treebank, In 7th Linguistic Annotation Workshop and Interoperability with Discourse. [تبدیل درخت بانک های ایتالیایی: به سمت یک درخت بانک وابستگی استنفورد ایتالیایی، در هفتمین کارگاه تفسیر زبان شناسی و تفسیرپذیری با گفتمان]
  • Pi-Chuan Chang, Huihsin Tseng, Dan Jurafsky, and Christopher D. Manning. 2009. Discriminative Reordering with Chinese Grammatical Relations Features. In Proceedings of the Third Workshop on Syntax and Structure in Statistical Translation. [مرتب سازی مجدد متمایزشده با ویژگی های روابط دستوری چینی. در نمایه ی سومین همایش نحو و ساختار در ترجمه ی آماری]
  • Dipanjan Das, and Slav Petrov. 2011. Unsupervised part-of-speech tagging with bilingual graph-based projections In Proceedings of ACL. [برچسب گذاری بدون ناظر اجزای سخن با پروژه‌های گراف محور دوزبانه در نمایه ی ای سی ال]
  • Katri Haverinen, Jenna Nyblom, Timo Viljanen, Veronika Laippala, Samuel Kohonen, Anna Missilä, Stina Ojala, Tapio Salakoski, and Filip Ginter. 2013. Building the essential resources for Finnish: the Turku Dependency Treebank. Language Resources and Evaluation. Volume 48, Issue 3, pp 493-531. [ساخت منابع ضروری برای فنلاندی: درخت بانک وابستگی تورکو]
  • Janna Lipenkova and Milan Souček. 2014. Converting Russian Dependency Treebank to Stanford Typed Dependencies Representation. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp. 143-147. [تبدیل درخت بانک وابستگی روسی به نمونه ی وابستگی های از نوع استنفورد. در نمایه ی چهاردهمین همایش بخش اروپایی انجمن زبان شناسی رایانشی]
  • Marie-Catherine de Marneffe, Miriam Connor, Natalia Silveira, Samuel R. Bowman, Timothy Dozat, and Christopher D. Manning. 2013. More constructions, more genres: extending Stanfod Dependencies. In Proceedings of the Second International Conference on Dependency Linguistics (DepLing 2013). [ساختارهای بیشتر، ژانرهای بیشتر: وابستگی های گسترش یافته ی استنفورد. در نمایه ی دومین همایش بین المللی زبان شناسی وابستگی]
  • Marie-Catherine de Marneffe, Timothy Dozat, Natalia Silveira, Katri Haverinen, Filip Ginter, Joakim Nivre, and Christopher D. Manning. 2014. Universal Stanford Dependencies: A cross-linguistic typology. In Proceedings of LREC. [وابستگی های جهانی استنفورد: یک رده‌شناسی زبان های مختلف. در نمایه ی ال آر ای سی]
  • Marie-Catherine de Marneffe, Bill MacCartney, and Christopher D. Manning. 2006. Generating typed dependency parses from phrase structure parses. In Proceedings of LREC. [زایش تحلیل های از نوع وابستگی از تحلیل های ساختار بندی. در نمایه ی ال آر ای سی]
  • Marie-Catherine de Marneffe and Christopher D. Manning. 2008. The Stanford typed dependencies representation. In COLING Workshop on Cross-framework and Cross-domain Parser Evaluation. [نمونه ی وابستگی های از نوع استنفورد]
  • Ryan McDonald, and Joakim Nivre. 2007. Characterizing the errors of data-driven dependency parsing models. In Proceedings of EMNLP-CoNLL. [توصیف خطاهای مدل های تحلیل شده ی وابستگی پردازش داده ای]
  • Ryan McDonald, Joakim Nivre, Yvonne Quirmbach-Brundage, Yoav Goldberg, Dipanjan Das, Kuzman Ganchev, Keith Hall, Slav Petrov, Hao Zhang, Oscar Täckström, Claudia Bedini, Núria Bertomeu Castelló, and Jungmee Lee. 2013. Universal Dependency Annotation for Multilingual Parsing. In Proceedings of ACL. [برچسب گذاری وابستگی جهانی برای تحلیل چندزبانه]
  • Slav Petrov, Dipanjan Das, and Ryan McDonald. 2012. A universal part-of-speech tagset. In Proceedings of LREC. [یک مجموعه برچسب اجزای سخن جهانی. در نمایه ی ال آر ای سی]
  • Mojgan Seraji, Carina Jahani, Beáta Megyesi, and Joakim Nivre. 2013. A Persian treebank with Stanford typed dependencies. In Proceedings of LREC. [یک درخت بانک فارسی با وابستگی های از نوع استنفورد. در نمایه ی ال آر ای سی]
  • Pavel Straňák, Jan Štěpánek. 2010. Representing Layered and Structured Data in the CoNLL-ST Format. In Proceedings of ICGL 2010. [ارائه ی داده های ساختاری و لایه ای در فرمت CoNLL]
  • Reut Tsarfaty. 2013. A unified morpho-syntactic scheme of Stanford dependencies. In Proceedings of ACL. [یک طرح صرفی نحوی یک دست برای وابستگی های استنفورد. در نمایه ی ای سی ال]
  • Daniel Zeman. 2008. Reusable Tagset Conversion Using Tagset Drivers. In Proceedings of LREC. [تبدیل مجموعه برچسب های قابل استفاده ی مجدد با استفاده با محرک های مجموعه برچسب]
  • Daniel Zeman, and Philip Resnik. 2008. Cross-Language Parser Adaptation between Related Languages. In Proceedings of IJCNLP 2008 Workshop on NLP for Less Privileged Languages [انطباق تحلیلگر زبان های گوناگون بین زبان های وابسته]