من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
ارزیابی TyDi، یک سیستم پرسش و پاسخ چندزبانه ارایه شده توسط گوگل
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۶ فوریه ۲۰۲۰
نویسنده: Jonathan Clark
لینک مقاله اصلی: http://ai.googleblog.com/2020/02/tydi-qa-multilingual-question-answering.html
این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و به صورت محدود مورد بازنگری انسانی قرار گرفته است.
فنآوریهای پاسخ گویی به سوال به افراد به صورت روزانه کمک میکنند - زمانی که با یک سوال مواجه میشوند، مانند "آیا جوهر ماهیمرکب برای خوردن ایمن است؟"، کاربران میتوانند از یک دستیار صدا سوال کنند یا جستجو را تایپ کنند و انتظار دریافت پاسخ را داشته باشند. سال گذشته، ما مجموعه داده سوالات طبیعی به زبان انگلیسی را برای جامعه پژوهش منتشر کردیم تا چالشی را ایجاد کنیم که منعکسکننده نیازهای کاربران واقعی باشد. با این حال، هزاران زبان مختلف وجود دارند، و بسیاری از آنها از رویکردهای بسیار متفاوتی برای ساخت معنا استفاده میکنند. برای مثال، در حالی که زبان انگلیسی کلمات را برای نشان دادن یک شی تغییر میدهد ("book")در مقابل بسیاری ("books")، عربی نیز یک شکل سوم دارد تا نشان دهد که آیا دو چیز وجود دارد ("كتابان") فراتر از مفرد ("کتاب") یا جمع ("لیتر"، "کتب"). علاوه بر این، برخی زبانها، مانند ژاپنی، از فاصله بین کلمات استفاده نمیکنند. ایجاد سیستمهای یادگیری ماشینی که بتوانند بسیاری از روشهای بیان معنا را درک کنند، چالش برانگیز است، و آموزش چنین سیستمهایی نیازمند مثالهایی از زبانهای مختلفی است که به آنها اعمال خواهد شد.
برای تشویق تحقیق در مورد پاسخ گویی به سوالات چند زبانه، امروز ما TyDi QA را منتشر کردیم که یک پیکره پرسش و پاسخ برای ۱۱ زبان با ویژگیهای ردهشناختی متفاوت است. در مقاله ما با عنوان TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages” با الهام از تنوع رده شناختی، این مفهوم بیان میشود که زبانهای مختلف به شیوههای مختلف ساختاری معنا را بیان میکنند. از آنجا که ما مجموعهای از زبانها را انتخاب کردهایم که برای این پیکره زبانی از لحاظ ردهشناختی از یکدیگر فاصله دارند، انتظار داریم مدلهایی که روی این مجموعه داده به خوبی عمل میکنند، به تعداد زیادی از زبانهای دنیا تعمیم یابند.
مجموعه متنوع از زبانهای متفاوت از نظر ردهشناختی
مجموعه TyDi QA شامل بیش از ۲۰۰۰۰۰ جفت سوال به ۱۱ زبان است که طیف متنوعی از پدیدههای زبانی و چالشهای دادهای را نشان میدهند. بسیاری از این زبانها از الفباهای غیر لاتین مانند عربی، بنگالی، کرهای، روسی، تلوگو و تایلندی استفاده میکنند. برخی دیگر کلمات را به روشهای پیچیده مانند عربی، فنلاندی، اندونزیایی، کیسواحیلی، روسی تشکیل میدهند. ژاپنیها از چهار الفبا (توضیح مترجم: متاسفانه در این پلتفرم امکان استفاده از رنگها در متن وجود ندارد در مقاله اصلی چهار نوع نوشتار با رنگ مشخص شده) استفاده میکنند در حالی که الفبای کره بسیار ترکیبی است. این زبانها همچنین از داشتن اطلاعات بسیار در وب (انگلیسی و عربی) تا بسیار کم (بنگالی و سواحیلی) را شامل میشوند. ما انتظار داریم سیستمهایی که بتوانند به این چالشها بپردازند برای تعداد زیادی از زبانها موفق باشند.
ایجاد دادههای واقع گرایانه
بسیاری از مجموعه دادههای اولیه QA که توسط جامعه پژوهشی مورد استفاده قرار گرفته است، ابتدا پاراگرافها را به مردم نشان دادند و سپس از آنها خواستند تا سوالاتی را براساس آنچه که از خواندن این بند می توان پاسخ داد، بنویسند. با این حال، از آنجا که افراد در هنگام نوشتن هر سوال میتوانستند پاسخ را ببینند، این رویکرد سوالاتی را ارایه داد که اغلب همان کلمات پاسخ را داشتند. در نتیجه، الگوریتمهای یادگیری ماشین آموزشدیده بر روی چنین دادههایی، بدون توجه به پاسخهای دقیقتر مورد نیاز برای رفع نیازهای کاربران، به تطبیق کلمه علاقه نشان میدهند.
برای ساخت یک مجموعه داده طبیعیتر، ما سوالاتی را از افرادی که خواستار پاسخ بودند جمعآوری کردیم، اما هنوز پاسخ را نمیدانستیم. برای الهام بخشیدن به سوالات، ما به مردم یک بخش جالب از ویکیپدیا که به زبان مادری آنها نوشته شده بود را نشان دادیم. پس از آن از آنها سوال کردیم، هر سوالی، تا زمانی که از طریق متن پاسخ داده نمیشد و آنها واقعا میخواستند پاسخ را بدانند. این شبیه به این است که چطور کنجکاوی شما ممکن است سوالاتی در مورد چیزهای جالبی که در هنگام راه رفتن در خیابان میبینید، ایجاد کند. ما نویسندگان پرسش خود را تشویق کردیم تا تخیلات خود را عملی کنند. «آیا بخشی از یخ باعث میشود که در تابستان به پاپ سینها فکر کنید؟» عالی است! از کسی که پاپ سیکلهایی را اختراع کردهاست بپرسید. به طور مهمی، سوالات به طور مستقیم در هر زبان نوشته میشدند، نه ترجمه، بنابراین بسیاری از سوالات با سوالات موجود در پیکره زبانی اول - انگلیسی متفاوت هستند. یک سوال در بنگالی این است که "সফেদা ফল খেতে কেমন" (ساپودیلا چه مزهای دارد؟). تاحالا در موردش چیزی نشنیده بودید نه؟ این احتمالا به این دلیل است که در هند بیشتر از ایالاتمتحده رشد میکند.
برای هر کدام از این سوالات، ما یک جستجوی گوگل را برای یافتن بهترین مقاله ویکیپدیا به زبان مناسب انجام دادیم و از یک فرد خواستیم تا پاسخ آن مقاله را پیدا کرده و مشخص کند. در حالی که ما انتظار برخی تفاوتهای جالب بین پرسش و پاسخ را داشتیم هنگامی که نویسندگان پرسش در مقابل آنها پاسخ نداشتند، همراه با گستردگی شگفتآور پدیدههای زبانی در زبانهای جهان، متوجه شدیم که این وضعیت پیچیدهتر هم بود.
برای مثال، در فنلاندی، نمونههای جالبی وجود دارند که در آنها کلمات روز و هفته در پرسش و پاسخ بسیار متفاوت نشان داده میشوند. برای موفقیت در انتخاب این جمله پاسخ از کل مقاله ویکیپدیا، یک سیستم باید بتواند رابطه بین کلمات فنلاندی seitsenpäiväinen، viikonpäivät و viikko را تشخیص دهد.
ایجاد پیشرفت با یکدیگر به عنوان یک جامعه تحقیقاتی
امید ما این است که این مجموعه دادهها جامعه تحقیقاتی را به سمت نوآوری سوق دهد به روشهایی که سیستمهای پاسخ به سوالات مفید تری را برای کاربران سراسر جهان ایجاد کند. برای پیگیری پیشرفت جامعه، ما یک لیدربرد ایجاد کردهایم که در آن شرکت کنندگان میتوانند کیفیت سیستمهای یادگیری ماشینی خود را ارزیابی کنند و همچنین یک سیستم پاسخگویی به سوالات که از این دادهها استفاده میکند را منبعباز منتشر کردیم. لطفا برای مشاهده لیدربرد و یادگیری بیشتر به وب سایت چالش بروید.
این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و به صورت محدود مورد بازنگری انسانی قرار گرفته است.
مطلبی دیگر از این انتشارات
تحقیقات جدید نشان میدهد که پروبیوتیکها میتوانند به کاهش افسردگی کمک کنند
مطلبی دیگر از این انتشارات
نسل ۵ (5G)، توانمندساز IoT امن در شبکه هوشمند (smart grid)
مطلبی دیگر از این انتشارات
گوگل ویژگیهای «تنسوریفلو کوانتوم ۵» را اعلام کرد