ارزیابی TyDi، یک سیستم پرسش‌ و پاسخ چندزبانه ارایه شده توسط گوگل

کاربر با ربات صحبت می‌کند و سوالات خود را می‌پرسد و پاسخ می‌گیرد
کاربر با ربات صحبت می‌کند و سوالات خود را می‌پرسد و پاسخ می‌گیرد
منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۶ فوریه ۲۰۲۰
نویسنده: Jonathan Clark
لینک مقاله اصلی: http://ai.googleblog.com/2020/02/tydi-qa-multilingual-question-answering.html

این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و به صورت محدود مورد بازنگری انسانی قرار گرفته است.

فن‌آوری‌های پاسخ گویی به سوال به افراد به صورت روزانه کمک می‌کنند - زمانی که با یک سوال مواجه می‌شوند، مانند "آیا جوهر ماهی‌مرکب برای خوردن ایمن است؟"، کاربران می‌توانند از یک دستیار صدا سوال کنند یا جستجو را تایپ کنند و انتظار دریافت پاسخ را داشته باشند. سال گذشته، ما مجموعه داده سوالات طبیعی به زبان انگلیسی را برای جامعه پژوهش منتشر کردیم تا چالشی را ایجاد کنیم که منعکس‌کننده نیازهای کاربران واقعی باشد. با این حال، هزاران زبان مختلف وجود دارند، و بسیاری از آن‌ها از رویکردهای بسیار متفاوتی برای ساخت معنا استفاده می‌کنند. برای مثال، در حالی که زبان انگلیسی کلمات را برای نشان دادن یک شی تغییر می‌دهد ("book")در مقابل بسیاری ("books")، عربی نیز یک شکل سوم دارد تا نشان دهد که آیا دو چیز وجود دارد ("كتابان") فراتر از مفرد ("کتاب") یا جمع ("لیتر"، "کتب"). علاوه بر این، برخی زبان‌ها، مانند ژاپنی، از فاصله بین کلمات استفاده نمی‌کنند. ایجاد سیستم‌های یادگیری ماشینی که بتوانند بسیاری از روش‌های بیان معنا را درک کنند، چالش برانگیز است، و آموزش چنین سیستم‌هایی نیازمند مثال‌هایی از زبان‌های مختلفی است که به آن‌ها اعمال خواهد شد.

برای تشویق تحقیق در مورد پاسخ گویی به سوالات چند زبانه، امروز ما TyDi QA را منتشر کردیم که یک پیکره پرسش و پاسخ برای ۱۱ زبان با ویژگی‌های رده‌شناختی متفاوت است. در مقاله ما با عنوان TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages” با الهام از تنوع رده شناختی، این مفهوم بیان می‌شود که زبان‌های مختلف به شیوه‌های مختلف ساختاری معنا را بیان می‌کنند. از آنجا که ما مجموعه‌ای از زبان‌ها را انتخاب کرده‌ایم که برای این پیکره زبانی از لحاظ رده‌شناختی از یکدیگر فاصله دارند، انتظار داریم مدل‌هایی که روی این مجموعه داده به خوبی عمل می‌کنند، به تعداد زیادی از زبان‌های دنیا تعمیم یابند.

مجموعه متنوع از زبان‌های متفاوت از نظر رده‌شناختی

مجموعه TyDi QA شامل بیش از ۲۰۰۰۰۰ جفت سوال به ۱۱ زبان است که طیف متنوعی از پدیده‌های زبانی و چالش‌های داده‌ای را نشان می‌دهند. بسیاری از این زبان‌ها از الفباهای غیر لاتین مانند عربی، بنگالی، کره‌ای، روسی، تلوگو و تایلندی استفاده می‌کنند. برخی دیگر کلمات را به روش‌های پیچیده مانند عربی، فنلاندی، اندونزیایی، کیسواحیلی، روسی تشکیل می‌دهند. ژاپنی‌ها از چهار الفبا (توضیح مترجم: متاسفانه در این پلتفرم امکان استفاده از رنگ‌ها در متن وجود ندارد در مقاله اصلی چهار نوع نوشتار با رنگ مشخص شده)‌ استفاده می‌کنند در حالی که الفبای کره بسیار ترکیبی است. این زبان‌ها همچنین از داشتن اطلاعات بسیار در وب (انگلیسی و عربی) تا بسیار کم (بنگالی و سواحیلی) را شامل می‌شوند. ما انتظار داریم سیستم‌هایی که بتوانند به این چالش‌ها بپردازند برای تعداد زیادی از زبان‌ها موفق باشند.

ایجاد داده‌های واقع گرایانه

بسیاری از مجموعه داده‌های اولیه QA که توسط جامعه پژوهشی مورد استفاده قرار گرفته است، ابتدا پاراگراف‌ها را به مردم نشان دادند و سپس از آن‌ها خواستند تا سوالاتی را براساس آنچه که از خواندن این بند می توان پاسخ داد، بنویسند. با این حال، از آنجا که افراد در هنگام نوشتن هر سوال می‌توانستند پاسخ را ببینند، این رویکرد سوالاتی را ارایه داد که اغلب همان کلمات پاسخ را داشتند. در نتیجه، الگوریتم‌های یادگیری ماشین آموزش‌دیده بر روی چنین داده‌هایی، بدون توجه به پاسخ‌های دقیق‌تر مورد نیاز برای رفع نیازهای کاربران، به تطبیق کلمه علاقه نشان می‌دهند.

برای ساخت یک مجموعه داده طبیعی‌تر، ما سوالاتی را از افرادی که خواستار پاسخ بودند جمع‌آوری کردیم، اما هنوز پاسخ را نمی‌دانستیم. برای الهام بخشیدن به سوالات، ما به مردم یک بخش جالب از ویکی‌پدیا که به زبان مادری آن‌ها نوشته شده بود را نشان دادیم. پس از آن از آن‌ها سوال کردیم، هر سوالی، تا زمانی که از طریق متن پاسخ داده نمی‌شد و آن‌ها واقعا می‌خواستند پاسخ را بدانند. این شبیه به این است که چطور کنجکاوی شما ممکن است سوالاتی در مورد چیزهای جالبی که در هنگام راه رفتن در خیابان می‌بینید، ایجاد کند. ما نویسندگان پرسش خود را تشویق کردیم تا تخیلات خود را عملی کنند. «آیا بخشی از یخ باعث می‌شود که در تابستان به پاپ سین‌ها فکر کنید؟» عالی است! از کسی که پاپ سیکل‌هایی را اختراع کرده‌است بپرسید. به طور مهمی، سوالات به طور مستقیم در هر زبان نوشته می‌شدند، نه ترجمه، بنابراین بسیاری از سوالات با سوالات موجود در پیکره زبانی اول - انگلیسی متفاوت هستند. یک سوال در بنگالی این است که "সফেদা ফল খেতে কেমন" (ساپودیلا چه مزه‌ای دارد؟). تاحالا در موردش چیزی نشنیده بودید نه؟ این احتمالا به این دلیل است که در هند بیشتر از ایالات‌متحده رشد می‌کند.

برای هر کدام از این سوالات، ما یک جستجوی گوگل را برای یافتن بهترین مقاله ویکی‌پدیا به زبان مناسب انجام دادیم و از یک فرد خواستیم تا پاسخ آن مقاله را پیدا کرده و مشخص کند. در حالی که ما انتظار برخی تفاوت‌های جالب بین پرسش و پاسخ را داشتیم هنگامی که نویسندگان پرسش در مقابل آن‌ها پاسخ نداشتند، همراه با گستردگی شگفت‌آور پدیده‌های زبانی در زبان‌های جهان، متوجه شدیم که این وضعیت پیچیده‌تر هم بود.

برای مثال، در فنلاندی، نمونه‌های جالبی وجود دارند که در آن‌ها کلمات روز و هفته در پرسش و پاسخ بسیار متفاوت نشان داده می‌شوند. برای موفقیت در انتخاب این جمله پاسخ از کل مقاله ویکی‌پدیا، یک سیستم باید بتواند رابطه بین کلمات فنلاندی seitsenpäiväinen، viikonpäivät و viikko را تشخیص دهد.

ایجاد پیشرفت با یکدیگر به عنوان یک جامعه تحقیقاتی

امید ما این است که این مجموعه داده‌ها جامعه تحقیقاتی را به سمت نوآوری سوق دهد به روش‌هایی که سیستم‌های پاسخ به سوالات مفید تری را برای کاربران سراسر جهان ایجاد کند. برای پی‌گیری پیشرفت جامعه، ما یک لیدربرد ایجاد کرده‌ایم که در آن شرکت کنندگان می‌توانند کیفیت سیستم‌های یادگیری ماشینی خود را ارزیابی کنند و همچنین یک سیستم پاسخگویی به سوالات که از این داده‌ها استفاده می‌کند را منبع‌باز منتشر کردیم. لطفا برای مشاهده لیدربرد و یادگیری بیشتر به وب سایت چالش بروید.

این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و به صورت محدود مورد بازنگری انسانی قرار گرفته است.