اندازه‌گیری تعمیم ترکیبی

منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۶ مارس ۲۰۲۰
نویسنده: Marc van Zee
لینک مقاله اصلی: https://ai.googleblog.com/2020/03/measuring-compositional-generalization.html


افراد قادر به یادگیری معنای یک کلمه جدید و سپس به کار بردن آن در زمینه‌های زبانی دیگر هستند. همانطور که لیک و بارونی بیان می‌کنند، هنگامی که یک فرد معنای یک فعل جدید به عنوان مثال «dax» را یاد می‌گیرد، می‌تواند بلافاصله معنای «dax دو بار» و «بخوان و dax» را درک کند. به طور مشابه، فرد می‌تواند یک شکل شی جدید را یاد بگیرد و سپس آن را با ترکیبات مختلف رنگ‌ها یا مواد آموخته‌شده قبلی (به عنوان مثال، در مجموعه داده CLEVR) تشخیص دهد. این موضوع به این دلیل است که افراد ظرفیت درک و تولید تعداد بالقوه بی‌نهایت ترکیبات جدید از اجزای شناخته‌شده را نشان می‌دهند، یا همانطور که چامسکی گفت، برای ایجاد «استفاده نامحدود از ابزارهای محدود» در زمینه یادگیری مدل یادگیری ماشین از مجموعه‌ای از نمونه‌های آموزشی، این مهارت تعمیم ترکیبی (compositional generalization) نامیده می‌شود.

یک روش رایج برای اندازه‌گیری تعمیم ترکیبی در سیستم‌های یادگیری ماشین (Machine Learning) تقسیم داده‌های آموزشی و آزمایشی براساس ویژگی‌هایی است که به طور مستقیم با ساختار ترکیبی مرتبط هستند. به عنوان مثال، یک روش، تقسیم داده‌ها براساس طول توالی است - مجموعه آموزش شامل مثال‌های کوتاه است، در حالی که مجموعه تست شامل نمونه‌های طولانی‌تر است. رویکرد دیگر از الگوهای توالی استفاده می‌کند، به این معنی که تقسیم براساس تخصیص تصادفی خوشه‌های مثال‌ها به اشتراک گذاری الگوی یک‌سان برای مجموعه‌های قطار یا تست است. برای مثال، پرسش‌های "چه کسی فیلم ۱ را کارگردانی کرد" و "چه کسی فیلم ۲ را هداکارگردانییت کرد" هر دو در الگوی "چه کسی فیلم را کارگردانی کرد" قرار می‌گیرند تا با هم گروه‌بندی شوند. با این حال یک روش دیگر از اصول ابتدایی استفاده می‌کند - برخی از اصول ابتدایی زبانی به ندرت در طول آموزش نشان داده می‌شوند (به عنوان مثال، فعل "پرش")، اما در تست بسیار برجسته هستند. در حالی که هر یک از این آزمایش‌ها مفید هستند، بلافاصله مشخص نیست که کدام آزمایش معیار "بهتر" برای ترکیب پذیری است. آیا طراحی سیستماتیک یک آزمایش تعمیم ترکیبی "بهینه" امکان پذیر است؟

در مقاله "اندازه‌گیری تعمیم ترکیبی: یک روش جامع در مورد داده‌های واقعی"،(برای مطالعه همراه با ترجمه فارسی کلیک کنید) ما تلاش می‌کنیم تا با معرفی بزرگ‌ترین و جامع‌ترین معیار برای تعمیم ترکیبی با استفاده از وظایف درک واقعی زبان طبیعی، به ویژه تجزیه معنایی و پاسخ به سوال، به این سوال بپردازیم. در این کار، ما یک واگرایی ترکیبی - متریک پیشنهاد می‌کنیم - که به فرد اجازه می‌دهد تا به صورت کمی ارزیابی کند که یک آزمون قطار چقدر توانایی تعمیم ترکیبی یک سیستم ML را اندازه‌گیری می‌کند. ما توانایی تعمیم ترکیبی سه دنباله را به معماری‌های متوالی ML تحلیل می‌کنیم و متوجه می‌شویم که آن‌ها نمی‌توانند به طور ترکیبی تعمیم دهند. همچنین مجموعه داده‌های پرسش‌های آزاد شده ترکیبی که در این کار به عنوان منبعی برای محققانی که مایل به بهبود این نتایج هستند، مورد استفاده قرار می‌گیرند.

اندازه‌گیری تعمیم‌پذیری

به منظور اندازه‌گیری قابلیت تعمیم ترکیبی یک سیستم، ما با این فرض شروع می‌کنیم که اصول اساسی چگونگی تولید مثال‌ها را درک می‌کنیم. به عنوان مثال، ما با قواعد گرامری شروع می‌کنیم که باید هنگام تولید پرسش و پاسخ به آن‌ها پایبند باشیم. سپس ما بین اتم‌ها و ترکیب‌ها تمایز قائل می‌شویم. اتم‌ها بلوک‌های ساختمانی هستند که برای تولید مثال‌ها و ترکیبات به کار می‌روند. برای مثال، در شکل زیر، هر جعبه یک اتم است (به عنوان مثال، فولاد شین، برادر، ماهیت شیطانی و شیطانی، تولید و غیره)، که با هم ترکیب می‌شوند، مانند تولید و فعل سریع، برادر شین استیل، آیا برادر شین استیل تولید و انتقام مستقیم Spy؟

ساخت جملات ترکیبی (ترکیبات)از بلوک‌های ساختمانی (اتم‌ها).
ساخت جملات ترکیبی (ترکیبات)از بلوک‌های ساختمانی (اتم‌ها).

یک آزمایش ترکیب‌پذیری ایده‌آل پس از آن باید یک توزیع اتم مشابه داشته باشد، یعنی توزیع کلمات و زیر - عبارت‌ها در مجموعه آموزش تا حد ممکن شبیه توزیع آن‌ها در مجموعه آزمایش است، اما با یک توزیع ترکیبی متفاوت. برای اندازه‌گیری تعمیم ترکیبی بر روی یک کار پاسخ به سوال در مورد یک حوزه فیلم، برای مثال، ممکن است سوالات زیر را در آموزش و آزمایش داشته باشید:

در حالی که اتم‌هایی مانند "directed"، "Inception"، و "who <predicate> <entity>" در هر دو مجموعه آزمایش و قطار ظاهر می‌شوند، ترکیبات متفاوت هستند.

مجموعه داده پرسش‌های آزاد تعمیم‌پذیر

به منظور انجام یک آزمایش ترکیب پذیری دقیق، مجموعه داده پرسش‌های آزاد ترکیبی (CFQ)را ایجاد کردیم، مجموعه داده بزرگ ساده اما در عین حال واقع گرایانه از سوالات زبان طبیعی و پاسخ‌های تولید شده از پایگاه دانش آزاد عمومی. از CFQ می توان برای کارهای ورودی متنی / خروجی متنی، و همچنین تجزیه معنایی استفاده کرد. در آزمایش‌ها، ما بر تجزیه معنایی تمرکز می‌کنیم، که در آن ورودی یک سوال زبان طبیعی و خروجی یک پرس و جو است، که وقتی در مقابل فری‌بیس اجرا می‌شود، نتیجه درست را تولید می‌کند. CFQ شامل حدود ۲۴۰هزار نمونه و تقریبا ۳۵ هزار الگوی پرس و جو است که آن را به طور قابل‌توجهی بزرگ‌تر و پیچیده‌تر از مجموعه داده‌های قابل‌مقایسه می‌سازد - حدود ۴ برابر WikiSQL با حدود ۱۷ برابر الگوی پرس و جو بیشتر از پرسش‌های پیچیده وب است. برای اطمینان از طبیعی بودن پرسش‌ها و پاسخ‌ها توجه ویژه‌ای صورت‌گرفته است. همچنین پیچیدگی نحو را در هر مثال با استفاده از معیار "سطح پیچیدگی" (L) که تقریبا با عمق درخت تجزیه متناظر است، که مثال‌هایی از آن در زیر نشان‌داده شده‌است، کمی می‌کنیم.

آزمایش‌های تعمیم ترکیبی بر روی CFQ

برای یک مجموعه داده آزمایش-آزمون، اگر توزیع‌های ترکیبی مجموعه آموزش و مجموعه تست بسیار مشابه باشند، آنگاه واگرایی مرکب آن‌ها نزدیک به ۰ خواهد بود، که نشان می‌دهد آن‌ها تست‌های سختی برای تعمیم ترکیبی نیستند. یک واگرایی ترکیبی نزدیک به ۱ به این معنی است که مجموعه‌های آزمون - آزمایش ترکیبات مختلف زیادی دارند، که آن را یک تست خوب برای تعمیم ترکیبی می‌سازد. بنابراین واگرایی مرکب مفهوم "توزیع ترکیبی مختلف" را به صورت دل‌خواه در اختیار می‌گیرد.

ما به صورت الگوریتمی انشعاب آزمون-آزمایش را با استفاده از مجموعه داده CFQ تولید کردیم که دارای یک واگرایی ترکیبی در محدوده ۰ تا ۰.۷ است (حداکثر آنچه که ما قادر به دستیابی به آن بودیم). ما واگرایی اتم را ثابت می‌کنیم تا خیلی کوچک باشد. سپس، برای هر انشعاب، عملکرد سه معماری استاندارد ML را اندازه‌گیری می‌کنیم - توجه + LSTM، ترانسفورمر، و ترانسفورمر جهانی. نتایج در نمودار زیر نشان‌داده شده‌است.

واگرایی مرکب در مقابل دقت برای سه معماری‌های ML. به طور شگفت آوری همبستگی منفی قوی بین واگرایی ترکیب و دقت وجود دارد.
واگرایی مرکب در مقابل دقت برای سه معماری‌های ML. به طور شگفت آوری همبستگی منفی قوی بین واگرایی ترکیب و دقت وجود دارد.

ما عملکرد یک مدل را با مقایسه پاسخ‌های درست با رشته خروجی داده‌شده توسط مدل اندازه‌گیری می‌کنیم. هنگامی که واگرایی ترکیب بسیار پایین است، همه مدل‌ها به دقتی بالاتر از ۹۵٪ دست می‌یابند. دقت میانگین در شکاف با بالاترین واگرایی ترکیب برای همه معماری‌ها زیر ۲۰٪ است، که به این معنی است که حتی یک مجموعه آموزشی بزرگ با توزیع اتم مشابه بین آرموش و تست برای معماری‌ها برای تعمیم خوب کافی نیست.برای همه معماری‌ها، همبستگی منفی قوی بین واگرایی ترکیب و دقت وجود دارد. به نظر می‌رسد که این نشان می‌دهد که واگرایی ترکیبی به طور موفقیت آمیزی مشکل اصلی این معماری‌های ML را برای تعمیم ترکیب بدست می‌آورد.

به طور بالقوه نوید بخش جهت‌گیری‌هایی برای کار آینده ممکن است استفاده از پیش آموزش بدون نظارت بر زبان ورودی یا پرس و جوهای خروجی، یا استفاده از معماری‌های یادگیری متنوع‌تر یا هدفمندتر، مانند توجه نحوی باشد. همچنین جالب خواهد بود که این رویکرد را در حوزه‌های دیگری مانند استدلال بصری به کار ببریم، به عنوان مثال براساس CLEVR، یا برای گسترش رویکرد خود به زیر مجموعه‌های گسترده تری از درک زبان، از جمله استفاده از ساختارهای مبهم، منفی کردن، کمی کردن، مقایسه، زبان‌های اضافی، و دیگر حوزه‌های عمودی. امیدواریم که این کار دیگران را برای استفاده از این بنچ‌مارک برای پیشبرد قابلیت‌های تعمیم ترکیبی سیستم‌های یادگیری تحریک کند.


این مقاله به صورت خودکار با استفاده از موتور ترجمه مقالات هوش مصنوعی ترجمه شده و با حداقل بررسی انشانی منتشر شده است