من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
اندازهگیری تعمیم ترکیبی
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۶ مارس ۲۰۲۰
نویسنده: Marc van Zee
لینک مقاله اصلی: https://ai.googleblog.com/2020/03/measuring-compositional-generalization.html
افراد قادر به یادگیری معنای یک کلمه جدید و سپس به کار بردن آن در زمینههای زبانی دیگر هستند. همانطور که لیک و بارونی بیان میکنند، هنگامی که یک فرد معنای یک فعل جدید به عنوان مثال «dax» را یاد میگیرد، میتواند بلافاصله معنای «dax دو بار» و «بخوان و dax» را درک کند. به طور مشابه، فرد میتواند یک شکل شی جدید را یاد بگیرد و سپس آن را با ترکیبات مختلف رنگها یا مواد آموختهشده قبلی (به عنوان مثال، در مجموعه داده CLEVR) تشخیص دهد. این موضوع به این دلیل است که افراد ظرفیت درک و تولید تعداد بالقوه بینهایت ترکیبات جدید از اجزای شناختهشده را نشان میدهند، یا همانطور که چامسکی گفت، برای ایجاد «استفاده نامحدود از ابزارهای محدود» در زمینه یادگیری مدل یادگیری ماشین از مجموعهای از نمونههای آموزشی، این مهارت تعمیم ترکیبی (compositional generalization) نامیده میشود.
یک روش رایج برای اندازهگیری تعمیم ترکیبی در سیستمهای یادگیری ماشین (Machine Learning) تقسیم دادههای آموزشی و آزمایشی براساس ویژگیهایی است که به طور مستقیم با ساختار ترکیبی مرتبط هستند. به عنوان مثال، یک روش، تقسیم دادهها براساس طول توالی است - مجموعه آموزش شامل مثالهای کوتاه است، در حالی که مجموعه تست شامل نمونههای طولانیتر است. رویکرد دیگر از الگوهای توالی استفاده میکند، به این معنی که تقسیم براساس تخصیص تصادفی خوشههای مثالها به اشتراک گذاری الگوی یکسان برای مجموعههای قطار یا تست است. برای مثال، پرسشهای "چه کسی فیلم ۱ را کارگردانی کرد" و "چه کسی فیلم ۲ را هداکارگردانییت کرد" هر دو در الگوی "چه کسی فیلم را کارگردانی کرد" قرار میگیرند تا با هم گروهبندی شوند. با این حال یک روش دیگر از اصول ابتدایی استفاده میکند - برخی از اصول ابتدایی زبانی به ندرت در طول آموزش نشان داده میشوند (به عنوان مثال، فعل "پرش")، اما در تست بسیار برجسته هستند. در حالی که هر یک از این آزمایشها مفید هستند، بلافاصله مشخص نیست که کدام آزمایش معیار "بهتر" برای ترکیب پذیری است. آیا طراحی سیستماتیک یک آزمایش تعمیم ترکیبی "بهینه" امکان پذیر است؟
در مقاله "اندازهگیری تعمیم ترکیبی: یک روش جامع در مورد دادههای واقعی"،(برای مطالعه همراه با ترجمه فارسی کلیک کنید) ما تلاش میکنیم تا با معرفی بزرگترین و جامعترین معیار برای تعمیم ترکیبی با استفاده از وظایف درک واقعی زبان طبیعی، به ویژه تجزیه معنایی و پاسخ به سوال، به این سوال بپردازیم. در این کار، ما یک واگرایی ترکیبی - متریک پیشنهاد میکنیم - که به فرد اجازه میدهد تا به صورت کمی ارزیابی کند که یک آزمون قطار چقدر توانایی تعمیم ترکیبی یک سیستم ML را اندازهگیری میکند. ما توانایی تعمیم ترکیبی سه دنباله را به معماریهای متوالی ML تحلیل میکنیم و متوجه میشویم که آنها نمیتوانند به طور ترکیبی تعمیم دهند. همچنین مجموعه دادههای پرسشهای آزاد شده ترکیبی که در این کار به عنوان منبعی برای محققانی که مایل به بهبود این نتایج هستند، مورد استفاده قرار میگیرند.
اندازهگیری تعمیمپذیری
به منظور اندازهگیری قابلیت تعمیم ترکیبی یک سیستم، ما با این فرض شروع میکنیم که اصول اساسی چگونگی تولید مثالها را درک میکنیم. به عنوان مثال، ما با قواعد گرامری شروع میکنیم که باید هنگام تولید پرسش و پاسخ به آنها پایبند باشیم. سپس ما بین اتمها و ترکیبها تمایز قائل میشویم. اتمها بلوکهای ساختمانی هستند که برای تولید مثالها و ترکیبات به کار میروند. برای مثال، در شکل زیر، هر جعبه یک اتم است (به عنوان مثال، فولاد شین، برادر، ماهیت شیطانی و شیطانی، تولید و غیره)، که با هم ترکیب میشوند، مانند تولید و فعل سریع، برادر شین استیل، آیا برادر شین استیل تولید و انتقام مستقیم Spy؟
یک آزمایش ترکیبپذیری ایدهآل پس از آن باید یک توزیع اتم مشابه داشته باشد، یعنی توزیع کلمات و زیر - عبارتها در مجموعه آموزش تا حد ممکن شبیه توزیع آنها در مجموعه آزمایش است، اما با یک توزیع ترکیبی متفاوت. برای اندازهگیری تعمیم ترکیبی بر روی یک کار پاسخ به سوال در مورد یک حوزه فیلم، برای مثال، ممکن است سوالات زیر را در آموزش و آزمایش داشته باشید:
در حالی که اتمهایی مانند "directed"، "Inception"، و "who <predicate> <entity>" در هر دو مجموعه آزمایش و قطار ظاهر میشوند، ترکیبات متفاوت هستند.
مجموعه داده پرسشهای آزاد تعمیمپذیر
به منظور انجام یک آزمایش ترکیب پذیری دقیق، مجموعه داده پرسشهای آزاد ترکیبی (CFQ)را ایجاد کردیم، مجموعه داده بزرگ ساده اما در عین حال واقع گرایانه از سوالات زبان طبیعی و پاسخهای تولید شده از پایگاه دانش آزاد عمومی. از CFQ می توان برای کارهای ورودی متنی / خروجی متنی، و همچنین تجزیه معنایی استفاده کرد. در آزمایشها، ما بر تجزیه معنایی تمرکز میکنیم، که در آن ورودی یک سوال زبان طبیعی و خروجی یک پرس و جو است، که وقتی در مقابل فریبیس اجرا میشود، نتیجه درست را تولید میکند. CFQ شامل حدود ۲۴۰هزار نمونه و تقریبا ۳۵ هزار الگوی پرس و جو است که آن را به طور قابلتوجهی بزرگتر و پیچیدهتر از مجموعه دادههای قابلمقایسه میسازد - حدود ۴ برابر WikiSQL با حدود ۱۷ برابر الگوی پرس و جو بیشتر از پرسشهای پیچیده وب است. برای اطمینان از طبیعی بودن پرسشها و پاسخها توجه ویژهای صورتگرفته است. همچنین پیچیدگی نحو را در هر مثال با استفاده از معیار "سطح پیچیدگی" (L) که تقریبا با عمق درخت تجزیه متناظر است، که مثالهایی از آن در زیر نشانداده شدهاست، کمی میکنیم.
آزمایشهای تعمیم ترکیبی بر روی CFQ
برای یک مجموعه داده آزمایش-آزمون، اگر توزیعهای ترکیبی مجموعه آموزش و مجموعه تست بسیار مشابه باشند، آنگاه واگرایی مرکب آنها نزدیک به ۰ خواهد بود، که نشان میدهد آنها تستهای سختی برای تعمیم ترکیبی نیستند. یک واگرایی ترکیبی نزدیک به ۱ به این معنی است که مجموعههای آزمون - آزمایش ترکیبات مختلف زیادی دارند، که آن را یک تست خوب برای تعمیم ترکیبی میسازد. بنابراین واگرایی مرکب مفهوم "توزیع ترکیبی مختلف" را به صورت دلخواه در اختیار میگیرد.
ما به صورت الگوریتمی انشعاب آزمون-آزمایش را با استفاده از مجموعه داده CFQ تولید کردیم که دارای یک واگرایی ترکیبی در محدوده ۰ تا ۰.۷ است (حداکثر آنچه که ما قادر به دستیابی به آن بودیم). ما واگرایی اتم را ثابت میکنیم تا خیلی کوچک باشد. سپس، برای هر انشعاب، عملکرد سه معماری استاندارد ML را اندازهگیری میکنیم - توجه + LSTM، ترانسفورمر، و ترانسفورمر جهانی. نتایج در نمودار زیر نشانداده شدهاست.
ما عملکرد یک مدل را با مقایسه پاسخهای درست با رشته خروجی دادهشده توسط مدل اندازهگیری میکنیم. هنگامی که واگرایی ترکیب بسیار پایین است، همه مدلها به دقتی بالاتر از ۹۵٪ دست مییابند. دقت میانگین در شکاف با بالاترین واگرایی ترکیب برای همه معماریها زیر ۲۰٪ است، که به این معنی است که حتی یک مجموعه آموزشی بزرگ با توزیع اتم مشابه بین آرموش و تست برای معماریها برای تعمیم خوب کافی نیست.برای همه معماریها، همبستگی منفی قوی بین واگرایی ترکیب و دقت وجود دارد. به نظر میرسد که این نشان میدهد که واگرایی ترکیبی به طور موفقیت آمیزی مشکل اصلی این معماریهای ML را برای تعمیم ترکیب بدست میآورد.
به طور بالقوه نوید بخش جهتگیریهایی برای کار آینده ممکن است استفاده از پیش آموزش بدون نظارت بر زبان ورودی یا پرس و جوهای خروجی، یا استفاده از معماریهای یادگیری متنوعتر یا هدفمندتر، مانند توجه نحوی باشد. همچنین جالب خواهد بود که این رویکرد را در حوزههای دیگری مانند استدلال بصری به کار ببریم، به عنوان مثال براساس CLEVR، یا برای گسترش رویکرد خود به زیر مجموعههای گسترده تری از درک زبان، از جمله استفاده از ساختارهای مبهم، منفی کردن، کمی کردن، مقایسه، زبانهای اضافی، و دیگر حوزههای عمودی. امیدواریم که این کار دیگران را برای استفاده از این بنچمارک برای پیشبرد قابلیتهای تعمیم ترکیبی سیستمهای یادگیری تحریک کند.
این مقاله به صورت خودکار با استفاده از موتور ترجمه مقالات هوش مصنوعی ترجمه شده و با حداقل بررسی انشانی منتشر شده است
مطلبی دیگر از این انتشارات
آموزش مدل یادگیری ماشینی فقط با استفاده از JSON
مطلبی دیگر از این انتشارات
آینده ایمنی COVID19 خوب به نظر میرسد
مطلبی دیگر از این انتشارات
آیا بلاکچین میتواند رهبر و الهامبخش هوش مصنوعی مبهم باشد