بررسی یادگیری انتقال با T۵: ترانسفورمر انتقال متن به متن

منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۲۴ فوریه ۲۰۲۰
نویسنده: Adam Roberts
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/generating-diverse-synthetic-medical.html

در طول چند سال گذشته، یادگیری انتقالی منجر به موج جدیدی از نتایج پیشرفته در پردازش زبان طبیعی (NLP) شده‌است. اثربخشی یادگیری انتقال از پیش آموزش یک مدل بر روی داده‌های متنی برچسب‌گذاری‌نشده که به وفور در دسترس هستند با یک کار خود - ناظر، مانند مدل‌سازی زبان یا پر کردن کلمات از دست رفته می‌آید. بعد از آن، مدل می‌تواند به خوبی بر روی مجموعه داده‌های برچسب‌گذاری‌شده کوچک‌تر تنظیم شود، که اغلب منجر به عملکرد بهتر از آموزش تنها بر روی داده برچسب‌دار می‌شود. موفقیت اخیر یادگیری انتقال در سال ۲۰۱۸ توسط GPT، ULMFiT، ELMo، و برت روشن شد، و سال ۲۰۱۹ توسعه تنوع عظیمی از روش‌های جدید مانند XLNet، RoberTa، ALberT، Reformer و MT-DNN را مشاهده کرد. میزان پیشرفت در این زمینه، ارزیابی اینکه کدام بهبودها پرمعناتر هستند و در صورت ترکیب چقدر موثر هستند را دشوار کرده‌است.

در مقاله «کشف محدودیت‌های یادگیری انتقال با یک تبدیل متن به متن یکپارچه»، ما یک بررسی تجربی در مقیاس بزرگ برای تعیین این که کدام تکنیک‌های یادگیری انتقال بهتر کار می‌کنند و این بینش‌ها را در مقیاس برای ایجاد یک مدل جدید که آن را انتقال متن به متن (T۵) می‌نامیم، به کار می‌بریم. ما همچنین یک مجموعه داده از پیش آموزش منبع باز جدید به نام پیکره کرکره‌ای تمیز کولسال (C۴) را معرفی می‌کنیم. مدل T۵، از پیش آموزش‌دیده بر روی C۴، به نتایج پیشرفته در بسیاری از بنچ‌مارک‌های NLP دست می‌یابد در حالی که به اندازه کافی انعطاف‌پذیر است تا به انواع وظایف مهم پایین‌دست تنظیم شود. به منظور توسعه و تکثیر نتایج، ما کد و مدل‌های از پیش‌آموزش‌دیده را همراه با یک دفترچه یادداشت کولب برای کمک به شروع فراهم می‌کنیم.

چارچوب تبدیل متن به متن

با T۵، ما بازسازی تمام وظایف NLP را به یک فرمت متن به متن یکپارچه پیشنهاد می‌کنیم که در آن ورودی و خروجی همیشه رشته‌های متنی هستند، در مقایسه با مدل‌های سبک برت که تنها می‌توانند یک برچسب کلاس یا یک محدوده ورودی را خروجی کنند. چارچوب متن به متن ما به ما اجازه می‌دهد تا از همان مدل، تابع زیان، و پارامترهای بیش از حد در هر وظیفه NLP استفاده کنیم، از جمله ترجمه ماشینی، خلاصه‌سازی اسناد، پاسخ به سوال، و وظایف طبقه‌بندی (به عنوان مثال، تحلیل احساسات). ما حتی می‌توانیم T۵ را برای کارهای رگرسیون با آموزش آن برای پیش‌بینی نمایش رشته یک عدد به جای خود عدد به کار ببریم.

نمودار چارچوب متن به متن ما. هر وظیفه‌ای که ما در نظر می‌گیریم از متن به عنوان ورودی مدل استفاده می‌کند، که برای تولید برخی از متون هدف آموزش‌دیده است. این کار به ما اجازه می‌دهد تا از همان مدل، تابع زیان، و پارامترهای بیش از حد در مجموعه متنوع وظایف خود شامل ترجمه (سبز)، مقبولیت زبانی (قرمز)، شباهت جمله (زرد)، و خلاصه کردن اسناد (آبی)استفاده کنیم. همچنین یک بستر آزمایشی استاندارد برای روش‌های گنجانده شده در نظرسنجی تجربی ما فراهم می‌کند.
نمودار چارچوب متن به متن ما. هر وظیفه‌ای که ما در نظر می‌گیریم از متن به عنوان ورودی مدل استفاده می‌کند، که برای تولید برخی از متون هدف آموزش‌دیده است. این کار به ما اجازه می‌دهد تا از همان مدل، تابع زیان، و پارامترهای بیش از حد در مجموعه متنوع وظایف خود شامل ترجمه (سبز)، مقبولیت زبانی (قرمز)، شباهت جمله (زرد)، و خلاصه کردن اسناد (آبی)استفاده کنیم. همچنین یک بستر آزمایشی استاندارد برای روش‌های گنجانده شده در نظرسنجی تجربی ما فراهم می‌کند.


یک مجموعه داده بزرگ پیش‌آموزش (C۴)

یک جز مهم برای یادگیری انتقال مجموعه داده بدون برچسب است که برای آموزش استفاده می‌شود. برای اندازه‌گیری دقیق تاثیر افزایش میزان پیش آموزش، فرد به یک مجموعه داده نیاز دارد که نه تنها کیفیت بالا و متنوع است بلکه گسترده نیز هست. مجموعه داده‌های آموزشی موجود با هر سه این معیارها مطابقت ندارند - برای مثال، متن ویکی‌پدیا کیفیت بالایی دارد، اما از نظر سبک یکنواخت است و برای اهداف ما نسبتا کوچک است، در حالی که خوشه‌های وب کرادل رایج بسیار عظیم و بسیار متنوع هستند، اما کیفیت نسبتا پایینی دارند.

برای رفع این نیازها، ما یک کورپوس کراکر تمیز کولسسال (C۴) را ایجاد کردیم، یک نسخه کراکر تمیز شده که دو مرتبه بزرگ‌تر از ویکی‌پدیا است. فرآیند پاک‌سازی ما شامل دوپلیکاسیون، حذف جملات ناقص و حذف محتوای تهاجمی یا پر سر و صدا بود. این فیلترینگ منجر به نتایج بهتر در تکالیف پایین‌دست شد، در حالی که اندازه اضافی اجازه داد تا اندازه مدل بدون بیش برازش در طول پیش آموزش افزایش یابد. C۴ از طریق شبکه‌های جریان سنجی تنسوری در دسترس است.

مطالعه سیستماتیک روش‌شناسی یادگیری انتقال

با چارچوب متن به متن T۵ و مجموعه داده پیش از آموزش جدید (C۴)، ما چشم‌انداز وسیع ایده‌ها و روش‌های معرفی‌شده برای یادگیری انتقال NLP در طول چند سال گذشته را بررسی کردیم. جزییات کامل این تحقیقات را می توان در مقاله ما یافت، از جمله آزمایش‌ها بر روی:

  • معماری‌های مدل، که در آن به این نتیجه رسیدیم که مدل‌های رمزگشا - رمزگشا به طور کلی از مدل‌های زبانی "کدگشا - تن‌ها" پیشی می‌گیرند؛
  • اهداف پیش از آموزش، که در آن تایید شد که اهداف نویززدایی به شیوه پر کردن جای خالی (که در آن مدل برای بازیابی کلمات گم‌شده در ورودی آموزش داده می‌شود)بهترین عملکرد را داشته و مهم‌ترین عامل، هزینه محاسباتی بوده‌است؛
  • مجموعه داده‌های برچسب نخورده که در آن نشان دادیم آموزش داده‌های درون دامنه می‌تواند مفید باشد اما آموزش در مجموعه داده‌های کوچک‌تر می‌تواند منجر به بیش‌برازش زیان‌آوری شود.
  • استراتژی‌های آموزشی، که در آن به این نتیجه رسیدیم که یادگیری چندمنظوره می‌تواند نزدیک به یک رویکرد پیش از آموزش و پس از آن دقیق باشد، اما نیازمند انتخاب دقیق این است که مدل در هر وظیفه تا چه حد آموزش داده می‌شود؛
  • و مقیاس، که در آن ما اندازه مدل، زمان آموزش و تعداد مدل‌های ترکیبی را با هم مقایسه می‌کنیم تا مشخص کنیم چگونه می توان بهترین استفاده از توان ثابت را انجام داد.

بینش + مقیاس = وضعیت جاری

برای کشف محدودیت‌های فعلی یادگیری انتقال برای NLP، ما یک مجموعه نهایی از آزمایش‌ها را اجرا کردیم که در آن تمام بهترین روش‌ها را از مطالعه سیستماتیک خود ترکیب کردیم و رویکرد خود را با شتاب‌دهنده‌های Google Cloud TPU accelerators. افزایش دادیم. بزرگ‌ترین مدل ما ۱۱ میلیارد پارامتر داشت و در GLUE، super GLUE، SQuAD، و معیارهای سی ان ان/دیلی میل به جدیدترین مدل دست یافت. یکی از نتایج جالب توجه این بود که ما به یک امتیاز تقریبا انسانی در معیار درک زبان طبیعی SuperGLUE دست یافتیم، که به طور خاص برای مدل‌های یادگیری ماشین طراحی شده‌بود اما برای انسان‌ها آسان بود.

ضمیمه‌ها

مدل T۵ به اندازه کافی انعطاف‌پذیر است تا به راحتی برای کاربرد در بسیاری از وظایف فراتر از مواردی که در مقاله ما، اغلب با موفقیت زیاد، در نظر گرفته شده‌است، اصلاح شود. در زیر، ما T۵ را برای دو کار جدید بکار می‌بریم: پاسخ به سوال کتاب بسته و تولید متن با جاهای خالی با طول متغیر.

سیستم پاسخ به سوال کتاب‌بسته

یک راه برای استفاده از چارچوب متن به متن، در خواندن مسایل درک مطلب است، که در آن مدل برخی بافت را همراه با یک سوال تغذیه می‌کند و آموزش داده می‌شود تا پاسخ پرسش نامه را از متن پیدا کند. برای مثال، می توان متن مقاله ویکی‌پدیا در مورد طوفان کانی را به همراه این سوال که «طوفان کانی در چه تاریخی رخ داده‌است؟» سپس این مدل برای یافتن تاریخ «سوم آگوست ۱۹۵۵» در این مقاله آموزش داده خواهد شد. در واقع، ما با این رویکرد به بهترین نتایج مشابه با سیستم آموزش‌داده‌شده بر روی دادگان سیستم پرسش و پاسخ استنفورد (SQuAD) دست یافتیم.

ما در دموی کولب و مقاله پیوست آن، T۵ را آموزش دادیم تا به سوالات از پیش‌تعیین‌نشده در یک تنظیمات "کتاب بسته" سخت‌، بدون دسترسی به هر گونه دانش خارجی پاسخ دهد. به عبارت دیگر، برای پاسخ به یک سوال T۵ تنها می‌تواند از دانش ذخیره‌شده در پارامترهای خود که در طول پیش آموزش بدون نظارت جمع‌آوری کرده‌است، استفاده کند. این می‌تواند یک فرم محدود از پاسخ به پرسش دامنه باز در نظر گرفته شود.

در طول پیش از آموزش، T۵ یاد می‌گیرد که از اسناد C۴، دهانه‌های رها شده متن (که با  نشان داده می‌شود) را پر کند. برای استفاده از T۵ برای پاسخ به سوال کتاب بسته، ما آن را به خوبی تنظیم کردیم تا به سوالات بدون وارد کردن هیچ اطلاعات یا زمینه اضافی پاسخ دهیم. این امر T۵ را مجبور می‌کند تا به سوالات مبتنی بر نشان داده می‌شود) را پر کند. برای استفاده از T۵ برای پاسخ به سوال کتاب بسته، ما آن را به خوبی تنظیم کردیم تا به سوالات بدون وارد کردن هیچ اطلاعات یا زمینه اضافی پاسخ دهیم. این امر T۵ را مجبور می‌کند تا به سوالات مبتنی بر "دانش" که در طول پیش از آموزش درونی‌سازی شده‌است، پاسخ دهد" />در طول پیش از آموزش، T۵ یاد می‌گیرد که از اسناد C۴، دهانه‌های رها شده متن (که با نشان داده می‌شود) را پر کند. برای استفاده از T۵ برای پاسخ به سوال کتاب بسته، ما آن را به خوبی تنظیم کردیم تا به سوالات بدون وارد کردن هیچ اطلاعات یا زمینه اضافی پاسخ دهیم. این امر T۵ را مجبور می‌کند تا به سوالات مبتنی بر "دانش" که در طول پیش از آموزش درونی‌سازی شده‌است، پاسخ دهد" />
در طول پیش از آموزش، T۵ یاد می‌گیرد که از اسناد C۴، دهانه‌های رها شده متن (که با نشان داده می‌شود) را پر کند. برای استفاده از T۵ برای پاسخ به سوال کتاب بسته، ما آن را به خوبی تنظیم کردیم تا به سوالات بدون وارد کردن هیچ اطلاعات یا زمینه اضافی پاسخ دهیم. این امر T۵ را مجبور می‌کند تا به سوالات مبتنی بر "دانش" که در طول پیش از آموزش درونی‌سازی شده‌است، پاسخ دهد" /> نشان داده می‌شود) را پر کند. برای استفاده از T۵ برای پاسخ به سوال کتاب بسته، ما آن را به خوبی تنظیم کردیم تا به سوالات بدون وارد کردن هیچ اطلاعات یا زمینه اضافی پاسخ دهیم. این امر T۵ را مجبور می‌کند تا به سوالات مبتنی بر "دانش" که در طول پیش از آموزش درونی‌سازی شده‌است، پاسخ دهد" />در طول پیش از آموزش، T۵ یاد می‌گیرد که از اسناد C۴، دهانه‌های رها شده متن (که با نشان داده می‌شود) را پر کند. برای استفاده از T۵ برای پاسخ به سوال کتاب بسته، ما آن را به خوبی تنظیم کردیم تا به سوالات بدون وارد کردن هیچ اطلاعات یا زمینه اضافی پاسخ دهیم. این امر T۵ را مجبور می‌کند تا به سوالات مبتنی بر "دانش" که در طول پیش از آموزش درونی‌سازی شده‌است، پاسخ دهد


به طرز شگفت آوری T۵ در این کار خوب است. مدل کامل با ۱۱ میلیارد پارامتر، متن دقیق پاسخ را به ترتیب ۵۰.۱٪، ۳۷.۴٪، و ۳۴.۵٪ از زمان در TriviaQA، سوالات وب و سوالات طبیعی تولید می‌کند. برای در نظر گرفتن این نتایج، تیم T۵ با یک مدل به چالش کشیده شد و شکست خورد! با رفتن به این لینک خودتان آن را امتحان کنید.

پر کردن متن با جای خالی

مدل‌های زبان بزرگ مانند GPT-2 در ایجاد متن جستجوی بسیار واقع گرایانه برتری دارند زیرا آن‌ها آموزش‌دیده اند تا پیش‌بینی کنند که کلمات بعد از یک پیام ورودی چه چیزی خواهند آمد. این امر منجر به برنامه‌های خلاقانه متعددی مانند صحبت با مترجم و بازی مبتنی بر متن سیاه‌زخم شده‌است. هدف پیش از آموزش مورد استفاده توسط T۵ با وظیفه پر کردن جای خالی هم تراز می‌شود که در آن مدل کلمات از دست رفته را در یک قطعه متنی فاسد شده پیش‌بینی می‌کند. این هدف تعمیمی از کار تداوم است، زیرا «جاهای خالی» نیز می‌توانند در انتهای متن ظاهر شوند.

برای استفاده از این هدف، ما یک کار پایین‌دست جدید به نام پر کردن به اندازه خالی ایجاد کردیم، که در آن از مدل خواسته می‌شود تا یک خالی را با تعداد مشخصی از کلمات جایگزین کند. برای مثال، اگر ما ورودی را به مدل بدهیم «من دوست دارم کره بادام‌زمینی و -۴- ساندویچ بخورم»، آموزش می‌دهیم که جای خالی را با تقریبا ۴ کلمه پر کنیم.

ما با استفاده از C۴ ،T۵ را به خوبی تنظیم کردیم و دریافتیم که خروجی‌های حاصل کاملا واقع گرایانه هستند. به خصوص جالب است که ببینیم چگونه این مدل پیش‌بینی‌های خود را براساس اندازه درخواست‌شده برای متن از دست رفته تنظیم می‌کند. به عنوان مثال، با توجه به ورودی «من عاشق کره بادام‌زمینی و ساندویچ -N- هستم»، خروجی‌ها به این شکل بودند:

نتیجه‌گیری

ما هیجان‌زده هستیم از این که می‌بینیم مردم چگونه از یافته‌ها، کد، و مدل‌های از پیش آموزش‌دیده ما برای کمک به شروع پروژه‌های خود استفاده می‌کنند. برای شروع، دفترچه یادداشت کولب را بررسی کنید، و نحوه استفاده خود از آن را در توییتر با ما به اشتراک بگذارید!


این مقاله توسط مترجم متن‌ تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه شده و با حداقل ویرایش و بازبینی انسانی منتشر شده است. مقالات لینک‌شده در این مقاله را می‌توانید با کمک مقاله‌خوان ترجمیار به رایگان و فارسی بخوانید