من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
بررسی یادگیری انتقال با T۵: ترانسفورمر انتقال متن به متن
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۲۴ فوریه ۲۰۲۰
نویسنده: Adam Roberts
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/generating-diverse-synthetic-medical.html
در طول چند سال گذشته، یادگیری انتقالی منجر به موج جدیدی از نتایج پیشرفته در پردازش زبان طبیعی (NLP) شدهاست. اثربخشی یادگیری انتقال از پیش آموزش یک مدل بر روی دادههای متنی برچسبگذارینشده که به وفور در دسترس هستند با یک کار خود - ناظر، مانند مدلسازی زبان یا پر کردن کلمات از دست رفته میآید. بعد از آن، مدل میتواند به خوبی بر روی مجموعه دادههای برچسبگذاریشده کوچکتر تنظیم شود، که اغلب منجر به عملکرد بهتر از آموزش تنها بر روی داده برچسبدار میشود. موفقیت اخیر یادگیری انتقال در سال ۲۰۱۸ توسط GPT، ULMFiT، ELMo، و برت روشن شد، و سال ۲۰۱۹ توسعه تنوع عظیمی از روشهای جدید مانند XLNet، RoberTa، ALberT، Reformer و MT-DNN را مشاهده کرد. میزان پیشرفت در این زمینه، ارزیابی اینکه کدام بهبودها پرمعناتر هستند و در صورت ترکیب چقدر موثر هستند را دشوار کردهاست.
در مقاله «کشف محدودیتهای یادگیری انتقال با یک تبدیل متن به متن یکپارچه»، ما یک بررسی تجربی در مقیاس بزرگ برای تعیین این که کدام تکنیکهای یادگیری انتقال بهتر کار میکنند و این بینشها را در مقیاس برای ایجاد یک مدل جدید که آن را انتقال متن به متن (T۵) مینامیم، به کار میبریم. ما همچنین یک مجموعه داده از پیش آموزش منبع باز جدید به نام پیکره کرکرهای تمیز کولسال (C۴) را معرفی میکنیم. مدل T۵، از پیش آموزشدیده بر روی C۴، به نتایج پیشرفته در بسیاری از بنچمارکهای NLP دست مییابد در حالی که به اندازه کافی انعطافپذیر است تا به انواع وظایف مهم پاییندست تنظیم شود. به منظور توسعه و تکثیر نتایج، ما کد و مدلهای از پیشآموزشدیده را همراه با یک دفترچه یادداشت کولب برای کمک به شروع فراهم میکنیم.
چارچوب تبدیل متن به متن
با T۵، ما بازسازی تمام وظایف NLP را به یک فرمت متن به متن یکپارچه پیشنهاد میکنیم که در آن ورودی و خروجی همیشه رشتههای متنی هستند، در مقایسه با مدلهای سبک برت که تنها میتوانند یک برچسب کلاس یا یک محدوده ورودی را خروجی کنند. چارچوب متن به متن ما به ما اجازه میدهد تا از همان مدل، تابع زیان، و پارامترهای بیش از حد در هر وظیفه NLP استفاده کنیم، از جمله ترجمه ماشینی، خلاصهسازی اسناد، پاسخ به سوال، و وظایف طبقهبندی (به عنوان مثال، تحلیل احساسات). ما حتی میتوانیم T۵ را برای کارهای رگرسیون با آموزش آن برای پیشبینی نمایش رشته یک عدد به جای خود عدد به کار ببریم.
یک مجموعه داده بزرگ پیشآموزش (C۴)
یک جز مهم برای یادگیری انتقال مجموعه داده بدون برچسب است که برای آموزش استفاده میشود. برای اندازهگیری دقیق تاثیر افزایش میزان پیش آموزش، فرد به یک مجموعه داده نیاز دارد که نه تنها کیفیت بالا و متنوع است بلکه گسترده نیز هست. مجموعه دادههای آموزشی موجود با هر سه این معیارها مطابقت ندارند - برای مثال، متن ویکیپدیا کیفیت بالایی دارد، اما از نظر سبک یکنواخت است و برای اهداف ما نسبتا کوچک است، در حالی که خوشههای وب کرادل رایج بسیار عظیم و بسیار متنوع هستند، اما کیفیت نسبتا پایینی دارند.
برای رفع این نیازها، ما یک کورپوس کراکر تمیز کولسسال (C۴) را ایجاد کردیم، یک نسخه کراکر تمیز شده که دو مرتبه بزرگتر از ویکیپدیا است. فرآیند پاکسازی ما شامل دوپلیکاسیون، حذف جملات ناقص و حذف محتوای تهاجمی یا پر سر و صدا بود. این فیلترینگ منجر به نتایج بهتر در تکالیف پاییندست شد، در حالی که اندازه اضافی اجازه داد تا اندازه مدل بدون بیش برازش در طول پیش آموزش افزایش یابد. C۴ از طریق شبکههای جریان سنجی تنسوری در دسترس است.
مطالعه سیستماتیک روششناسی یادگیری انتقال
با چارچوب متن به متن T۵ و مجموعه داده پیش از آموزش جدید (C۴)، ما چشمانداز وسیع ایدهها و روشهای معرفیشده برای یادگیری انتقال NLP در طول چند سال گذشته را بررسی کردیم. جزییات کامل این تحقیقات را می توان در مقاله ما یافت، از جمله آزمایشها بر روی:
- معماریهای مدل، که در آن به این نتیجه رسیدیم که مدلهای رمزگشا - رمزگشا به طور کلی از مدلهای زبانی "کدگشا - تنها" پیشی میگیرند؛
- اهداف پیش از آموزش، که در آن تایید شد که اهداف نویززدایی به شیوه پر کردن جای خالی (که در آن مدل برای بازیابی کلمات گمشده در ورودی آموزش داده میشود)بهترین عملکرد را داشته و مهمترین عامل، هزینه محاسباتی بودهاست؛
- مجموعه دادههای برچسب نخورده که در آن نشان دادیم آموزش دادههای درون دامنه میتواند مفید باشد اما آموزش در مجموعه دادههای کوچکتر میتواند منجر به بیشبرازش زیانآوری شود.
- استراتژیهای آموزشی، که در آن به این نتیجه رسیدیم که یادگیری چندمنظوره میتواند نزدیک به یک رویکرد پیش از آموزش و پس از آن دقیق باشد، اما نیازمند انتخاب دقیق این است که مدل در هر وظیفه تا چه حد آموزش داده میشود؛
- و مقیاس، که در آن ما اندازه مدل، زمان آموزش و تعداد مدلهای ترکیبی را با هم مقایسه میکنیم تا مشخص کنیم چگونه می توان بهترین استفاده از توان ثابت را انجام داد.
بینش + مقیاس = وضعیت جاری
برای کشف محدودیتهای فعلی یادگیری انتقال برای NLP، ما یک مجموعه نهایی از آزمایشها را اجرا کردیم که در آن تمام بهترین روشها را از مطالعه سیستماتیک خود ترکیب کردیم و رویکرد خود را با شتابدهندههای Google Cloud TPU accelerators. افزایش دادیم. بزرگترین مدل ما ۱۱ میلیارد پارامتر داشت و در GLUE، super GLUE، SQuAD، و معیارهای سی ان ان/دیلی میل به جدیدترین مدل دست یافت. یکی از نتایج جالب توجه این بود که ما به یک امتیاز تقریبا انسانی در معیار درک زبان طبیعی SuperGLUE دست یافتیم، که به طور خاص برای مدلهای یادگیری ماشین طراحی شدهبود اما برای انسانها آسان بود.
ضمیمهها
مدل T۵ به اندازه کافی انعطافپذیر است تا به راحتی برای کاربرد در بسیاری از وظایف فراتر از مواردی که در مقاله ما، اغلب با موفقیت زیاد، در نظر گرفته شدهاست، اصلاح شود. در زیر، ما T۵ را برای دو کار جدید بکار میبریم: پاسخ به سوال کتاب بسته و تولید متن با جاهای خالی با طول متغیر.
سیستم پاسخ به سوال کتاببسته
یک راه برای استفاده از چارچوب متن به متن، در خواندن مسایل درک مطلب است، که در آن مدل برخی بافت را همراه با یک سوال تغذیه میکند و آموزش داده میشود تا پاسخ پرسش نامه را از متن پیدا کند. برای مثال، می توان متن مقاله ویکیپدیا در مورد طوفان کانی را به همراه این سوال که «طوفان کانی در چه تاریخی رخ دادهاست؟» سپس این مدل برای یافتن تاریخ «سوم آگوست ۱۹۵۵» در این مقاله آموزش داده خواهد شد. در واقع، ما با این رویکرد به بهترین نتایج مشابه با سیستم آموزشدادهشده بر روی دادگان سیستم پرسش و پاسخ استنفورد (SQuAD) دست یافتیم.
ما در دموی کولب و مقاله پیوست آن، T۵ را آموزش دادیم تا به سوالات از پیشتعییننشده در یک تنظیمات "کتاب بسته" سخت، بدون دسترسی به هر گونه دانش خارجی پاسخ دهد. به عبارت دیگر، برای پاسخ به یک سوال T۵ تنها میتواند از دانش ذخیرهشده در پارامترهای خود که در طول پیش آموزش بدون نظارت جمعآوری کردهاست، استفاده کند. این میتواند یک فرم محدود از پاسخ به پرسش دامنه باز در نظر گرفته شود.
به طرز شگفت آوری T۵ در این کار خوب است. مدل کامل با ۱۱ میلیارد پارامتر، متن دقیق پاسخ را به ترتیب ۵۰.۱٪، ۳۷.۴٪، و ۳۴.۵٪ از زمان در TriviaQA، سوالات وب و سوالات طبیعی تولید میکند. برای در نظر گرفتن این نتایج، تیم T۵ با یک مدل به چالش کشیده شد و شکست خورد! با رفتن به این لینک خودتان آن را امتحان کنید.
پر کردن متن با جای خالی
مدلهای زبان بزرگ مانند GPT-2 در ایجاد متن جستجوی بسیار واقع گرایانه برتری دارند زیرا آنها آموزشدیده اند تا پیشبینی کنند که کلمات بعد از یک پیام ورودی چه چیزی خواهند آمد. این امر منجر به برنامههای خلاقانه متعددی مانند صحبت با مترجم و بازی مبتنی بر متن سیاهزخم شدهاست. هدف پیش از آموزش مورد استفاده توسط T۵ با وظیفه پر کردن جای خالی هم تراز میشود که در آن مدل کلمات از دست رفته را در یک قطعه متنی فاسد شده پیشبینی میکند. این هدف تعمیمی از کار تداوم است، زیرا «جاهای خالی» نیز میتوانند در انتهای متن ظاهر شوند.
برای استفاده از این هدف، ما یک کار پاییندست جدید به نام پر کردن به اندازه خالی ایجاد کردیم، که در آن از مدل خواسته میشود تا یک خالی را با تعداد مشخصی از کلمات جایگزین کند. برای مثال، اگر ما ورودی را به مدل بدهیم «من دوست دارم کره بادامزمینی و -۴- ساندویچ بخورم»، آموزش میدهیم که جای خالی را با تقریبا ۴ کلمه پر کنیم.
ما با استفاده از C۴ ،T۵ را به خوبی تنظیم کردیم و دریافتیم که خروجیهای حاصل کاملا واقع گرایانه هستند. به خصوص جالب است که ببینیم چگونه این مدل پیشبینیهای خود را براساس اندازه درخواستشده برای متن از دست رفته تنظیم میکند. به عنوان مثال، با توجه به ورودی «من عاشق کره بادامزمینی و ساندویچ -N- هستم»، خروجیها به این شکل بودند:
نتیجهگیری
ما هیجانزده هستیم از این که میبینیم مردم چگونه از یافتهها، کد، و مدلهای از پیش آموزشدیده ما برای کمک به شروع پروژههای خود استفاده میکنند. برای شروع، دفترچه یادداشت کولب را بررسی کنید، و نحوه استفاده خود از آن را در توییتر با ما به اشتراک بگذارید!
این مقاله توسط مترجم متن تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه شده و با حداقل ویرایش و بازبینی انسانی منتشر شده است. مقالات لینکشده در این مقاله را میتوانید با کمک مقالهخوان ترجمیار به رایگان و فارسی بخوانید
مطلبی دیگر از این انتشارات
آینده FPGA ها
مطلبی دیگر از این انتشارات
چند نورون برای یک شبکه عصبی؟
مطلبی دیگر از این انتشارات
چگونگی تغییر نام کاربری کلابهاوس