کدگذاری، برچسب‌زنی و بازشناسی: یک رویکرد قابل کنترل و کارآمد برای تولید متن

ربات در حال تولید متن است
ربات در حال تولید متن است
منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۳۱ ژانویه ۲۰۲۰
نویسنده: Eric Malmi و Sebastian Krause
لینک مقاله اصلی: https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html

این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و به صورت محدود مورد بازنگری انسانی قرار گرفته است.

مدل‌های توالی به توالی (seq2seq) در زمینه ترجمه ماشینی انقلابی ایجاد کرده‌اند و به ابزار انتخابی برای کارهای مختلف تولید متن، مانند خلاصه‌سازی، ترکیب جملات و تصحیح خطای دستوری تبدیل شده‌اند. بهبودها در معماری مدل (به عنوان مثال، ترانسفورمر) و توانایی استفاده از پیکره‌های بزرگ متنی تفسیر نشده از طریق پیش آموزش بدون نظارت، دستاوردهای کیفی در رویکردهای شبکه عصبی که در سال‌های اخیر دیده‌ایم را فعال کرده‌است.

با این حال، استفاده از مدل‌های seq2seq برای تولید متن می‌تواند با تعدادی اشکالات اساسی بسته به مورد استفاده همراه باشد، مانند تولید خروجی که توسط متن ورودی پشتیبانی نمی‌شود (که به عنوان توهم شناخته می‌شود) و نیاز به مقادیر زیادی از داده‌های آموزشی برای رسیدن به عملکرد خوب. علاوه بر این، مدل‌های seq2seq ذاتا در زمان استنتاج کند هستند، زیرا آن‌ها معمولا کلمه به کلمه خروجی را تولید می‌کنند.

در "کدگذاری، برچسب‌زنی، اصلاح: ویرایش متن با دقت بالا"، ما یک روش جدید و منبع‌باز برای تولید متن ارایه ‌دادیم که به طور خاص برای رسیدگی به این سه نقص طراحی شده‌است. این روش به خاطر سرعت و دقت روش، لیزرتگر نامیده می‌شود. به جای تولید متن خروجی از ابتدا، لیزرتگر خروجی را با برچسب زدن کلمات با عملیات ویرایش پیش‌بینی‌شده تولید می‌کند که سپس در مرحله درک جداگانه به کلمات ورودی اعمال می‌شود. این یک روش کم‌تر مستعد خطا برای مقابله با تولید متن است که می‌تواند با آموزش آسان‌تر و سریع‌تر برای اجرای معماری مدل کنترل شود.

طراحی و کارکرد لیزرتگر

ویژگی متمایز بسیاری از وظایف تولید متن این است که اغلب همپوشانی بالایی بین ورودی و خروجی وجود دارد. برای مثال، هنگام تشخیص و اصلاح خطاهای دستوری یا هنگام استفاده از جملات، بیشتر متن ورودی می‌تواند بدون تغییر باقی بماند، و تنها بخش کوچکی از کلمات باید اصلاح شوند. به همین دلیل، لیزرتگر یک توالی از عملیات ویرایش را به جای کلمات واقعی تولید می‌کند. چهار نوع عملیات ویرایشی که استفاده می‌کنیم عبارتند از: نگه داشتن (کپی کردن یک کلمه از کلمه به خروجی)، حذف (حذف یک کلمه) و نگه داشتن - AddX / حذف - AddX (اضافه کردن عبارت X قبل از کلمه برچسب و حذف اختیاری کلمه برچسب دار). این فرآیند در شکل زیر نشان‌داده شده‌است، که کاربرد لیزرتگر برای ترکیب جمله را نشان می‌دهد.

لیزرتگر به تولیدکننده جمله اعمال شد. عملیات ویرایش پیش‌بینی‌شده عبارت است از حذف
لیزرتگر به تولیدکننده جمله اعمال شد. عملیات ویرایش پیش‌بینی‌شده عبارت است از حذف ". Turing" و اضافه کردن "and he" قبل از آن. به همپوشانی بالا بین متن ورودی و خروجی توجه کنید.


تمام عبارات اضافه‌شده از واژگان محدود هستند. این واژگان نتیجه یک فرآیند بهینه‌سازی است که دارای دو هدف است: (۱) به حداقل رساندن اندازه واژگان و (۲) به حداکثر رساندن تعداد مثال‌های آموزشی، که در آن تنها کلمات لازم برای اضافه کردن به متن هدف تنها از واژگان می‌آیند. داشتن یک لغت محدود فضای تصمیمات خروجی را کوچک‌تر می‌کند و مدل را از اضافه کردن کلمات دل‌خواه باز می‌دارد در نتیجه مشکل توهم را کاهش می‌دهد. نتیجه خصوصیت همپوشانی بالای متون ورودی و خروجی این است که اصلاحات لازم تمایل دارند محلی و مستقل از یکدیگر باشند. این بدان معنی است که عملیات ویرایش را می توان به طور موازی با دقت بالا پیش‌بینی کرد، که یک سرعت قابل‌توجه انتها به انتها را در مقایسه با مدل‌های اتورگرسیو seq2seq قادر می‌سازد، که این پیش‌بینی‌ها را به صورت متوالی و مشروط بر پیش‌بینی‌های قبلی انجام می‌دهد.

نتایج

ما لیزرتگر را بر روی چهار وظیفه ارزیابی کردیم: ترکیب جمله، تقسیم و تغییر عبارت، خلاصه‌سازی انتزاعی، و اصلاح دستور زبان. در طول این وظایف، لیزرتگر در مقایسه با یک پایه seq2seq قدرتمند مبتنی بر BERT که از تعداد زیادی از نمونه‌های آموزشی استفاده می‌کند، عملکرد بهتری دارد و وقتی تعداد نمونه‌های آموزشی محدود است، به وضوح از این مدل پایه بهتر عمل می‌کند. در زیر ما نتایج را بر روی مجموعه داده ویکی‌اسپریت نشان می‌دهیم که در آن وظیفه برگرداندن یک جمله بلند به دو جمله کوتاه منسجم است.

هنگامی که مدل‌ها روی مجموعه داده کامل یک میلیون مثال آموزش داده می‌شوند، هم مدل خط پایه مبتنی بر BERT و هم مدل خط پایه مبتنی بر لیزرتگر به طور قابل‌مقایسه‌ای عمل می‌کنند، اما زمانی که آموزش بر روی یک نمونه فرعی از ۱۰۰۰۰ مثال یا کم‌تر انجام می‌شود، لیزرتگر به وضوح بهتر از مدل پایه عمل می‌کند (هر چه امتیاز SARI بالاتر باشد بهتر است).
هنگامی که مدل‌ها روی مجموعه داده کامل یک میلیون مثال آموزش داده می‌شوند، هم مدل خط پایه مبتنی بر BERT و هم مدل خط پایه مبتنی بر لیزرتگر به طور قابل‌مقایسه‌ای عمل می‌کنند، اما زمانی که آموزش بر روی یک نمونه فرعی از ۱۰۰۰۰ مثال یا کم‌تر انجام می‌شود، لیزرتگر به وضوح بهتر از مدل پایه عمل می‌کند (هر چه امتیاز SARI بالاتر باشد بهتر است).


مزایای کلیدی لیزرتگر

در مقایسه با روش‌های سنتی seq2seq، لیزرتگر دارای مزایای زیر است:

  • کنترل: با کنترل عبارت خروجی که می‌توانیم آن را به طور دستی ویرایش یا اصلاح کنیم، لیزرتگر نسبت به seq2seq پایه کم‌تر مستعد توهم است.
  • سرعت استنباط: لیزرتگر پیش‌بینی‌ها را تا ۱۰۰ برابر سریع‌تر از seq2seq پایه محاسبه می‌کند، که آن را برای کاربردهای بی‌درنگ مناسب می‌سازد.
  • بهره‌وری داده: لیزرتگر، حتی زمانی که تنها با چند صد یا چند هزار مثال آموزشی آموزش داده می‌شود، خروجی‌های منطقی‌ تولید می‌کند.در آزمایش‌ها ما، اساس رقابتی seq2seq به ده‌ها هزار مثال برای به دست آوردن عملکرد قابل‌مقایسه نیاز دارد.

چرا این مساله مهم است

مزایای لیزرتگر حتی زمانی که در مقیاس بزرگ به کار گرفته می‌شود، برجسته می‌شود، مانند بهبود تنظیم پاسخ‌های صوتی در برخی خدمات با کاهش طول پاسخ‌ها و کم‌تر تکراری کردن آن‌ها. سرعت استنتاج بالا به مدل اجازه می‌دهد تا به یک پشته فن‌آوری موجود متصل شود، بدون اضافه کردن هیچ تاخیر قابل‌توجهی در سمت کاربر، در حالی که کارایی داده بهبود یافته جمع‌آوری داده‌های آموزشی برای بسیاری از زبان‌ها را ممکن می‌سازد، در نتیجه کاربران را از زمینه‌های زبانی مختلف بهره‌مند می‌سازد.

ما در کار فعلی خود تلاش می‌کنیم تا پیشرفت‌های مشابهی را در دیگر تکنولوژی‌های گوگل که زبان طبیعی تولید می‌کنند، ایجاد کنیم. علاوه بر این، ما در حال بررسی این موضوع هستیم که چگونه ویرایش متون (به جای تولید آن‌ها از صفر) می‌تواند به ما کمک کند تا پرس و جوهای کاربر را هر چه بیشتر درک کنیم، پیچیده‌تر شویم، و به عنوان بخشی از یک گفتمان مکالمه به دست آوریم. کد لیزرتگر از طریق GitHub برای عموم باز است.

این مقاله توسط ربات ترجمیار و به صورت خودکار ترجمه شده و به صورت محدود مورد بازنگری انسانی قرار گرفته است.