داخل ماشین یادگیری که گوگل از آن برای ساخت «مینا» استفاده می‌کرد

«مینا» (MEENA) یکی از مهم‌ترین نقاط عطف در تاریخ درک زبان طبیعی است. گوگل چگونه آن را ساخته‌است؟ به نظر می‌رسد که گوگل قصد دارد هر ساله با پیشرفت شگفت‌انگیز جدیدی در سیستم‌های درک زبان طبیعی، دنیای هوش مصنوعی را دچار شوک کند. سال گذشته، مدل BERT قطعا فضای تحقیقاتی NLU را به خود اختصاص داد. تنها چند هفته مانده تا سال ۲۰۲۰، گوگل ریسرچ مقاله جدیدی منتشر کرد که «مینا» را معرفی می‌کرد، یک مدل جدید یادگیری عمیق که می‌تواند به گپ بات‌ها قدرت دهد که می‌توانند در مکالمات درباره هر دامنه درگیر شوند.

مقاله معرفی «مینا» به دلیل اهمیت و پیچیدگی متن به زودی از سوی تیم ترجمه نسل جدید ترجمه‌شده و در وبلاگ ترجمیار منتشر می‌شود.

درک زبان طبیعی یکی از فعال‌ترین حوزه‌های تحقیقاتی در چند سال اخیر بوده و تا به امروز برخی از پرکاربردترین سیستم‌های هوش مصنوعی را ایجاد کرده‌است. با این حال، با وجود تمام پیشرفت‌ها، بیشتر سیستم‌های محاوره‌ای به شدت محدود به یک حوزه خاص هستند که با توانایی ما به عنوان انسان‌ها برای صحبت طبیعی در مورد موضوعات مختلف در تضاد است. در نظریه NLU، آن عوامل مکالمه تخصصی به عنوان چت‌بات‌های دامنه بسته شناخته می‌شوند. جایگزین، حوزه جدیدی از تحقیق است که با عنوان چت‌بات دامنه باز شناخته می‌شود و بر ایجاد نمایندگان مکالمه تمرکز دارد که تقریبا در مورد هر چیزی که کاربر می‌خواهد صحبت می‌کنند. اگر چت‌بات‌ها در فضای باز موثر باشد، می‌تواند یک بخش کلیدی در سفر برای انسانی کردن تعاملات کامپیوتر باشد.

با وجود هیجان در مورد چت‌بات‌های دامنه باز، اجرای فعلی هنوز ضعف‌هایی دارد که مانع از مفید بودن آن‌ها می‌شود: آن‌ها اغلب به ورودی باز به روش‌هایی پاسخ می‌دهند که منطقی نیستند، یا با پاسخ‌هایی که مبهم و کلی هستند. گوگل با «مینا» تلاش می‌کند تا برخی از این چالش‌ها را با ساخت یک چت‌بات‌ با دامنه باز حل کند که می‌تواند تقریبا در مورد هر چیزی صحبت کند.

قبل از ساخت «مینا»، گوگل مجبور به حل یک چالش غیر بدیهی بود که اغلب در سیستم‌های چت‌بات‌ دامنه باز نادیده گرفته می‌شود. یک معیار کلیدی برای ارزیابی کیفیت یک چت‌بات دامنه باز این واقعیت است که محاوره آن برای انسان طبیعی است. این ایده به نظر شهودی می‌آید اما به طور باور نکردنی ذهنی است. چگونه می‌توانیم شباهت انسانی یک مکالمه را اندازه‌گیری کنیم؟ گوگل برای پرداختن به این چالش با معرفی یک معیار جدید به عنوان سنگ بنای چاتبات «مینا» شروع کرد.

حساسیت و میانگین ویژگی

حساسیت و میانگین ویژگی (SSA) یک معیار جدید برای چت‌بات‌ها دامنه باز است که در آن h ویژگی‌های اصلی اما مهم برای مکالمه انسان را بدست می‌آورد. به طور خاص، SSA تلاش می‌کند تا دو جنبه کلیدی گفتگوهای انسانی را تعیین کند:

  • منطقی بودن
  • اختصاصی بودن.

دقت مسلما برخی از اساسی‌ترین جنبه‌های شباهت انسانی مکالمه مانند حس مشترک و انسجام منطقی را پوشش می‌دهد. هم چنین حس‌پذیری جنبه‌های مهم دیگر یک چت‌بات‌ مانند سازگاری را نیز در بر می‌گیرد.با این حال، معقول بودن کافی نیست. یک پاسخ عمومی (مثلا: من نمی‌دانم) می‌تواند معقول باشد، اما همچنین خسته‌کننده و غیر خاص است. چنین واکنش‌هایی اغلب توسط بات‌هایی ایجاد می‌شوند که با توجه به معیارهایی مانند حساسیت به تنهایی ارزیابی می‌شوند. ویژگی دومین معیاری است که می‌تواند به کمی کردن شباهت انسان به تعامل محاوره‌ای کمک کند. برای مثال، A می‌گوید، «من عاشق تنیس هستم»، و B پاسخ می‌دهد، «خیلی خوب است»، سپس جمله باید علامت‌گذاری شود، "نه خاص". این پاسخ می‌تواند در ده‌ها زمینه مختلف مورد استفاده قرار گیرد. با این حال، اگر B پاسخ دهد، «من هم نمی‌توانم هم‌اندازه راجر فدرر پول بگیرم!» آنگاه می‌گوییم که یک جمله اختصاصی در حوزه صحبت ایجاد کرده است.

معیار SSA f (حساسیت، ویژگی)

فرمولاسیون ریاضی واقعی متریک SSA بسیار پیچیده است اما آزمایش‌های اولیه انجام‌شده توسط گوگل همبستگی قوی با شباهت انسان به یک چت‌بات‌ را نشان داد. شکل زیر نشان می‌دهد که همبستگی برای چت‌بات‌ها مختلف (نقاط آبی).

با فرمول‌بندی یک متریک قابل‌اندازه‌گیری برای ارزیابی شباهت انسان، گام بعدی ساخت یک ربات دامنه باز است که برای آن متریک بهینه شده‌است.

چت‌بات «مینا»

«مینا» یک مدل مکالمه عصبی انتها به انتها است که یاد می‌گیرد به طور منطقی به یک بافت مکالمه داده‌شده پاسخ دهد. با کمال تعجب، «مینا» به معماری جدیدی متکی نیست، بلکه معماری انتقالی تکاملی (ET) که سال گذشته توسط گوگل ابداع شد، بهره می‌برد.

معماری انتقالی تکاملی (ET)

همان طور که نام آن نشان می‌دهد، ET یک بهینه‌سازی بر روی معماری‌های سنتی ترانسفورمر است که در وظایف NLU مشترک هستند. این بهینه‌سازی‌ها نتیجه استفاده از جستجوی معماری عصبی (NAS) برای یک سری از مدل‌های انتقالی مورد استفاده در سناریوهای NLU بودند.

در نگاه اول، ET شبیه بیشتر معماری‌های شبکه عصبی انتقالی است. یک کدگذار دارد که توالی ورودی را به تعبیه و یک رمزگشا که از آن تعبیه برای ساخت یک توالی خروجی استفاده می‌کند؛ در مورد ترجمه، توالی ورودی جمله‌ای است که باید ترجمه شود و توالی خروجی ترجمه است. با این حال، ET تغییرات جالبی را به مدل‌های انتقالی اضافه می‌کند. جالب‌ترین آن‌ها لایه‌های کانولوشنال در پایین هر دو مدول‌های رمزگذار و کدگشایی است که در یک الگوی شاخه‌ای مشابه در هر دو مکان اضافه شدند. این بهینه‌سازی به ویژه جالب است زیرا معماری‌های رمزگذار و رمزگشا در طول NAS به اشتراک گذاشته نمی‌شوند، بنابراین این معماری به طور مستقل به عنوان مفید بودن هم در رمزگذار و هم رمزگشا کشف شد، با توجه به قدرت این طراحی. در حالی که ترانسفورمر اصلی تنها بر خود - توجه تکیه دارد، ترانسفورمر تحول پذیر یک هیبرید است، و قدرت خود - توجه و کانولوشن گسترده را تقویت می‌کند.

«مینا» و ET

یک راه برای فکر کردن در مورد «مینا» به عنوان یک معماری کلان ET است. «مینا» دارای یک بلوک کدگذار ET و ۱۳ بلوک کدگشا انتقالی تکاملی است که در زیر نشان‌داده شده‌است. رمزگذار مسوول پردازش زمینه گفتگو برای کمک به «مینا» برای درک آنچه در حال حاضر در گفتگو گفته شده‌است، می‌باشد. رمزگشا سپس از آن اطلاعات برای تنظیم یک واکنش واقعی استفاده می‌کند. با تنظیم پارامترهای فوق، کشف کردیم که یک رمزگشا قوی‌تر کلید کیفیت بالاتر مکالمه است.

یکی از چیزهایی که «مینا» نشان می‌دهد این است که وقتی بحث بر سر گفتگوهای آزاد است، اندازه مهم است. برای چندین دهه جامعه تحقیقاتی هوش مصنوعی در این باره بحث کرده‌است که آیا به منظور رسیدن به نقطه‌ای که در آن یک مدل می‌تواند گفتگوهای با کیفیت بالا و چند دوری با انسان‌ها انجام دهد، ما می‌توانیم به سادگی یک مدل انتها به انتها بگیریم و آن را بزرگ‌تر کنیم - با اضافه کردن داده‌های آموزشی بیشتر و افزایش تعداد پارامترهای آن - یا لازم است چنین مدلی را با اجزای دیگر ترکیب کنیم؟ «مینا» نشان داد که مدل‌های بسیار بزرگ انتها به انتها می‌توانند به عملکرد انسان مانند در تعاملات محاوره‌ای دست یابند.

«مینا» چقدر بزرگ است؟ خوب، گزارش شده‌است که اولین نسخه «مینا» دارای ۲.۶ میلیارد پارامتر است و بر روی ۳۴۱ گیگابایت متن آموزش‌دیده است، که از مکالمات رسانه‌های اجتماعی حوزه عمومی فیلتر شده‌است. برای بیان این موضوع، در مقایسه با یک مدل مولد مدرن موجود، OpenAI GPT - ۲، «مینا» دارای ظرفیت مدل ۱.۷ برابر بزرگ‌تر است و روی داده‌های ۸.۵ برابر بیشتر آموزش داده شده‌است.

تست‌های اولیه با «مینا» نشان داد که چت‌بات قادر به شرکت در گفتگوها در میان موضوعات مختلف و دستیابی به سطوح بالای SSA بود.

یکی از شگفت‌انگیزترین یافته‌ها در طول تحقیق «مینا»، همبستگی به نمایش گذاشته شده بین متریک SSA و شاخص عملکرد بهت معروف در مدل‌های NLU بود. از نظر مفهومی، سردرگمی عدم قطعیت یک مدل زبانی را اندازه‌گیری می‌کند. هرچه پیچیدگی کم‌تر باشد، مدل در ایجاد نشانه بعدی (کاراکتر، زیرکلمه، یا کلمه)اعتماد به نفس بیشتری دارد. در طول تست‌ها، معیار SSA و عوامل فردی آن (ویژگی و حساسیت)همبستگی قوی با شگفتی در گپ بات‌های دامنه باز نشان دادند.

با توجه به الزامات عملکرد، «مینا» برای بسیاری از سازمان‌ها خارج از دسترس است. با این حال، شکی نیست که «مینا» یک نقطه عطف مهم در اجرای رابط‌های محاوره‌ای است. علاوه بر خود مدل، «مینا» متریک SSA را ایجاد کرد که ما را به ارزیابی شباهت انسان به تعاملات چبوت نزدیک‌تر می‌کند. در آینده، ما باید دیگر ویژگی‌های مکالمه انسانی مانند شوخی یا همدلی را که به معیار SSA اضافه شده‌است، ببینیم. به طور مشابه، ما باید انتظار داشته باشیم که چت‌بات‌های حوزه باز جدید را ببینیم که براساس برخی از اصول «مینا» ساخته می‌شوند تا به تولید بعدی رابط‌های محاوره‌ای قدرت دهند.


منتشرشده در: سایت kdnuggets به تاریخ فوریه ۲۰۲۰
نویسنده: Jesus Rodriguez
لینک مقاله اصلی:https://www.kdnuggets.com/2020/02/inside-machine-learning-google-build-meena-chatbot.html

این مقاله توسط مترجم مقالات علمی تخصصی و به صورت خودکار و با حداقل بازبینی انسانی ترجمه شده است