من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
داخل ماشین یادگیری که گوگل از آن برای ساخت «مینا» استفاده میکرد
«مینا» (MEENA) یکی از مهمترین نقاط عطف در تاریخ درک زبان طبیعی است. گوگل چگونه آن را ساختهاست؟ به نظر میرسد که گوگل قصد دارد هر ساله با پیشرفت شگفتانگیز جدیدی در سیستمهای درک زبان طبیعی، دنیای هوش مصنوعی را دچار شوک کند. سال گذشته، مدل BERT قطعا فضای تحقیقاتی NLU را به خود اختصاص داد. تنها چند هفته مانده تا سال ۲۰۲۰، گوگل ریسرچ مقاله جدیدی منتشر کرد که «مینا» را معرفی میکرد، یک مدل جدید یادگیری عمیق که میتواند به گپ باتها قدرت دهد که میتوانند در مکالمات درباره هر دامنه درگیر شوند.
مقاله معرفی «مینا» به دلیل اهمیت و پیچیدگی متن به زودی از سوی تیم ترجمه نسل جدید ترجمهشده و در وبلاگ ترجمیار منتشر میشود.
درک زبان طبیعی یکی از فعالترین حوزههای تحقیقاتی در چند سال اخیر بوده و تا به امروز برخی از پرکاربردترین سیستمهای هوش مصنوعی را ایجاد کردهاست. با این حال، با وجود تمام پیشرفتها، بیشتر سیستمهای محاورهای به شدت محدود به یک حوزه خاص هستند که با توانایی ما به عنوان انسانها برای صحبت طبیعی در مورد موضوعات مختلف در تضاد است. در نظریه NLU، آن عوامل مکالمه تخصصی به عنوان چتباتهای دامنه بسته شناخته میشوند. جایگزین، حوزه جدیدی از تحقیق است که با عنوان چتبات دامنه باز شناخته میشود و بر ایجاد نمایندگان مکالمه تمرکز دارد که تقریبا در مورد هر چیزی که کاربر میخواهد صحبت میکنند. اگر چتباتها در فضای باز موثر باشد، میتواند یک بخش کلیدی در سفر برای انسانی کردن تعاملات کامپیوتر باشد.
با وجود هیجان در مورد چتباتهای دامنه باز، اجرای فعلی هنوز ضعفهایی دارد که مانع از مفید بودن آنها میشود: آنها اغلب به ورودی باز به روشهایی پاسخ میدهند که منطقی نیستند، یا با پاسخهایی که مبهم و کلی هستند. گوگل با «مینا» تلاش میکند تا برخی از این چالشها را با ساخت یک چتبات با دامنه باز حل کند که میتواند تقریبا در مورد هر چیزی صحبت کند.
قبل از ساخت «مینا»، گوگل مجبور به حل یک چالش غیر بدیهی بود که اغلب در سیستمهای چتبات دامنه باز نادیده گرفته میشود. یک معیار کلیدی برای ارزیابی کیفیت یک چتبات دامنه باز این واقعیت است که محاوره آن برای انسان طبیعی است. این ایده به نظر شهودی میآید اما به طور باور نکردنی ذهنی است. چگونه میتوانیم شباهت انسانی یک مکالمه را اندازهگیری کنیم؟ گوگل برای پرداختن به این چالش با معرفی یک معیار جدید به عنوان سنگ بنای چاتبات «مینا» شروع کرد.
حساسیت و میانگین ویژگی
حساسیت و میانگین ویژگی (SSA) یک معیار جدید برای چتباتها دامنه باز است که در آن h ویژگیهای اصلی اما مهم برای مکالمه انسان را بدست میآورد. به طور خاص، SSA تلاش میکند تا دو جنبه کلیدی گفتگوهای انسانی را تعیین کند:
- منطقی بودن
- اختصاصی بودن.
دقت مسلما برخی از اساسیترین جنبههای شباهت انسانی مکالمه مانند حس مشترک و انسجام منطقی را پوشش میدهد. هم چنین حسپذیری جنبههای مهم دیگر یک چتبات مانند سازگاری را نیز در بر میگیرد.با این حال، معقول بودن کافی نیست. یک پاسخ عمومی (مثلا: من نمیدانم) میتواند معقول باشد، اما همچنین خستهکننده و غیر خاص است. چنین واکنشهایی اغلب توسط باتهایی ایجاد میشوند که با توجه به معیارهایی مانند حساسیت به تنهایی ارزیابی میشوند. ویژگی دومین معیاری است که میتواند به کمی کردن شباهت انسان به تعامل محاورهای کمک کند. برای مثال، A میگوید، «من عاشق تنیس هستم»، و B پاسخ میدهد، «خیلی خوب است»، سپس جمله باید علامتگذاری شود، "نه خاص". این پاسخ میتواند در دهها زمینه مختلف مورد استفاده قرار گیرد. با این حال، اگر B پاسخ دهد، «من هم نمیتوانم هماندازه راجر فدرر پول بگیرم!» آنگاه میگوییم که یک جمله اختصاصی در حوزه صحبت ایجاد کرده است.
معیار SSA f (حساسیت، ویژگی)
فرمولاسیون ریاضی واقعی متریک SSA بسیار پیچیده است اما آزمایشهای اولیه انجامشده توسط گوگل همبستگی قوی با شباهت انسان به یک چتبات را نشان داد. شکل زیر نشان میدهد که همبستگی برای چتباتها مختلف (نقاط آبی).
با فرمولبندی یک متریک قابلاندازهگیری برای ارزیابی شباهت انسان، گام بعدی ساخت یک ربات دامنه باز است که برای آن متریک بهینه شدهاست.
چتبات «مینا»
«مینا» یک مدل مکالمه عصبی انتها به انتها است که یاد میگیرد به طور منطقی به یک بافت مکالمه دادهشده پاسخ دهد. با کمال تعجب، «مینا» به معماری جدیدی متکی نیست، بلکه معماری انتقالی تکاملی (ET) که سال گذشته توسط گوگل ابداع شد، بهره میبرد.
معماری انتقالی تکاملی (ET)
همان طور که نام آن نشان میدهد، ET یک بهینهسازی بر روی معماریهای سنتی ترانسفورمر است که در وظایف NLU مشترک هستند. این بهینهسازیها نتیجه استفاده از جستجوی معماری عصبی (NAS) برای یک سری از مدلهای انتقالی مورد استفاده در سناریوهای NLU بودند.
در نگاه اول، ET شبیه بیشتر معماریهای شبکه عصبی انتقالی است. یک کدگذار دارد که توالی ورودی را به تعبیه و یک رمزگشا که از آن تعبیه برای ساخت یک توالی خروجی استفاده میکند؛ در مورد ترجمه، توالی ورودی جملهای است که باید ترجمه شود و توالی خروجی ترجمه است. با این حال، ET تغییرات جالبی را به مدلهای انتقالی اضافه میکند. جالبترین آنها لایههای کانولوشنال در پایین هر دو مدولهای رمزگذار و کدگشایی است که در یک الگوی شاخهای مشابه در هر دو مکان اضافه شدند. این بهینهسازی به ویژه جالب است زیرا معماریهای رمزگذار و رمزگشا در طول NAS به اشتراک گذاشته نمیشوند، بنابراین این معماری به طور مستقل به عنوان مفید بودن هم در رمزگذار و هم رمزگشا کشف شد، با توجه به قدرت این طراحی. در حالی که ترانسفورمر اصلی تنها بر خود - توجه تکیه دارد، ترانسفورمر تحول پذیر یک هیبرید است، و قدرت خود - توجه و کانولوشن گسترده را تقویت میکند.
«مینا» و ET
یک راه برای فکر کردن در مورد «مینا» به عنوان یک معماری کلان ET است. «مینا» دارای یک بلوک کدگذار ET و ۱۳ بلوک کدگشا انتقالی تکاملی است که در زیر نشانداده شدهاست. رمزگذار مسوول پردازش زمینه گفتگو برای کمک به «مینا» برای درک آنچه در حال حاضر در گفتگو گفته شدهاست، میباشد. رمزگشا سپس از آن اطلاعات برای تنظیم یک واکنش واقعی استفاده میکند. با تنظیم پارامترهای فوق، کشف کردیم که یک رمزگشا قویتر کلید کیفیت بالاتر مکالمه است.
یکی از چیزهایی که «مینا» نشان میدهد این است که وقتی بحث بر سر گفتگوهای آزاد است، اندازه مهم است. برای چندین دهه جامعه تحقیقاتی هوش مصنوعی در این باره بحث کردهاست که آیا به منظور رسیدن به نقطهای که در آن یک مدل میتواند گفتگوهای با کیفیت بالا و چند دوری با انسانها انجام دهد، ما میتوانیم به سادگی یک مدل انتها به انتها بگیریم و آن را بزرگتر کنیم - با اضافه کردن دادههای آموزشی بیشتر و افزایش تعداد پارامترهای آن - یا لازم است چنین مدلی را با اجزای دیگر ترکیب کنیم؟ «مینا» نشان داد که مدلهای بسیار بزرگ انتها به انتها میتوانند به عملکرد انسان مانند در تعاملات محاورهای دست یابند.
«مینا» چقدر بزرگ است؟ خوب، گزارش شدهاست که اولین نسخه «مینا» دارای ۲.۶ میلیارد پارامتر است و بر روی ۳۴۱ گیگابایت متن آموزشدیده است، که از مکالمات رسانههای اجتماعی حوزه عمومی فیلتر شدهاست. برای بیان این موضوع، در مقایسه با یک مدل مولد مدرن موجود، OpenAI GPT - ۲، «مینا» دارای ظرفیت مدل ۱.۷ برابر بزرگتر است و روی دادههای ۸.۵ برابر بیشتر آموزش داده شدهاست.
تستهای اولیه با «مینا» نشان داد که چتبات قادر به شرکت در گفتگوها در میان موضوعات مختلف و دستیابی به سطوح بالای SSA بود.
یکی از شگفتانگیزترین یافتهها در طول تحقیق «مینا»، همبستگی به نمایش گذاشته شده بین متریک SSA و شاخص عملکرد بهت معروف در مدلهای NLU بود. از نظر مفهومی، سردرگمی عدم قطعیت یک مدل زبانی را اندازهگیری میکند. هرچه پیچیدگی کمتر باشد، مدل در ایجاد نشانه بعدی (کاراکتر، زیرکلمه، یا کلمه)اعتماد به نفس بیشتری دارد. در طول تستها، معیار SSA و عوامل فردی آن (ویژگی و حساسیت)همبستگی قوی با شگفتی در گپ باتهای دامنه باز نشان دادند.
با توجه به الزامات عملکرد، «مینا» برای بسیاری از سازمانها خارج از دسترس است. با این حال، شکی نیست که «مینا» یک نقطه عطف مهم در اجرای رابطهای محاورهای است. علاوه بر خود مدل، «مینا» متریک SSA را ایجاد کرد که ما را به ارزیابی شباهت انسان به تعاملات چبوت نزدیکتر میکند. در آینده، ما باید دیگر ویژگیهای مکالمه انسانی مانند شوخی یا همدلی را که به معیار SSA اضافه شدهاست، ببینیم. به طور مشابه، ما باید انتظار داشته باشیم که چتباتهای حوزه باز جدید را ببینیم که براساس برخی از اصول «مینا» ساخته میشوند تا به تولید بعدی رابطهای محاورهای قدرت دهند.
منتشرشده در: سایت kdnuggets به تاریخ فوریه ۲۰۲۰
نویسنده: Jesus Rodriguez
لینک مقاله اصلی:https://www.kdnuggets.com/2020/02/inside-machine-learning-google-build-meena-chatbot.html
این مقاله توسط مترجم مقالات علمی تخصصی و به صورت خودکار و با حداقل بازبینی انسانی ترجمه شده است
مطلبی دیگر از این انتشارات
۱۱ مورد از بهترین موتورهای جستجوی تصویر
مطلبی دیگر از این انتشارات
تمام آنچه باید در مورد توابع Cut و Qcut پانداس بدانید
مطلبی دیگر از این انتشارات
یک کشف جدید میتواند نحوه ایجاد جهانهای مجازی توسط توسعهدهندگان را کاملا تغییر دهد