ارتباط نزدیک و شخصی با BERT - مدل‌زبانی اپوک‌ساز گوگل

مقدمه

شبکه‌های عصبی برای پردازش زبان طبیعی (NLP) در سال‌های اخیر به سرعت پیشرفت کرده‌اند. معماری‌های ترانسفورمر به طور خاص نشان داده‌اند که آن‌ها در بسیاری از وظایف مختلف NLP به خوبی عمل می‌کنند و به نظر می‌رسد که به طور کلی ویژگی‌های زبانی مفید را استخراج می‌کنند. مقاله اخیر گوگل برین به شبکه مبدل بسیار موفق گوگل - BERT - نگاهی می‌اندازد و نشان می‌دهد که چگونه اطلاعات زبانی را به صورت داخلی ارایه می‌دهد.

کارهای زیادی در زمینه تجزیه و تحلیل مدل‌های پردازش زبان انجام شده‌است. این کار شامل استخراج ویژگی‌های نحوی و نمایش هندسی درخت‌های پارس در فضای فعال‌سازی BERT است.

یک پس‌زمینه سریع بر روی BERT

برت مخفف نمایش‌های کدگذار دو طرفه از ترانسفورمرها است. این سیستم به گونه‌ای طراحی شده‌است که بازنمایی‌های دو جهته عمیق از متن را بدون برچسب با شرطی مشترک در زمینه چپ و راست پیش آموزش دهد. در نتیجه، مدل برت از پیش آموزش‌دیده می‌تواند به خوبی با تنها یک لایه خروجی اضافی تنظیم شود تا مدل‌های پیشرفته برای طیف گسترده‌ای از وظایف NLP ایجاد شود.

در قسمت بالا، برت به عنوان یک مدل NLP، به صورت دوجهتی آموزش داده می‌شود. زمانی که این آموزش دو طرفه معرفی شد، نوآوری اصلی آن بود. بیشتر مدل‌های زبانی در آن زمان به یک رشته از متون آموزشی از چپ به راست یا از راست به چپ نگاه می‌کردند و سپس به طور بالقوه این تحلیل‌های دو جهتی را با هم ترکیب می‌کردند.

برت بسیار فراتر از تولید ساده جملات با پیش‌بینی کلمه بعدی می‌رود. برت همچنین توانایی زیادی در انجام کارهایی مانند «پر کردن جای خالی» دارد، برت این کار را با تکنیکی به نام یادگیری ماشین ماسکه‌شده (Masked ML) انجام می‌دهد، که در آن به طور تصادفی کلمات را در یک جمله پنهان می‌کند و سپس سعی می‌کند کلمه پوشیده شده را پیش‌بینی کند. برت به هر دو جهت نگاه می‌کند و از متن کامل جمله، هم در اطراف چپ و هم در اطراف راست، برای پیش‌بینی کلمه ماسک‌دار استفاده می‌کند. بر خلاف مدل‌های زبان قبلی مانند ELMo یا OpenAI GPT، این مدل هر دو نوع قبلی و بعدی را به طور همزمان در نظر می‌گیرد.

هندسه نحوی

مقاله گوگل برین، تجسم و اندازه‌گیری هندسه BERT، هندسه نحوی برت را به دو روش بررسی می‌کند. ابتدا به بررسی این مساله می‌پردازد که آیا ماتریس‌های توجه ویژگی‌های نحوی را کدگذاری می‌کنند یا خیر. سپس یک تحلیل ریاضی از تعبیه درخت ارایه می‌دهد.

این تحقیق براساس کار هویت و منینگ انجام شده‌است. قبل از ادامه، بیایید تعریف مشترک نحو و مفهوم درخت پارس را بررسی کنیم.

«هنگام فکر کردن به زبان انگلیسی (و بسیاری دیگر)، معنی یک جمله با پیوند تکه‌های کوچک کلمات با یکدیگر ساخته می‌شود، و تکه‌های بزرگ متوالی با معانی پیچیده‌تر را به دست می‌آورد تا زمانی که جمله به طور کامل شکل بگیرد. ترتیب ترکیب این قطعات یک سلسله‌مراتب ساختار یافته درختی ایجاد می‌کند» هر جمله سلسله‌مراتب ساختار یافته درختی به عنوان یک درخت پارس و پدیده به طور گسترده نحو نامیده می‌شود.

در ادامه در مورد چگونگی ایجاد یک بردار توجه گسترده مدل بحث خواهیم کرد.

پروب‌های توجه و بازنمایی وابستگی‌ها

نویسندگان از ماتریس‌های توجه برای تحلیل روابط بین جفت کلمات استفاده می‌کنند. نویسندگان یک پروب توجه را معرفی می‌کنند، که به عنوان یک وظیفه برای یک جفت نشانه (نشانه i، نشانه j) تعریف می‌شود، که در آن ورودی یک بردار توجه گسترده مدل است. فرض بر این است که بردار توجه گسترده مدل، روابط بین این دو نشانه را کدگذاری می‌کند. شکل ۱. بردار توجه گسترده مدل را نشان می‌دهد.

بردار توجه مدل گسترده برای یک جفت نشانه دارای مقادیر توجه اسکالار برای آن جفت در تمام سرها و لایه‌های توجه است.
بردار توجه مدل گسترده برای یک جفت نشانه دارای مقادیر توجه اسکالار برای آن جفت در تمام سرها و لایه‌های توجه است.

در اینجا به این شکل می‌توانیم یک بردار توجه تک مدلی برای نشانه‌های i و j بسازیم.یک توالی ورودی از ۱۰ نماد را در نظر بگیرید (همانطور که در شکل ۱ نشان‌داده شده‌است). می‌توانیم این جمله را به عنوان توالی بردارها (در برخی از فضای برداری) و توجه به آن را به عنوان یک عملیات کدگذاری در نظر بگیریم که این بردارها را به فضای برداری دیگر نگاشت می‌کند. هدف این عملیات کدگذاری به طور همزمان بدست آوردن ویژگی‌های نحوی و معنایی مختلف در مجموعه بردارها است. هر عملیات کدگذاری مربوط به یک سر توجه خاص است که توسط ماتریس توجه نشان داده می‌شود. هر لایه ممکن است چندین عملیات کدگذاری داشته باشد، همراه با تشکیل یک ساختار توجه چند سر. بردار توجه گسترده مدل با الحاق ورودی‌های a _ { i، j } در هر ماتریس توجه از هر سر توجه در هر لایه شکل می‌گیرد. این بردار توجه ورودی کاوشگر توجه می‌شود که سعی در شناسایی وجود و نوع وابستگی بین دو نشانه دارد.

آزمایش‌ها و نتایج:

برپاسازی آزمایش

آزمایش اول محققان شامل اجرای توالی‌ها از طریق برت برای به دست آوردن بردارهای توجه گسترده مدل مربوطه بین هر نشانه در توالی به استثنای «شروع جمله» و «پایان جمله» [SEP] و [ CLS ] در شکل ۱.

مجموعه داده‌ها برای این آزمایش، مجموعه‌ای از جملات تقسیم‌شده از پن تریبانک بود. گرامر حوزه مجموعه داده برای جملات با استفاده از کتابخانه PyStanfordDependencies به یک دستور وابستگی ترجمه شد.

هنگامی که بردار توجه گسترده مدل بدست آمد، دو طبقه‌بندی کننده خطی تنظیم‌کننده L۲ با استفاده از نزول گرادیان تصادفی آموزش داده شدند. اولی یک طبقه‌بندی کننده باینری بود که برای پیش‌بینی اینکه آیا بردار توجه با وجود رابطه وابستگی بین دو نشانه متناظر است یا نه، استفاده شد. دومی، طبقه‌بندی کننده چند طبقه‌ای بود که برای پیش‌بینی نوع رابطه وابستگی بین دو نشانه استفاده شد، با توجه به اینکه مدل اول وابستگی‌های موجود بین نشانه را شناسایی می‌کند. نوع رابطه وابستگی روابط گرامری بین این دو نشانه را توصیف می‌کند. مثال زیر را در نظر بگیرید:

یک رابطه گرامری بین کلمات در جمله وجود دارد. در این حالت کلمات براساس راهنمای وابستگی‌های تایپ شده استانفورد طبقه‌بندی می‌شوند.

  • نوع nsubj: موضوع اسمی. نماینده یک رابطه درون جمله با اسم است. حاکم این رابطه ممکن است همیشه یک فعل نباشد: زمانی که فعل یک فعل پیوندی است، ریشه جمله مکمل فعل قاموسی است، که می‌تواند یک صفت یا اسم باشد.
  • نوع acomp: متمم وصفی یک متمم وصفی یک فعل، یک جمله وصفی است که به عنوان متمم (مانند شی فعل) عمل می‌کند.
  • نوع advmod: تعدیل‌کننده قید یک اصلاح‌کننده قید از یک کلمه، یک قید یا عبارت قید - سر است که به تغییر معنای کلمه کمک می‌کند.

همانطور که در مثال، می توان یک نمایش نموداری مستقیم از این وابستگی‌ها ایجاد کرد که در آن کلمات در جمله، گره‌ها و روابط گرامری برچسب‌های یالی هستند.

نتایج

در این آزمایش، طبقه‌بندی کننده باینری به دقت ۸۵.۸ درصد دست یافت، در حالی که دقت طبقه‌بندی کننده چند طبقه ۷۱.۹ درصد بود - نشان می‌دهد که اطلاعات نحوی در بردارهای توجه کدگذاری می‌شوند.

هندسه تعبیه درخت پارس

هنگامی که کلمات در فضای اقلیدسی جای می‌گیرند، طبیعی است که متریک اقلیدسی را به عنوان "فاصله" بین دو کلمه در نظر بگیریم. هویت و منینگ در کتاب خود به بررسی تعاریف ممکن از «فاصله» بین کلمات در درخت پارس پرداختند. یک تعریف از متریک مسیر d (w _ i، w _ j) به صورت تعداد یال‌ها در مسیر بین دو کلمه در درخت تعریف می‌شود. درخت پارس زیر را در نظر بگیرید.

فاصله بین کلمات "chef" و "was" برابر با ۱ است (d(chef, was) = 1)، در حالی که فاصله بین کلمات "store" و "was" برابر با ۴ است (d(store, was) = 4) شکل زیر این را نشان می‌دهد.

هویت و منینگ مشاهده کردند که به نظر می‌رسد فاصله درخت پارس با مربع فاصله اقلیدسی مطابقت دارد. مقاله برت گوگل این تعریف را دقیق‌تر بررسی می‌کند و این سوال را مطرح می‌کند که آیا فاصله اقلیدسی یک متریک منطقی است؟

این مقاله ابتدا ایده را به نرم‌های تعمیم‌یافته تعمیم می‌دهد که به صورت زیر تعریف می‌شوند:

یعنی، متریک d (x، y)نرم p تفاوت بین دو کلمه است که از یک جا عبور می‌کند. نویسندگان آزمایشی را برای تجسم رابطه بین تعبیه درخت پارس در برت و تعبیه دقیق توان ۲ انجام دادند. ورودی هر تجسم یک جمله از پن تریبانک با درخت‌های وابستگی همراه بود. نویسندگان تعبیه نمادین تولید شده توسط برت بزرگ در لایه ۱۶ را استخراج کردند، و آن را با ماتریس B "کاوش ساختاری" که توسط هویت و منینگ ارایه شده تبدیل کردند.

برای تجسم ساختار درخت، کلمات با یک رابطه وابستگی به یک یال متصل می‌شوند. رنگ هر یال انحراف از فاصله واقعی درخت را نشان می‌دهد. درخت پارس در شکل ۲. (چپ) کلمه "part" را به عنوان ریشه آن دارد، و در کنار آن، تعبیه طبق پروب هویت منینگ ارایه شده. علاوه بر این، جفت کلمات بدون رابطه وابستگی اما موقعیت آن‌ها (قبل از تحلیل مولفه‌های اصلی) بسیار نزدیک‌تر از حد انتظار با یک خط نقطه‌چین متصل شده‌اند. تصویر حاصل، هم شکل کلی اطلاعات قرار گرفته در درخت و هم اطلاعات ریز دانه در انحراف از یک توان - ۲ واقعی را نشان می‌دهد.

جالب است مشاهده می‌کنیم که پروب وابستگی‌های مهمی را بین کلماتی که بلافاصله از درخت پارس مشخص نبودند، شناسایی می‌کند.

نتیجه‌گیری

محققان مجموعه‌ای از آزمایش‌ها را برای به دست آوردن بینشی در مورد نمایش داخلی اطلاعات زبانی برت ارایه می‌کنند، و نتایج تجربی را ارایه می‌دهند که نشان‌دهنده شواهدی از نمایش نحوی در ماتریس‌های توجه است. آن‌ها همچنین توجیه ریاضی را برای درخت مربع - مسافت تعبیه در کار هویت و منینگ فراهم می‌کنند.


چاپ‌شده در: syncedreview به تاریخ ۱۸ فوریه ۲۰۲۰
نویسنده: Joshua Chou
لینک مقاله اصلی:https://medium.com/syncedreview/up-close-and-personal-with-bert-googles-epoch-making-language-model-305deeff044b

این مقاله توسط ربات هوشمند ترجمه انگلیسی به فارسی تخصصی و به صورت خودکار ترجمه شده و می‌تواند به صورت محدود دارای اشکالات ترجمه باشد.