من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
ارتباط نزدیک و شخصی با BERT - مدلزبانی اپوکساز گوگل
مقدمه
شبکههای عصبی برای پردازش زبان طبیعی (NLP) در سالهای اخیر به سرعت پیشرفت کردهاند. معماریهای ترانسفورمر به طور خاص نشان دادهاند که آنها در بسیاری از وظایف مختلف NLP به خوبی عمل میکنند و به نظر میرسد که به طور کلی ویژگیهای زبانی مفید را استخراج میکنند. مقاله اخیر گوگل برین به شبکه مبدل بسیار موفق گوگل - BERT - نگاهی میاندازد و نشان میدهد که چگونه اطلاعات زبانی را به صورت داخلی ارایه میدهد.
کارهای زیادی در زمینه تجزیه و تحلیل مدلهای پردازش زبان انجام شدهاست. این کار شامل استخراج ویژگیهای نحوی و نمایش هندسی درختهای پارس در فضای فعالسازی BERT است.
یک پسزمینه سریع بر روی BERT
برت مخفف نمایشهای کدگذار دو طرفه از ترانسفورمرها است. این سیستم به گونهای طراحی شدهاست که بازنماییهای دو جهته عمیق از متن را بدون برچسب با شرطی مشترک در زمینه چپ و راست پیش آموزش دهد. در نتیجه، مدل برت از پیش آموزشدیده میتواند به خوبی با تنها یک لایه خروجی اضافی تنظیم شود تا مدلهای پیشرفته برای طیف گستردهای از وظایف NLP ایجاد شود.
در قسمت بالا، برت به عنوان یک مدل NLP، به صورت دوجهتی آموزش داده میشود. زمانی که این آموزش دو طرفه معرفی شد، نوآوری اصلی آن بود. بیشتر مدلهای زبانی در آن زمان به یک رشته از متون آموزشی از چپ به راست یا از راست به چپ نگاه میکردند و سپس به طور بالقوه این تحلیلهای دو جهتی را با هم ترکیب میکردند.
برت بسیار فراتر از تولید ساده جملات با پیشبینی کلمه بعدی میرود. برت همچنین توانایی زیادی در انجام کارهایی مانند «پر کردن جای خالی» دارد، برت این کار را با تکنیکی به نام یادگیری ماشین ماسکهشده (Masked ML) انجام میدهد، که در آن به طور تصادفی کلمات را در یک جمله پنهان میکند و سپس سعی میکند کلمه پوشیده شده را پیشبینی کند. برت به هر دو جهت نگاه میکند و از متن کامل جمله، هم در اطراف چپ و هم در اطراف راست، برای پیشبینی کلمه ماسکدار استفاده میکند. بر خلاف مدلهای زبان قبلی مانند ELMo یا OpenAI GPT، این مدل هر دو نوع قبلی و بعدی را به طور همزمان در نظر میگیرد.
هندسه نحوی
مقاله گوگل برین، تجسم و اندازهگیری هندسه BERT، هندسه نحوی برت را به دو روش بررسی میکند. ابتدا به بررسی این مساله میپردازد که آیا ماتریسهای توجه ویژگیهای نحوی را کدگذاری میکنند یا خیر. سپس یک تحلیل ریاضی از تعبیه درخت ارایه میدهد.
این تحقیق براساس کار هویت و منینگ انجام شدهاست. قبل از ادامه، بیایید تعریف مشترک نحو و مفهوم درخت پارس را بررسی کنیم.
«هنگام فکر کردن به زبان انگلیسی (و بسیاری دیگر)، معنی یک جمله با پیوند تکههای کوچک کلمات با یکدیگر ساخته میشود، و تکههای بزرگ متوالی با معانی پیچیدهتر را به دست میآورد تا زمانی که جمله به طور کامل شکل بگیرد. ترتیب ترکیب این قطعات یک سلسلهمراتب ساختار یافته درختی ایجاد میکند» هر جمله سلسلهمراتب ساختار یافته درختی به عنوان یک درخت پارس و پدیده به طور گسترده نحو نامیده میشود.
در ادامه در مورد چگونگی ایجاد یک بردار توجه گسترده مدل بحث خواهیم کرد.
پروبهای توجه و بازنمایی وابستگیها
نویسندگان از ماتریسهای توجه برای تحلیل روابط بین جفت کلمات استفاده میکنند. نویسندگان یک پروب توجه را معرفی میکنند، که به عنوان یک وظیفه برای یک جفت نشانه (نشانه i، نشانه j) تعریف میشود، که در آن ورودی یک بردار توجه گسترده مدل است. فرض بر این است که بردار توجه گسترده مدل، روابط بین این دو نشانه را کدگذاری میکند. شکل ۱. بردار توجه گسترده مدل را نشان میدهد.
در اینجا به این شکل میتوانیم یک بردار توجه تک مدلی برای نشانههای i و j بسازیم.یک توالی ورودی از ۱۰ نماد را در نظر بگیرید (همانطور که در شکل ۱ نشانداده شدهاست). میتوانیم این جمله را به عنوان توالی بردارها (در برخی از فضای برداری) و توجه به آن را به عنوان یک عملیات کدگذاری در نظر بگیریم که این بردارها را به فضای برداری دیگر نگاشت میکند. هدف این عملیات کدگذاری به طور همزمان بدست آوردن ویژگیهای نحوی و معنایی مختلف در مجموعه بردارها است. هر عملیات کدگذاری مربوط به یک سر توجه خاص است که توسط ماتریس توجه نشان داده میشود. هر لایه ممکن است چندین عملیات کدگذاری داشته باشد، همراه با تشکیل یک ساختار توجه چند سر. بردار توجه گسترده مدل با الحاق ورودیهای a _ { i، j } در هر ماتریس توجه از هر سر توجه در هر لایه شکل میگیرد. این بردار توجه ورودی کاوشگر توجه میشود که سعی در شناسایی وجود و نوع وابستگی بین دو نشانه دارد.
آزمایشها و نتایج:
برپاسازی آزمایش
آزمایش اول محققان شامل اجرای توالیها از طریق برت برای به دست آوردن بردارهای توجه گسترده مدل مربوطه بین هر نشانه در توالی به استثنای «شروع جمله» و «پایان جمله» [SEP] و [ CLS ] در شکل ۱.
مجموعه دادهها برای این آزمایش، مجموعهای از جملات تقسیمشده از پن تریبانک بود. گرامر حوزه مجموعه داده برای جملات با استفاده از کتابخانه PyStanfordDependencies به یک دستور وابستگی ترجمه شد.
هنگامی که بردار توجه گسترده مدل بدست آمد، دو طبقهبندی کننده خطی تنظیمکننده L۲ با استفاده از نزول گرادیان تصادفی آموزش داده شدند. اولی یک طبقهبندی کننده باینری بود که برای پیشبینی اینکه آیا بردار توجه با وجود رابطه وابستگی بین دو نشانه متناظر است یا نه، استفاده شد. دومی، طبقهبندی کننده چند طبقهای بود که برای پیشبینی نوع رابطه وابستگی بین دو نشانه استفاده شد، با توجه به اینکه مدل اول وابستگیهای موجود بین نشانه را شناسایی میکند. نوع رابطه وابستگی روابط گرامری بین این دو نشانه را توصیف میکند. مثال زیر را در نظر بگیرید:
یک رابطه گرامری بین کلمات در جمله وجود دارد. در این حالت کلمات براساس راهنمای وابستگیهای تایپ شده استانفورد طبقهبندی میشوند.
- نوع nsubj: موضوع اسمی. نماینده یک رابطه درون جمله با اسم است. حاکم این رابطه ممکن است همیشه یک فعل نباشد: زمانی که فعل یک فعل پیوندی است، ریشه جمله مکمل فعل قاموسی است، که میتواند یک صفت یا اسم باشد.
- نوع acomp: متمم وصفی یک متمم وصفی یک فعل، یک جمله وصفی است که به عنوان متمم (مانند شی فعل) عمل میکند.
- نوع advmod: تعدیلکننده قید یک اصلاحکننده قید از یک کلمه، یک قید یا عبارت قید - سر است که به تغییر معنای کلمه کمک میکند.
همانطور که در مثال، می توان یک نمایش نموداری مستقیم از این وابستگیها ایجاد کرد که در آن کلمات در جمله، گرهها و روابط گرامری برچسبهای یالی هستند.
نتایج
در این آزمایش، طبقهبندی کننده باینری به دقت ۸۵.۸ درصد دست یافت، در حالی که دقت طبقهبندی کننده چند طبقه ۷۱.۹ درصد بود - نشان میدهد که اطلاعات نحوی در بردارهای توجه کدگذاری میشوند.
هندسه تعبیه درخت پارس
هنگامی که کلمات در فضای اقلیدسی جای میگیرند، طبیعی است که متریک اقلیدسی را به عنوان "فاصله" بین دو کلمه در نظر بگیریم. هویت و منینگ در کتاب خود به بررسی تعاریف ممکن از «فاصله» بین کلمات در درخت پارس پرداختند. یک تعریف از متریک مسیر d (w _ i، w _ j) به صورت تعداد یالها در مسیر بین دو کلمه در درخت تعریف میشود. درخت پارس زیر را در نظر بگیرید.
فاصله بین کلمات "chef" و "was" برابر با ۱ است (d(chef, was) = 1)، در حالی که فاصله بین کلمات "store" و "was" برابر با ۴ است (d(store, was) = 4) شکل زیر این را نشان میدهد.
هویت و منینگ مشاهده کردند که به نظر میرسد فاصله درخت پارس با مربع فاصله اقلیدسی مطابقت دارد. مقاله برت گوگل این تعریف را دقیقتر بررسی میکند و این سوال را مطرح میکند که آیا فاصله اقلیدسی یک متریک منطقی است؟
این مقاله ابتدا ایده را به نرمهای تعمیمیافته تعمیم میدهد که به صورت زیر تعریف میشوند:
یعنی، متریک d (x، y)نرم p تفاوت بین دو کلمه است که از یک جا عبور میکند. نویسندگان آزمایشی را برای تجسم رابطه بین تعبیه درخت پارس در برت و تعبیه دقیق توان ۲ انجام دادند. ورودی هر تجسم یک جمله از پن تریبانک با درختهای وابستگی همراه بود. نویسندگان تعبیه نمادین تولید شده توسط برت بزرگ در لایه ۱۶ را استخراج کردند، و آن را با ماتریس B "کاوش ساختاری" که توسط هویت و منینگ ارایه شده تبدیل کردند.
برای تجسم ساختار درخت، کلمات با یک رابطه وابستگی به یک یال متصل میشوند. رنگ هر یال انحراف از فاصله واقعی درخت را نشان میدهد. درخت پارس در شکل ۲. (چپ) کلمه "part" را به عنوان ریشه آن دارد، و در کنار آن، تعبیه طبق پروب هویت منینگ ارایه شده. علاوه بر این، جفت کلمات بدون رابطه وابستگی اما موقعیت آنها (قبل از تحلیل مولفههای اصلی) بسیار نزدیکتر از حد انتظار با یک خط نقطهچین متصل شدهاند. تصویر حاصل، هم شکل کلی اطلاعات قرار گرفته در درخت و هم اطلاعات ریز دانه در انحراف از یک توان - ۲ واقعی را نشان میدهد.
جالب است مشاهده میکنیم که پروب وابستگیهای مهمی را بین کلماتی که بلافاصله از درخت پارس مشخص نبودند، شناسایی میکند.
نتیجهگیری
محققان مجموعهای از آزمایشها را برای به دست آوردن بینشی در مورد نمایش داخلی اطلاعات زبانی برت ارایه میکنند، و نتایج تجربی را ارایه میدهند که نشاندهنده شواهدی از نمایش نحوی در ماتریسهای توجه است. آنها همچنین توجیه ریاضی را برای درخت مربع - مسافت تعبیه در کار هویت و منینگ فراهم میکنند.
چاپشده در: syncedreview به تاریخ ۱۸ فوریه ۲۰۲۰
نویسنده: Joshua Chou
لینک مقاله اصلی:https://medium.com/syncedreview/up-close-and-personal-with-bert-googles-epoch-making-language-model-305deeff044b
این مقاله توسط ربات هوشمند ترجمه انگلیسی به فارسی تخصصی و به صورت خودکار ترجمه شده و میتواند به صورت محدود دارای اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
۹ مورد از مهارتهای مدیریت تیمی موثر برای سال جدید
مطلبی دیگر از این انتشارات
تصاویر خیرهکننده جدید از ستاره پرجنبوجوش در مرکز منظومه شمسی، خورشید
مطلبی دیگر از این انتشارات
اینستاگرام پس از اینکه به سانسور محتوای حامی فلسطین متهم شد، در الگوریتم خود تغییراتی ایجاد کرد