در این مطلب قصد داریم در مورد مزایایی که الگوریتم برت دارد صحبت کنیم و در مورد مدلهای فضایی برداری برای تعبیه کلمات صحبت می کنیم و در مورد اینکه BERT به چه نوع وظایف زبان طبیعی کمک میکند؟ صحبت می کنیم و خواهیم گفت BERT چگونه بر جستجو تأثیر میگذارد؟
ابهامزدایی از زبان طبیعی
"شما باید یک کلمه را توسط شرکتی که نگهداری میکند بدانید." - جان روپرت فرث، زبانشناس، 1957
کلماتی که با هم زندگی میکنند به شدت با هم مرتبط می باشند:
همزمانی
همزمانی زمینه را فراهم خواهد کرد.
همزمانی معنای یک کلمه را تغییر میدهد.
کلماتی که همسایگان مشابهی دارند نیز به شدت به هم مرتبط می باشند
شباهت و قرابت.
مدلهای زبانی برای شرکتهای متنی بسیار بزرگ یا مجموعهای از انبوه کلمات برای یادگیری شباهت توزیعی آموزش داده میشوند.
نمایش برداری کلمات (وکتورهای Word)نمایش برداری کلمات (بردارهای کلمه)
models و ساخت مدلهای بردار فضایی برای تعبیه کلمات.
مدلهای NLP وزنهای شباهت و فاصلههای مربوط را یاد میگیرند. اما حتی اگر خود موجودیت (چیز) را نیز بفهمیم، باید متن word را درک کنیم
بهتنهایی کلمات منفرد معنایی ندارند بنابراین به انسجام متن نیاز دارند. انسجام پیوند دستوری و واژگانی در متن یا جملهای می باشد که متن را در کنار هم نگهداشته و به آن معنا میبخشد.
زمینه معنایی مهم است. بدون کلمات پیرامونی، کلمه "سطل" میتواند در یک جمله معنی داشته باشد.
به سطل لگد زد.
من هنوز نتوانستهام از لیست سطلهایم عبور کنم.
سطل پرازآب شد.
بخش مهمی از این برچسبگذاری بخشی از گفتار (POS) است:
POS Tagging
BERT چگونه کار میکند
مدلهای زبان گذشته (مانند Word2Vec و Glove2Vec) تعبیه کلمات بدون متن را ایجاد کردند. از طرف دیگر، زمینه bert را فراهم میکند.
برای درک بهتر نحوه کار BERT ، بیایید بررسی کنیم که اختصار مخفف چیست.
قبلاً همه مدلهای زبانی (بهعنوانمثال Skip-gram و Continuous Bag of Words) یکجهته بودند بنابراین فقط میتوانستند پنجره زمینه را در یکجهت حرکت دهند - پنجره متحرک کلمات "n" (چپ یا راست کلمه موردنظر) برای درک متن کلمه
مدلساز یکطرفه زبان مدلساز زبان یکجهته
بیشتر مدل سازهای زبان یکجهته هستند. آنها میتوانند از پنجره زمینه کلمه فقط از چپ به راست یا راست به چپ عبور کنند. فقط در یکجهت، اما نه هر دو در یکزمان.
BERT متفاوت است. BERT از مدلسازی دو جهته زبان استفاده میکند که اولین است
BERTBERT میتواند هم سمت چپ و هم سمت راست کلمه موردنظر را ببیند.
BERT میتواند جمله WHOLE را در هر دو طرف یک کلمه مدلسازی زبان متنی و همه کلمات را تقریباً یکباره مشاهده کند.
ER: نمایندگی رمزگذار
آنچه رمزگذاری میشود رمزگشایی میشود
. این مکانیسم ورود و خروج می باشد.
T: ترانسفورماتورها
BERT از "ترانسفورماتورها" و "مدلسازی زبان نقابدار" استفاده میکند.
یکی از مسائل مهم در درک زبان طبیعی درگذشته این بوده است که نتوانسته است درک کند که یک کلمه به چه زمینهای اشاره دارد.
بهعنوانمثال ضمایر. خیلی راحت میتوان رد کرد که کسی در یک مکالمه در مورد چه کسی صحبت میکند. حتی انسانها میتوانند تلاش کنند تا دائماً در مورد افرادی که در مکالمه به آنها رجوع میکنند پیگیر باشند.
این برای موتورهای جستجو بهنوعی مشابه می باشد، اما آنها تلاش میکنند تا وقتی شما میگویید ا آنها، او، ما، آن و غیره پیگیری کنند.
بنابراین بخش توجه ترانسفورماتورها در واقع به ضمیرها و تمام معانی کلمات متمرکز می باشد که با هم سعی میکنند با چه کسی صحبت شود یا در هر زمینه خاصی چه چیزی صحبت میشود.
مدلسازی زبان ماسک دار کلمه موردنظر را از دیدن خود متوقف میکند. این ماسک موردنیاز است زیرا مانع از آن میشود که کلمه تحت تمرکز واقعاً خود را ببیند.
وقتی ماسک در جای خود قرار دارد، BERT فقط حدس میزند که کلمه گمشده چیست. این نیز بخشی از روند تنظیم دقیق می باشد.
برت در مواردی مانند:
تعیین موجودیت
پیشبینی جمله بعدی مستلزم متن
وضوح هسته
پاسخ سؤال
ابهامزدایی از کلمه.
جمعبندی خودکار
رزولوشن چندمی
BERT معیارهای پیشرفته (SOTA) را در 11 کار NLP پیشرفت داده است.
BERT به Google کمک خواهد کرد تا زبان انسان را بهتر درک کند
درک BERT از تفاوتهای ظریف زبان انسانی تفاوت چشمگیری در نحوه تفسیر گوگل از سؤالات ایجاد خواهد کرد زیرا افراد به طور واضح با پرسشهای طولانیتر و پرسشگرانه در حال جستجو هستند.
BERT همچنین تأثیر زیادی در جستجوی صوتی خواهد داشت بهعنوان جایگزینی برای Pygmalion دارای مشکل. آشنایی با گوگل برت
BERT از این توانایی تک زبانی تا چند زبانی برخوردار می باشد زیرا بسیاری از الگوها در یک زبان به زبانهای دیگر ترجمه میشود.
این امکان وجود دارد که بسیاری از آموختهها را به زبانهای مختلف منتقل کنید حتی اگر لزوماً خود زبان را به طور کامل درک نکند.
Google بهتر "نکات متنی" و سؤالات مبهم را درک میکند
بسیاری از مردم از اینکه رتبههای آنها تحت تأثیر قرار گرفته شکایت دارند
اما من فکر میکنم که این احتمالاً بیشتر به این دلیل است که گوگل بهنوعی در درک متن ظریف سؤالات و متن ظریف محتوا بهتر شده است.
بنابراین شاید، Google بهتر بتواند تفاوتهای متنی و سؤالات مبهم را درک کند.
آیا باید (یا میتوانید) محتوای خود را برای BERT بهینه کنید؟
احتمالاً نه.
گوگل برت چارچوبی برای درک بهتر می باشد. این بهخودیخود محتوا را قضاوت نمیکند. این فقط بهتر میفهمد چه چیزی وجود دارد.
بهعنوانمثال، ممکن است گوگل برت ناگهان چیزهای بیشتری را بفهمد و شاید صفحاتی وجود داشته باشد که بیش از حد بهینه شدهاند و ممکن است تحت تأثیر چیز دیگری مانند Panda قرار بگیرند زیرا BERT گوگل ناگهان متوجه شد که یک صفحه خاص برای چیزی مناسب نیست.
این بدان معنا نیست که شما برای BERT بهینهسازی میکنید، احتمالاً بهتر می باشد در وهله اول فقط طبیعی بنویسید.