در این مطلب قصد داریم برای شما در مورد الگوریتم برت گوگل صحبت کنیم و حمایت از یک وبینار SEJ و الگوریتم جدید گوگل و چه چالشهایی برای حل BERT کمک میکند؟ ،LNP مبتنی بر هستیشناسی و ابهام و چند سندی را برایتان شرح دهیم.
جدیدترین بهروزرسانی الگوریتمی گوگل، BERT ، به Google کمک خواهد کرد زبان طبیعی، بهویژه در جستجوی مکالمه را بهتر درک کند.گوگل برت حدود 10٪ از سؤالات را تحت تأثیر قرار خواهد داد. همچنین بر رتبهبندی ارگانیک و قطعههای ویژه تأثیر خواهد گذاشت؛ بنابراین این تغییر کمی نیست!
اما آیا میدانید BERT فقط یک بهروزرسانی الگوریتمی نیست، بلکه یک مقاله تحقیقاتی می باشد و یک چارچوب پردازش زبان طبیعی برای یادگیری ماشین می باشد؟
در واقع، در سال قبل از اجرای آن، BERT باعث طوفانی شدید فعالیت در جستجوی تولید شده است.
در 20 نوامبر، من یک وبینار موتور جستجوگر مجله را ارائه کردم که توسط داون اندرسون، مدیرعامل در Bertey ارائه شد.
اندرسون توضیح داد که BERT گوگل واقعاً چیست و چگونه کار میکند، چگونه بر جستجو تأثیر میگذارد و اینکه آیا میتوانید محتوای خود را برای آن بهینه کنید.
BERT ، مخفف Bidirectional Encoder Representations from Transformers ، در واقع موارد بسیاری است.
این محبوبیت بیشتر بهعنوان عنصر / ابزار / چارچوب الگوریتم جستجوی گوگل به نام Google BERT شناخته میشود که هدف آن کمک به جستجو در درک بهتر تفاوتهای متن و متن کلمات در جستجوها و مطابقت بهتر این سؤالات با نتایج مفید می باشد.-
BERT همچنین یک پروژه تحقیقاتی منبع باز و مقاله دانشگاهی است. اولینبار در اکتبر 2018 با عنوان BERT منتشر شد: پیش از آموزش ترانسفورماتورهای دوطرفه عمیق برای درک زبان، این مقاله توسط Jacob Devlin ، Ming-Wei Chang ، Kenton Lee ، Kristina Toutanova تألیف شد.
علاوه بر این، BERT یک چارچوب NLP برای پردازش زبان طبیعی است که گوگل آن را تولید کرده و سپس منابع آن را بهصورت منبع آزاد بازکرده است، بهطوریکه کل زمینه تحقیقاتی پردازش زبان طبیعی میتواند در کل درک زبان طبیعی بهتر شود.
احتمالاً متوجه خواهید شد که بیشتر موارد ذکر شده در مورد BERT آنلاین مربوط به بهروزرسانی Google BERT نیست.
مقالات واقعی بسیاری در مورد BERT توسط محققان دیگر در حال انجام است که از آنچه شما بهعنوان بهروزرسانی الگوریتم Google BERT در نظر میگیرید استفاده نمیکند.
BERT درک زبان طبیعی NLU را بیش از هر چیز به طرز چشمگیری تسریع کرده است و حرکت گوگل به منبع باز BERT احتمالاً پردازش زبان طبیعی را برای همیشه تغییر داده است.
جوامع ML و NLP که یادگیری ماشینی دارند از BERT بسیار هیجانزده هستند زیرا برای انجام تحقیقات به زبان طبیعی مقدار زیادی سنگینوزن لازم است. در بسیاری از کلمات - و در کل ویکیپدیای انگلیسی 2500 میلیون کلمه - آموزشدیده است.
Vanilla BERT یکلایه شروع از قبل آموزشدیده برای شبکههای عصبی در یادگیری ماشین و کارهای مختلف زبان طبیعی ارائه میدهد.
درحالیکه BERT از قبل در ویکیپدیا آموزشدیده است، در مورد مجموعه دادههای پرسشوپاسخ بهخوبی تنظیم شده است.
یکی از آن مجموعه دادههای پرسشوپاسخ که میتوان بهصورت دقیق آن را تنظیم کرد، MS MARCO نام دارد: یک مجموعه اطلاعاتی برای درک مطلب خواندن مقاله انسانی تولید شده توسط مایکروسافت سؤالات و پاسخهای واقعی Bing
سؤالات ناشناس از کاربران واقعی Bing وجود دارد که در یک مجموعه داده با پرسشوپاسخ برای محققان ML و NLP تنظیم شده است و سپس آنها در واقع برای ساخت بهترین مدل با یکدیگر رقابت میکنند.
محققان همچنین بر سر درک زبان طبیعی با SQuAD (مجموعه دادههای سؤال استنفورد) رقابت میکنند. BERT اکنون حتی معیار استدلال انسانی را در SQuAD شکست میدهد.
آیا میخواهید در مقابل بازاریابان سختگیر و تصمیم گیرندگان تجاری قرار بگیرید؟ تخصص برند خود را در معرض دید افرادی قرار دهید که هنگام حمایت مالی از یک وبینار SEJ ThinkTank مهم هستند.بسیاری از شرکتهای بزرگ هوش مصنوعی نیز در حال ساخت نسخههای BERT هستند:
مایکروسافت با MT-DNN شبکه عصبی عمیق چندمنظوره BERT را گسترش میدهد .
معیار SuperGLUE ایجاد شده است زیرا معیار اصلی GLUE بسیار آسان شده است.
مواردی وجود دارد که ما انسانها بهراحتی میفهمیم که ماشینآلات از جمله موتورهای جستجو اصلاً نمیفهمند.
مشکل کلمات این است که آنها همهجا هستند. محتوای بیشتر و بیشتری در آنجا موجود است کلمات مشکلساز هستند زیرا بسیاری از آنها مبهم، چند شبه و مترادف هستند.
Bert برای کمک به حل جملات و عبارات مبهم طراحی شده است که از تعداد زیادی کلمه با چندین معنی تشکیل شده است.
تقریباً هر کلمه دیگر در زبان انگلیسی معانی متعددی دارد. در کلمات گفتاری، به دلیل همخوانی و عروض بدتر است.به عنوانمثال، "چهار شمع" و "دسته چنگال" برای کسانی که لهجه انگلیسی دارند. مثال دیگر: شوخیهای کمدینها بیشتر مبتنی بر بازی با کلمات است زیرا برداشت از کلمات بسیار آسان است.
این برای ما انسانها چالشبرانگیز نیست زیرا ما عقل و منطق مشترکی داریم بنابراین میتوانیم تمام کلمات دیگری را که در زمینه شرایط یا مکالمه احاطه شدهاند درک کنیم - اما موتورها و ماشینهای جستجو چنین نیستند.این امر برای جستجوی گفتگو در آینده خوب نیست. و در آشنایی با گوگل برت مشکل ساز است
"معنی یک کلمه استفاده از آن در یک زبان است." - لودویگ ویتگنشتاین، فیلسوف، 1953
اساساً، این بدان معنی است که یک کلمه معنی ندارد مگر اینکه در یک زمینه خاص استفاده شود.
معنای یک کلمه به معنای واقعی کلمه درحالیکه یک جمله به وجود میآید، به دلیل قسمتهای مختلف گفتاری که یک کلمه میتواند در یک زمینه خاص باشد، تغییر میکند.
به طور مثال، فقط در یک جمله کوتاه میتوانیم ببینیم "من روشی را دوست دارم که به شکل دیگر است." بهتنهایی با استفاده از برچسب بخش گفتار استنفورد که کلمه "مانند" دو قسمت جداگانه گفتار (POS) در نظر گرفته میشود.کلمه "مانند" ممکن است بهعنوان بخشهای مختلف گفتار از جمله فعل، اسم و صفت استفاده شود.بنابراین به معنای واقعی کلمه، کلمه "مانند" معنی ندارد زیرا میتواند به معنی هر چیزی باشد که آن را احاطه کرده است. متن "مانند" باتوجهبه معنی کلمات اطراف آن تغییر میکند.
هرچه این جمله طولانیتر باشد، پیگیری تمام قسمتهای مختلف گفتار در جمله دشوارتر است.
درLNR و NLU شناخت زبان طبیعی درک نیست
درک زبان طبیعی مستلزم درک درستی از زمینه و استدلال عقل سلیم است. این برای ماشینها بسیار چالشبرانگیز است اما برای انسانها بسیار ساده است.درک زبان طبیعی دادههای ساختاری نیست
همه افراد یا موارد موجود در نمودار دانش ترسیم نشدهاند هنوز جای خالی زیادی برای پرکردن وجود دارد. در اینجا یک مثال آورده شده است.
همانطور که در اینجا مشاهده میکنید، ما همه این موجودات و روابط بین آنها را داریم. اینجا جایی است که NLU وارد عمل میشود زیرا وظیفه دارد به موتورهای جستجو کمک کند تا شکاف بین موجودیتهای نامگذاری شده را پر کنند.