همه چیز درباره الگوریتم BERT December 2019
? فهمیدن قصد کاربر با توجه به BERT
?این مقاله در تاریخ 12 اکتبر 2019 از زبان پاندو نویاک (Pandu Nayak) معاون مدیر عامل گوگل درباره بهتر فهمیدن قصد کاربر در موتور جستجو نوشته شده است.
در این مقاله شما کاملا متوجه میشوید ، وقتی یک کلمه یا جمله توسط کاربر جستجو میشود ،موتور جستجو چه درکی نسبت به آن دارد؛ علاوه بر این موضوع سیر تکاملی این درک تا به امروز را با هم بررسی میکنیم.
?درک بهتر از جستجوها توسط تکنولوژیهای جدید از زبان (Pandu Nayak)
اگر یک چیز در طی این 15 سال یادگرفته باشم این است که حس کنجکاوی مردم در جستجو نامحدود است، ما روزانه با میلیاردها جستجو روبرو هستیم که معمولا 15 درصد این جستجوها تازه هستند و در گذشته دیده نشده اند .
? ما سعی کردیم راهکاری را بسازیم تا موتور جستجوی گوگل بتواند برای درخواستهایی که حتی برای آن پیش بینی نشده است نیز، نتایج مناسبی و جامعی به کاربر نشان دهد.
خیلی از مواقع هر فردی که قصد جستجو در گوگل را دارد ، بهترین روش را برای جستجوی موضوع مد نظرش نمیداند.(جست و جو عامیانه و به زبان خودشان صورت میگیرد).
?حتی در خیلی از مواقع افراد ساختار درست املایی کلمات را نیز نمی دانند(غلط املایی) و همین موضوع است که کمی کار را برای گوگل سخت کرده است.
در هسته گوگل، جستجو به معنای فهمیدن و یا درک زبان است و این کار ماست که متوجه شویم ، شما به دنبال چه چیزی هستید ، تا اطلاعات مورد نیاز و لازم در دنیای وب را در اختیار شما قرار دهیم .
اصلا مهم نیست که شما از لحاظ املایی کلمه را درست نوشته یا کلمه را همراه با کلمات دیگر به کار بردهایدباشید .
? معمولا فکر میکنید ما متوجه میشویم(ولی در اکثر مواقع ما متوجه منظور شما نمیشویم) و اگر دقت کنید درحالت عادی روزمره شاید سؤال خود را اینگونه نپرسید.
با توجه به آخرین پیشرفتهای تیم ما در علم درک و فهم زبان این امر توسط یادگیری ماشینی محقق شده است.
?یعنی ما به وسیله یادگیری ماشینی میتوانیم متوجه درخواست کاربران با هر پیچیدگی شویم ، پیشرفت ما در این حوزه کمک بسیار زیادی به رشد موتور جستجوگر گوگل کرده است.
استفاده از این روش خاص باعث ایجاد جهش بزرگی در این دنیای شگفت انگیز شده و میتوان از آن به عنوان بزرگترین پیشرفت دنیای موتورهای جستجو در 5 سال اخیر و یا حتی کل تاریخ موتورهای جستجو یاد کرد.
? استفاده از مدل BERT برای جستجو
سال گدشته ما یک سیستم Open Source (منبع باز) بر پایه شبکههای عصبی در پردازش زبان طبیعی به نام (Bidirectional Encoder Representations from Transformers) که مخفف آن BERT است معرفی کردیم ، این سیستم و تکنولوژی به ما اجازه میدهد تا متوجه هر گونه درخواستی شویم.
?مهم نیست شما برای جستجو از چه الگویی استفاده میکنید ،اگر حتی از نظر املایی نیز کلمه مورد نظر خود را اشتباه تایپ کنید ،باز هم این تکنولوژی متوجه موضوع مدنظر شما میشود.
این موفقیت حاصل تحقیقات و جستجو گوگل بر روی Transformers هاست ، درواقع مدلی هستند که ارتباط معنایی یک کلمه را با توجه به کلماتی که در آن جمله است متوجه میشوند.
? مدل BERT میتواند کل مفهوم (هدف) یک متن را بررسی کند تا بتواند مفهوم یک کلمه را متوجه شود و سپس با فهمیدن قصد کاربر نتایج مناسب را به او نمایش دهد.
برای استفاده از این مدل صرفا نرم افزار های جدید استفاده نمیشوند ، بلکه نیاز هست سخت افزارهای قدرتمندی نیز داشته باشیم .
? البته سیستم های سخت افزاری ما قدرت پردازشهای مورد نیاز را نداشت و ما مجبور بودیم از سیستمهای Cloud TPUs استفاده کنیم.
? بررسی جستجوهای شما
مدل BERT جزییات بسیار زیادی دارد ولی شاید سؤال اصلی این باشد که این همه تغییرات جزیی چه سودی برای کاربران دارد؟
?جواب بسیار ساده است؛ زمانی که این همه جزییات و تکنولوژی به موتور جست و جو برای درک هدف آنها اضافه شده است ،مطمئنا به کاربران کمک میکند تا نتایج بهتری برای هر جستجوی خود بدست بیاورند.
به طور مثال زمانی که این مدل وارد نتایج جستجو و Feature snippet ها شد ، طبیعتا کار کاربران را ساده تر کرد.
?همانطور که گفتیم به خصوص زمانی که شما به صورت عامیانه و محاورهای جستجو میکنید ، فقط به کلمه مورد نظر دقت نمیکند ، بلکه به قصد شما از جستجو و از سمتی به کل مفهوم محتوایی که قرار است به شما نمایش دهد ، توجه میکند.
همین موضوع موجب میشود که آینده جستجو بسیار قدرتمندتر گردد ، درواقع این اتفاق و دیگر ویژگی ها باعث تمایز گوگل از دیگر موتورهای جستجو شده است ، به همین دلیل بیشتر افراد در دنیا از این ابزار استفاده میکنند.
?یکی دیگر از چالشهای موجود در فهمیدن قصد کاربر استفاده از حروف اضافه میباشد ، به طوری که شاید اضافه یا کم کردن یک حرف اضافه به کلی منظور کاربر را عوض کند.
به طور مثال در زبان فارسی اگر به جای حرف اضافه "به" در جمله "رفتن به" از حرف اضافه " از" استفاده کنیم معنی جمله کاملا عوض میشود .
? در گذشته موتور جستجو به صورت کامل متوجه این موضوع نمیشد ولی با اضافه شدن BERT شرایط کاملا عوض شده و هدف و قصد کاربر درک میشود ، بنابراین نتایج نسبت به قصد او نمایش داده خواهد شد.
البته ما قبل از اینکه این سیستم را بر روی موتور جستجو سوار کنیم آزمایشات بسیار زیادی انجام دادیم تا از درست عمل کردن آن مطمئن شویم .
? درنهایت آنچه پیش بینی کرده ایم درست از آب درآمد ، در ادامه مثالی از این آزمایشات را شرح خواهیم داد تا بهتر متوجه این موضوع شوید.
? آزمایش گوگل برای امتحان BERT
گوکل برای اینکه مطمئن شود ،سعی کرد روی یک سری درخواست(QUERY) این موضوع را آزمایش کند ؛ جمله ای که انتخاب شده این بود " 2019 brazil traveler to usa need a visa" به این معنا که در سال 2019 کسانی که از برزیل به آمریکا مسافرت میکنند نیاز به ویزا دارند.
?این جمله بسیار مشخص است و موتور جستجوگر با فکر کردن به ارتباط معنایی بین کلمات یک جمله و حتی یک متن متوجه هدف اصلی شما از جستجو میشود.
ولی در گذشته وقتی شما این جستجو را انجام میدادید، گوگل این صفحه "U.S. citizens traveling to Brazil" را نیز در نتایج نشان میداد که شاید ربطی به جستجوی شما نداشت ، درواقع یک حرف اضافه این تمایز را ایجاد میکرده است.
? با وارد شدن BERT هوشمندی موتور جستجو درجهت درک هدف کاربر از جستجو افزایش یافته است.
در نتیجه مشخص شد که این سیستم میتواند هدف اصلی کاربران را متوجه شود ، بنابراین گوگل از آزمایش خود مطمئن شد.
? پیشرفت جستجو در زبانهای دیگر
با اینکه این سیستم کمک بسیار زیادی به دنیای جستجو میکند ولی باتوجه به ویژگیهایی که دارد، باید بتواند از جستجوهای کاربران در راستای رشد و درک بهتر دنیا چیزهای زیادی یاد بگیرد .
? در نتیجه این سیستم را بر روی زبان انگلیسی پیاده سازی کردند (زبان انگلیسی، زبانی است که اکثریت محتوای موجود در دنیای وب به این زبان منتشر شده است) و بعد از اینکه پیشرفتهایی لازم انجام شد این قابلیت بر روی زبانهای دیگر نیز پیاده سازی میشود.
از مدل برت BERT برای Feature Snippets ها نیز استفاده شده است که تا به امروز پیشرفتهای بسیار زیادی در چندین زبان (کرهای و پرتغالی) در فیچر اسنیپتها رخ داده است ، امیدواریم این مدل از زبان فارسی نیز در آینده پشتیبانی کند.
? اما طبق آخرین توییت دنی سالیوان در تاریخ 10 دسامبر 2019 هنوز بر روی زبان فارسی پیاده سازی نشده است.
ما در این مقاله سعی کردیم مدل BERT رابه طور کامل شرح دهیم و امیدواریم که از مطالعه آن لذت برده باشید.
مطلبی دیگر از این انتشارات
نکات کاربردی استفاده از تگ کنونیکال (Canonical) در بهبود سئو
مطلبی دیگر از این انتشارات
راهنمای کامل رفع مشکل محتوای تکراری Duplicate Content
مطلبی دیگر از این انتشارات
11 تکنیک لینکسازی در سال 2020