من مطمئن هستم که شما همچنین صرف بارهای از زمان جستجو برای پاسخ به یک سوال خاص در میان ثروت کامل از اطلاعات موجود در جهان دیجیتال ما. پیدا کردن آنچه ما نیاز داریم این است که همیشه چالش برانگیزتر و وقت گیرتر شود. چه در وسعت وب جهانی و چه در وب درهم از داده های شرکت ها و سیستم های اطلاعاتی، جستجو کلمه کلیدی اغلب تنها محدود کردن جستجو. پس از آن شما نیاز به فیلتر را از طریق توده ای از نتایج جستجو برای پیدا کردن آنچه شما به دنبال. با این حال، کمک در دست وجود دارد. کشف در این مقاله چه زبان طبیعی سوال سیستم پاسخ است ، و چگونه آن را آسان تر برای پیدا کردن پاسخ در جنگل داده ها.
با پیشرفت دیجیتالی شدن، حجم داده ها در سراسر جهان نیز به سرعت در حال رشد است. پورتال آمار استتیستا تخمین می زند که در سال ۲۰۲۱، ۷۹ زتابایت داده ایجاد، اسیر و مصرف شده اند. آنها انتظار دارند این تعداد در عرض 4 سال بیش از دو برابر شود، پیش بینی 181 zettabytes از داده ها برای سال 2025[1].
شرکت های با استفاده از SEEBURGER کسب و کار ادغام سوئیت (BIS) قادر به پردازش مقادیر عظیمی از داده ها هر روز. این ممکن است از فاکتورها الکترونیکی، تماس های API و یا در پروتکل ها و فرمت های دیگر باشد. BIS می تواند بین سیستم های مختلف با استفاده از این داده های ساخت یافته ارتباط برقرار کند.
با این حال، علاوه بر داده های ساخت یافته، داده های بیشتر و بدون ساختار بیشتری در حال تولید وجود دارد. این شامل اسناد، مقالات وبلاگ، پیام های صوتی و فیلم ها است. بخش عمده ای از این داده های بدون ساختار حاوی اطلاعات جالبی در مورد طیف گسترده ای از موضوعات است. با این حال، پیدا کردن پاسخ به یک سوال خاص شما ممکن است در مورد این موضوعات داشته باشد نه سریع است و نه آسان است. تعداد این اسناد و فایل ها فقط در حال رشد نگه می دارد! موتورهای جستجوی کلاسیک مانند گوگل، بینگ و غیره به شما کمک می کنند تا اسناد خاصی را در وب پیدا کنید، اما در واقع سیف کردن از طریق ثروت اسناد برای جزئیات خاص اغلب به کاربر باقی می مانند.
یک رویکرد جدید مورد نیاز است تا جستجو سریع تر و آسان تر شود و کاربران نهایی اطلاعات مورد نیاز را پیدا کنند. اجازه دهید شما را با سیستم های پاسخ به سوال زبان طبیعی معرفی کنیم.
بر خلاف جستجوی کلمات کلیدی سنتی، یک سیستم پاسخ به پرسش زبان طبیعی یک سند کامل را به کاربر برنگرداند. در عوض کاربران به زبان طبیعی سوالی می پرسند و در مقابل پاسخ خاصی دریافت می کنند.
کاربری که در «پایتخت آلمان چیست؟» نوع می کند، نه تنها یک صفحه وب با اطلاعات مرتبط دریافت می کند، بلکه پاسخ ملموس «برلین» را نیز دریافت می کند. این باعث صرفه جویی در کاربر زمان زیادی در پیدا کردن پاسخ، به خصوص اگر او در غیر این صورت باید از طریق اسناد به خصوص طولانی ترال.
در حال توسعه سیستم های پاسخ به سوال شده است یک موضوع داغ در فناوری اطلاعات برای مدتی. پیش از این تلاش هایی برای راه اندازی قوانین پیچیده ای برای فعال کردن یک سیستم برای درک سوال به طور طبیعی کلمه شده یک کاربر و ارائه پاسخ وجود داشت.
سیستم های پاسخ به سوال زبان طبیعی امروز اغلب یک رویکرد استخراجی را در پیش می گیرد، و متشکل از یک بازیابی کننده و یک خواننده است. پاسخ به سوالات در پایگاه داده های بزرگ ذخیره نمی شود، بلکه سیستم تلاش می کند تا پاسخ مناسبی برای سوال یک کاربر از توده ای از متون پیدا و استخراج کند. اولاً اسناد مربوط به سوال کاربر از یک فروشگاه اسناد بارگذاری می شوند. سپس خواننده تلاش می کند تا پاسخ سوال کاربر را استخراج کند.
مسئولیت ارائه مدارک مربوطه به فروشگاه اسناد می باشد. راه های مختلفی برای انجام این کار وجود دارد. اغلب از یک شاخص ساده یا معکوس استفاده می شود. یکی از شناخته شده ها، که معمولاً از چنین شاخص معکوسی استفاده می شود، آپاچی لوسنه است که به عنوان شاخص در Elasticsearch مورد استفاده قرار می گیرد. این یک راه سریع و کارآمد برای تماس با اسناد است.
بازیابی کننده مسئول بازیابی اسناد مربوطه برای پرسش کاربر است. اول از همه، تلاش می کند تا شرایط مربوطه را در سوال استخراج کند. سپس از این ها برای بازیابی اسناد مربوطه استفاده می کند.
به منظور تبدیل سوال کاربر به نوع پرس و جو بازیابی می تواند پردازش، تکنیک های مختلف پردازش زبان طبیعی (NLP) استفاده می شود. از جمله این موارد می توان به موارد زیر اشاره کرد:
این مراحل به ایجاد یک پرس و جو کمک می کنند، که سپس به فروشگاه سند ساخته می شود. بازیابی کننده مرتبط ترین اسناد را می گیرد و این ها را به خواننده می رساند تا پاسخی به سوال کاربر استخراج کند.
یک خواننده مسئول استخراج پاسخ از اسنادی است که دریافت می کند. با استفاده از یک مدل زبان مناسب، سعی می کند هم پرسش و هم اسناد را درک کند و مناسب ترین پاسخ را از متون استخراج کند.
یک مدل زبان برای استخراج پاسخ از متون ارسال شده استفاده می شود. یکی از این مدل ها مدل BERT است که اغلب در شکل ۲ نشان داده شده است، با این حال مدل های زبان دیگری نیز در دسترس هستند. یک مدل زبان برای محاسبه احتمال وقوع یک کلمه یا عبارت آموزش دیده است.
چندین نوع مختلف از مدل زبان وجود دارد. کیفیت نتایج آنها بستگی به حوزه هایی دارد که در آن ها به کار گرفته می شوند. بسیاری از این مدل ها یک ترانسفورماتور یا رویکرد مبتنی بر توجه را در نظر می گیرند که آن ها را قادر به درک و پردازش زبان می کند.
نمایندگی های انکودر دولین و همکارانش از ترانسفورماتورها که معمولاً با نام BERT شناخته می شوند، یک مدل زبان قدرتمند است. آن را بر روی encoder از ترانسفورماتور Vaswani و همکاران و مکانیسم توجه می سازد.
با تقسیم ورودی به کلمات فردی شروع می شود که به نشانه معروف است. این ها با نشانه های خاص بیشتر BERT تقویت می شوند و وارد مدل می شوند. برای یک سناریوی پاسخ پرسش، ورودی هم شامل سوال و هم پاراگرافی است که قرار است پاسخ از آن استخراج شود.
لایه های متعددی از ترانسفورماتورها بین ورودی و خروجی مدل وجود دارد که برای محاسبه پاسخ استفاده می شوند.
خروجی های مدل شروع می کنند و نشانه ها را پایان می دهند تا بهترین پاسخ را تعیین کنند. سپس از این ها برای کمک به بازگشت پاسخ به کاربر استفاده می شود.
در این مرحله مدل هنوز قادر به محاسبه پاسخ های معنی دار خود نیست. برای امکان پذیر کردن این امر، مدل باید آموزش دیده باشد. در ابتدا مدل آموزش دیده بود تا درک عمومی خواندن داشته باشد. این امر آن را قادر می سازد تا در زمینه های بیشتر مورد استفاده قرار گیرد. برای این کار مدل BERT با استفاده از بیش از ۸۰۰ میلیون کلمه در BooksCorpus و همچنین نسخه انگلیسی ویکی پدیا از پیش آموزش دیده بود. برای دومی، این مدل تنها بر روی بدنه اصلی مقالات فردی آموزش دیده بود که بیش از ۲٫۵ میلیارد کلمه را در بر می گرفت. مدل توانست یاد بگیرد که کدام کلمات یا عبارات وابسته هستند یا معمولاً با کدام دیگران استفاده می شوند، و می توانند از این دانش برای کارهای دیگر استفاده کنند. مزیت پیش آموزش یک مدل این است که بعداً تطبیق آن با طیفی از وظایف خاص نسبتاً آسان است - مانند پیدا کردن پاسخ در پاراگراف ها بدون اینکه لزوماً نیاز به آموزش مجدد آن داشته باشد.
مدل از پیش آموزش دیده بیشتر برای وظایف پاسخ به سوال استخراجی خود با استفاده از مجموعه داده های SQuAD آماده شد. مجموعه داده های SQuAD شامل ۱۰۰٬۰ جفت سوال و پاسخ به مقالات ویکی پدیای منتخب است. با کار کردن از طریق این جفت نمونه ها، مدل بر روی درک زبان عمومی که قبلاً آموخته شده بود می سازد و استخراج و بازگشت پاسخ های درست به پرسش ها را یاد می گیرد.
یک مدل از پیش آموزش دیده BERT را می توان به طور مستقیم در یک سیستم پاسخ به سوال به کار گرفت. با این حال، با پیگیری با استفاده از مجموعه داده ها از مناطق بهره متخصص یا انواع خاصی از سند، مدل را می توان آموزش داد تا نتایج حتی بهتری را در یک منطقه خاص ارائه دهد.
برنامه SeeQA یک ابزار پاسخ به سوال زبان طبیعی است که SEEBURGER از آن در خانه برای بازیابی اطلاعات از سیستم های مختلف استفاده می کند. کاربران سوالات خود را وارد یک برنامه می کنند و سیستم اسناد و مقالات وبلاگ را برای کلمات مربوطه جستجو می کند و پاسخ ها را برای کاربر استخراج می کند. مرتبط ترین پاسخ ها در یک لیست ارائه شده اند، به رنگ زرد برجسته شده اند، و در زمینه نشان داده شده اند. این بدان معنی است که کاربر نه تنها می شود و پاسخ به سوال خود را، او نیز محتوای مرتبط نشان داده شده است.
این سیستم به کارکنان ما کمک کرده است تا اطلاعاتی را که نیاز دارند با سرعت بیشتری پیدا کنند. بر اساس یک نظرسنجی داخلی، پیدا کردن اطلاعات مورد نیاز را به طور قابل توجهی آسان تر کرده است. اگرچه سیستم همیشه به هر سوالی پاسخ درستی نداده است، اما بیشتر کاربران توانسته اند اطلاعاتی پیدا کنند که به مسئله آنها کمک کرده است.
یک تسهیلات بازخورد یکپارچه اطلاعاتی در مورد چگونگی پاسخ های مربوطه به کاربران در اختیار سیستم قرار می دهد. این بازخورد جمع آوری و ذخیره می شود. سپس برای ایجاد داده های آموزشی جدید استفاده می شود تا مدل حتی بیشتر بهبود یابد. این فرایند یادگیری مداوم به سیستم کمک می کند تا بهتر با متون و پرسش های خاص SEEBURGER سازگار شود.
این سازگاری مداوم از مدل انتخاب شده ما به متون خاص SEEBURGER به ما کمک خواهد کرد تا ببینیم تا چه حد سیستم می تواند یاد بگیرد و بهبود خود را، و در چه نقطه ای که مدل خاص را نمی توان بهینه سازی بیشتر.
منبع :