من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
معیارهای ارزیابی عملی برای یک ربات جستجوی معنایی
منتشرشده در towardsdatascience به تاریخ ۱۶ ژوئن ۲۰۲۱
لینک منبع Practical Evaluation Metrics for a Semantic Search Bot
هر محقق دادهای که در حوزه سازمانی هوش مصنوعی کار میکند باید دارای یک یا چند بات هوشمند باشد. با افزایش مدلهای NLP مانند خانواده برت، خانواده GPT و دیگر مدلهای سنگینوزن، پاسخگویی به سوالات معنایی بسیار آسان شدهاست.
علاوه بر این فراهمکنندگان پایگاه دانش مانند جستجوی الاستیک، که توابع جستجوی سفارشی را ممکن میسازند، رباتها نیز کارآمد شدهاند.
با این حال، زمانی که یک ربات هوشمند میسازید، باید عملکرد آن را کمی کنید. این بسیار مهم است که بفهمیم آیا حتی ایده خوبی است که با ربات پیش برویم یا خیر. بنابراین بسیار مهم است که معیارهای عملکردی برای ربات خود طراحی کنید.
در این مقاله، من در مورد یک ربات پاسخ دهنده به سوال صحبت میکنم، که براساس دانش آموزشدیده است. این بدان معنی است که سندی وجود دارد که شامل مجموعهای از جفتهای سوال-پاسخ منحصر به فرد متعلق به یک یا چند موضوع است.
رباتهای چت که مربوط به دوره مدل قبل از زبان هستند، روی شباهت جفت کلمات کار میکنند. این بدان معنی است که با توجه به دو جمله، شباهت بین کلمات تشکیلدهنده، در شکل بردار، محاسبه میشود (با استفاده از امتیاز شباهت کسینوس).
با این حال، تمام آنچه که برق میزند طلا نیست. هر پاسخی که در بالای لیست مسابقات برتر قرار میگیرد لزوماً بهترین پاسخ در این زمینه نیست.
مشکل این مدلها روش اندازهگیری شباهت نیست، بلکه روشی است که کلمات در جملات نشان داده میشوند. به عنوان مثال، کلمه «پارک» میتواند معنای متفاوتی در جمله «من باید ماشینم را جایی پارک کنم» داشته باشد، و معنای متفاوتی در عبارت «بیایید در پارک قدم بزنیم». این تفاوت در معنا، تفاوت بزرگی برای چگونگی یافتن شباهت توسط رباتها ایجاد میکند. مدلهای قدیمیتر تنها به دنبال شباهت کلمات هستند اما به دنبال زمینهها نیستند.
مدلهای زبانی را وارد کنید! این مدلها کلمات را همراه با جملات نشان میدهند. این به مدلها کمک میکند تا زمینه کلمات در جملات را درک کنند. این ارزش افزوده مدلهای زبانی به درک زبان طبیعی است.
شباهت کلمه هنوز با استفاده از شباهت کسینوس نسبت به اشکال برداری شده هر جمله محاسبه میشود.
حال، چگونه میتوانیم عملکرد دو مدل چتبات را مقایسه کنیم؟
برای تمام اهداف عملی، چگونه میتوانیم عملکرد مدل چتبات خود را با مدل دیگر مقایسه کنیم؟
به نظر میرسد که مقایسه دو پاسخ کاندید برای یک سوال در چارچوب چتبات سادهتر باشد-شباهت کسینوسی درست است!
اما وقتی نوبت به خود مدلها میرسد، مقایسه شباهت کسینوسی برای پاسخهای یک مدل با مدل دیگر، منطقی به نظر نمیرسد. برای مثال، اجازه دهید بگوییم که ما دو مدل کاندید CB1 و CB2 داریم. ما میخواهیم عملکرد این دو مدل را مقایسه کنیم. در مجموعه پرسشهای آزمون ما، ممکن است یک سوال داشته باشیم: چطور تلویزیون هوشمند خود را راهاندازی کنم؟ کاندیدای چتبات A ممکن است ۲ جواب بالا را برگرداند:
۱. سامسونگ X50 خود را به شکل زیر تنظیم کنید (امتیاز تشابه: ۰.۸۷)
۲. راهاندازی حساب بانکی به روش زیر (نمره شباهت: ۰.۷۷)
و نامزد B شباهت زیر را نشان میدهد:
۱. راهاندازی حساب بانکی به روش زیر (امتیاز تشابه: ۰.۹۱)
۲. برپاسازی سامسونگ X50 به روش زیر (امتیاز تشابه: ۰.۸)
نامزد B حداکثر امتیاز را برای پاسخ برتر برای دو مدل دارد.
اما البته ما میتوانیم ببینیم که کاندیدای A پاسخ بسیار دقیق تری میدهد. بنابراین ما میدانیم که شباهت کسینوسی ممکن است معیار عملکرد خوبی نباشد.
پس چه کار میتوانیم بکنیم؟
یکی از کارهایی که میتوانیم انجام دهیم این است:
۱. نمونهای از سوالات را از مجموعه آزمایش بگیرید.
۲. مجموعه جوابهای بالا برای هر سوال را در نظر بگیرید.
۳. یک سیستم فرا نمرهدهی از طرح زیر را در نظر بگیرید: اگر پاسخ بالا پاسخ درست است، پس به آن یک پاسخ ۱ بدهید، اگر پاسخ بالا صحیح نیست اما پاسخ درست در مجموعه پاسخهای بالا که توسط مدل برگشت داده شدهاست، وجود دارد، سپس آن را ۰.۵ بدهید، اگر پاسخ در مجموعه پاسخها وجود ندارد، پس آن را ۰ بدهید.
۴. انجام این کار برای تمام سوالات در نمونه یک امتیاز برای هر سوال در هر دو ربات میدهد.
۵. تمام امتیازات را برای هر چتبات جمع کنید و هر دو را با تعداد کل سوالات در نمونه تقسیم کنید.
اگر تعداد ۱ثانیه بیشتر در یک نمونه وجود داشته باشد، نمره محاسبه شده زیاد خواهد بود. اگر بیش از ۰.۵ ثانیه یا ۰ ثانیه وجود داشته باشد، امتیاز کمتر خواهد بود. این بدان معنی است که هر چقدر تعداد دفعاتی که یک مدل پاسخ درست میدهد بیشتر باشد، بهتر عمل میکند، در حالی که جوابهای نادرست میدهد، امتیاز کمتر میشود، و مدل بدتر عمل میکند.
با این حال، یک اشکال بسیار آشکار این سیستم این است که خودکار کردن آن آسان نیست. با این حال، دشوار نیست. ما باید مجموعهای از پاسخهای درست برای هر سوال در نمونه داشته باشیم، و هنگامی که پاسخ بالا در مجموعه با برچسب پاسخ با نمره شباهت ۱ مطابقت داشته باشد، آنگاه آن سوال نمره ۱ میگیرد، و اگر با یکی از پاسخهای موجود در مجموعه با نمره ۱ مطابقت داشته باشد، سوال نمره ۰.۵ میگیرد، و اگر پاسخ منطبق نباشد، آنگاه سوال نمره صفر میگیرد.
حالا شما آن را دارید! یک سیستم نمرهدهی ساده و عملی برای ارزیابی عملکرد چتبات شما!
این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
کشف دایناسور بزرگ جدید نشان میدهد که چرا بسیاری از گوشتخواران ماقبل تاریخ چنین بازوهای کوچکی داشتهاند
مطلبی دیگر از این انتشارات
صفحه آبی مایکروسافت در ویندوز ۱۱ در حال تبدیل به سیاه است.
مطلبی دیگر از این انتشارات
دو سیاهچاله که نور روز را از فضا-زمان در تجسم سه بعدی ناسا منحرف میکنند.