معیارهای ارزیابی عملی برای یک ربات جستجوی معنایی

شکل ۱. اندازه‌گیری محصولات در هوش مصنوعی
شکل ۱. اندازه‌گیری محصولات در هوش مصنوعی
منتشر‌شده در towardsdatascience به تاریخ ۱۶ ژوئن ۲۰۲۱
لینک منبع Practical Evaluation Metrics for a Semantic Search Bot

هر محقق داده‌ای که در حوزه سازمانی هوش مصنوعی کار می‌کند باید دارای یک یا چند بات هوشمند باشد. با افزایش مدل‌های NLP مانند خانواده برت، خانواده GPT و دیگر مدل‌های سنگین‌وزن، پاسخگویی به سوالات معنایی بسیار آسان شده‌است.

علاوه بر این فراهم‌کنندگان پایگاه دانش مانند جستجوی الاستیک، که توابع جستجوی سفارشی را ممکن می‌سازند، ربات‌ها نیز کارآمد شده‌اند.

با این حال، زمانی که یک ربات هوشمند می‌سازید، باید عملکرد آن را کمی کنید. این بسیار مهم است که بفهمیم آیا حتی ایده خوبی است که با ربات پیش برویم یا خیر. بنابراین بسیار مهم است که معیارهای عملکردی برای ربات خود طراحی کنید.

در این مقاله، من در مورد یک ربات پاسخ دهنده به سوال صحبت می‌کنم، که براساس دانش آموزش‌دیده است. این بدان معنی است که سندی وجود دارد که شامل مجموعه‌ای از جفت‌های سوال-پاسخ منحصر به فرد متعلق به یک یا چند موضوع است.

ربات‌های چت که مربوط به دوره مدل قبل از زبان هستند، روی شباهت جفت کلمات کار می‌کنند. این بدان معنی است که با توجه به دو جمله، شباهت بین کلمات تشکیل‌دهنده، در شکل بردار، محاسبه می‌شود (با استفاده از امتیاز شباهت کسینوس).

با این حال، تمام آنچه که برق می‌زند طلا نیست. هر پاسخی که در بالای لیست مسابقات برتر قرار می‌گیرد لزوماً بهترین پاسخ در این زمینه نیست.

مشکل این مدل‌ها روش اندازه‌گیری شباهت نیست، بلکه روشی است که کلمات در جملات نشان داده می‌شوند. به عنوان مثال، کلمه «پارک» می‌تواند معنای متفاوتی در جمله «من باید ماشینم را جایی پارک کنم» داشته باشد، و معنای متفاوتی در عبارت «بیایید در پارک قدم بزنیم». این تفاوت در معنا، تفاوت بزرگی برای چگونگی یافتن شباهت توسط ربات‌ها ایجاد می‌کند. مدل‌های قدیمی‌تر تنها به دنبال شباهت کلمات هستند اما به دنبال زمینه‌ها نیستند.

مدل‌های زبانی را وارد کنید! این مدل‌ها کلمات را همراه با جملات نشان می‌دهند. این به مدل‌ها کمک می‌کند تا زمینه کلمات در جملات را درک کنند. این ارزش افزوده مدل‌های زبانی به درک زبان طبیعی است.

شباهت کلمه هنوز با استفاده از شباهت کسینوس نسبت به اشکال برداری شده هر جمله محاسبه می‌شود.

حال، چگونه می‌توانیم عملکرد دو مدل چت‌بات را مقایسه کنیم؟

برای تمام اهداف عملی، چگونه می‌توانیم عملکرد مدل چت‌بات خود را با مدل دیگر مقایسه کنیم؟

به نظر می‌رسد که مقایسه دو پاسخ کاندید برای یک سوال در چارچوب چت‌بات ساده‌تر باشد-شباهت کسینوسی درست است!

اما وقتی نوبت به خود مدل‌ها می‌رسد، مقایسه شباهت کسینوسی برای پاسخ‌های یک مدل با مدل دیگر، منطقی به نظر نمی‌رسد. برای مثال، اجازه دهید بگوییم که ما دو مدل کاندید CB1 و CB2 داریم. ما می‌خواهیم عملکرد این دو مدل را مقایسه کنیم. در مجموعه پرسش‌های آزمون ما، ممکن است یک سوال داشته باشیم: چطور تلویزیون هوشمند خود را راه‌اندازی کنم؟ کاندیدای چت‌بات A ممکن است ۲ جواب بالا را برگرداند:

۱. سامسونگ X50 خود را به شکل زیر تنظیم کنید (امتیاز تشابه: ۰.۸۷)

۲. راه‌اندازی حساب بانکی به روش زیر (نمره شباهت: ۰.۷۷)

و نامزد B شباهت زیر را نشان می‌دهد:

۱. راه‌اندازی حساب بانکی به روش زیر (امتیاز تشابه: ۰.۹۱)

۲. برپاسازی سامسونگ X50 به روش زیر (امتیاز تشابه: ۰.۸)

نامزد B حداکثر امتیاز را برای پاسخ برتر برای دو مدل دارد.

اما البته ما می‌توانیم ببینیم که کاندیدای A پاسخ بسیار دقیق تری می‌دهد. بنابراین ما می‌دانیم که شباهت کسینوسی ممکن است معیار عملکرد خوبی نباشد.

پس چه کار می‌توانیم بکنیم؟

یکی از کارهایی که می‌توانیم انجام دهیم این است:

۱. نمونه‌ای از سوالات را از مجموعه آزمایش بگیرید.

۲. مجموعه جواب‌های بالا برای هر سوال را در نظر بگیرید.

۳. یک سیستم فرا نمره‌دهی از طرح زیر را در نظر بگیرید: اگر پاسخ بالا پاسخ درست است، پس به آن یک پاسخ ۱ بدهید، اگر پاسخ بالا صحیح نیست اما پاسخ درست در مجموعه پاسخ‌های بالا که توسط مدل برگشت داده شده‌است، وجود دارد، سپس آن را ۰.۵ بدهید، اگر پاسخ در مجموعه پاسخ‌ها وجود ندارد، پس آن را ۰ بدهید.

۴. انجام این کار برای تمام سوالات در نمونه یک امتیاز برای هر سوال در هر دو ربات می‌دهد.

۵. تمام امتیازات را برای هر چت‌بات جمع کنید و هر دو را با تعداد کل سوالات در نمونه تقسیم کنید.

اگر تعداد ۱ثانیه بیشتر در یک نمونه وجود داشته باشد، نمره محاسبه شده زیاد خواهد بود. اگر بیش از ۰.۵ ثانیه یا ۰ ثانیه وجود داشته باشد، امتیاز کم‌تر خواهد بود. این بدان معنی است که هر چقدر تعداد دفعاتی که یک مدل پاسخ درست می‌دهد بیشتر باشد، بهتر عمل می‌کند، در حالی که جواب‌های نادرست می‌دهد، امتیاز کم‌تر می‌شود، و مدل بدتر عمل می‌کند.

با این حال، یک اشکال بسیار آشکار این سیستم این است که خودکار کردن آن آسان نیست. با این حال، دشوار نیست. ما باید مجموعه‌ای از پاسخ‌های درست برای هر سوال در نمونه داشته باشیم، و هنگامی که پاسخ بالا در مجموعه با برچسب پاسخ با نمره شباهت ۱ مطابقت داشته باشد، آنگاه آن سوال نمره ۱ می‌گیرد، و اگر با یکی از پاسخ‌های موجود در مجموعه با نمره ۱ مطابقت داشته باشد، سوال نمره ۰.۵ می‌گیرد، و اگر پاسخ منطبق نباشد، آنگاه سوال نمره صفر می‌گیرد.

حالا شما آن را دارید! یک سیستم نمره‌دهی ساده و عملی برای ارزیابی عملکرد چت‌بات شما!

این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.