صادق قنبری شوهانی
صادق قنبری شوهانی
خواندن ۴ دقیقه·۲۰ روز پیش

چقدر دقت برای استفاده در محیط پروداکشن کافیه؟

چقدر دقت برای استفاده در محیط واقعی کافیه؟
رسیدن به دقت مناسب برای مدل‌های زبانی (LLMs) می‌تونه یه چالش بی‌پایان باشه؛ این مدل‌ها معمولاً با روش‌های آماده به دقت ۹۹.۹۹۹٪ نمی‌رسن. این بخش درباره اینه که چطور تصمیم بگیریم چه زمانی دقت کافی شده، چطور می‌تونیم با استفاده از یه مدل زبانی در محیط واقعی راحت بشیم و ریسک‌های مرتبط رو مدیریت کنیم.

برای اینکه بهتر بشه این موضوع رو فهمید، بهتره هم از دید کسب‌وکار و هم از دید فنی بهش نگاه کنیم. من قراره روش‌های کلی برای مدیریت هر دو رو توضیح بدم و یه مثال از پشتیبانی مشتری بزنم تا مشخص بشه چطور میشه این ریسک‌ها رو مدیریت کرد.

کسب‌وکار

برای کسب‌وکارها، اعتماد کردن به مدل‌های زبانی بعد از استفاده از سیستم‌های مبتنی بر قواعد یا یادگیری ماشین سنتی، یا حتی انسان‌ها، سخته! سیستمی که شکست‌های باز و غیرقابل پیش‌بینی داشته باشه، به سختی قابل اعتماد میشه.

یه رویکرد موفق که توی یه پروژه پشتیبانی مشتری دیدم این بود:

  1. اول، موارد موفقیت و شکست اصلی رو شناسایی کردیم و براشون یه هزینه تقریبی تعیین کردیم. این کار به ما کمک کرد بفهمیم راه‌حل چقدر می‌تونه بر اساس عملکرد آزمایشی سود یا ضرر داشته باشه.

برای مثال:

  • یه مورد که با AI حل میشه و قبلاً توسط یه انسان حل می‌شد، ممکنه ۲۰ دلار صرفه‌جویی کنه.
  • ارجاع یه مورد به انسان وقتی که نباید می‌شد، ممکنه ۴۰ دلار هزینه داشته باشه.
  • بدترین حالت: مشتری از دست AI کلافه بشه و کلاً ما رو ترک کنه، که ۱۰۰۰ دلار هزینه داره. فرض کردیم این اتفاق توی ۵٪ موارد میفته.

دقت سر به سر (Break-even Accuracy) یعنی حداقل دقتی که مدل باید داشته باشه تا کل ارزش اقتصادی سیستم برابر صفر بشه؛ یعنی سود و زیان‌ها همدیگه رو خنثی کنن. این معیار به شما کمک می‌کنه بفهمید که آیا مدل شما با دقت فعلی‌اش از نظر اقتصادی توجیه‌پذیره یا نه.
برای محاسبه دقت سر به سر، باید ارزش مالی هر حالت (موفقیت یا شکست) و درصد وقوع اون حالات رو در نظر بگیریم. دقت سر به سر اینجا یعنی اگر دقت مدل ۸۱.۵٪ باشه، ارزش کل سیستم دقیقاً برابر صفر میشه. اگر دقت بالاتر باشه، سیستم سوددهی داره؛ اگر پایین‌تر باشه، ضرر میکنه. دقت سر به سر یه معیاره که به شما میگه "چقدر دقت لازمه تا حداقل مطمئن باشیم زیان نمیکنیم." از اینجا به بعد، هر چه دقت مدل بالاتر بره، سود بیشتری تولید میشه، و هر چه دقت پایین‌تر بیاد، ضرر مالی بیشتری متحمل میشید.

  1. یه سری آمار تجربی هم اندازه‌گیری کردیم که کمک می‌کنه تاثیر کلی راه‌حل رو بسنجیم. برای مثال توی پشتیبانی مشتری:نمره رضایت مشتری (CSAT) توی تعامل‌های صرفاً انسانی در مقایسه با AI
    دقت تصمیم‌گیری برای مواردی که بعداً بررسی شدن (انسانی در برابر AI)
    زمان حل مشکل در تعامل‌های انسانی و AI

بعد از چند آزمایش اولیه برای جمع‌آوری داده‌های واضح، دو تصمیم مهم گرفتیم:

  • حتی اگر AI بیشتر از حد انتظار موارد رو به انسان ارجاع بده، باز هم صرفه‌جویی عملیاتی زیادی نسبت به راه‌حل قبلی داشت. این یعنی دقت ۸۵٪ هم قابل قبول بود، به شرطی که اون ۱۵٪ بیشتر شامل ارجاع‌های زودهنگام بشه.
  • برای مواردی که هزینه شکست خیلی زیاد بود (مثل تشخیص اشتباه در پرونده‌های کلاهبرداری)، تصمیم گرفتیم که انسان تصمیم‌گیرنده باشه و AI فقط نقش دستیار داشته باشه.

فنی

از نظر فنی، وقتی کسب‌وکار انتظارات خودش رو از ارزش و هزینه‌ها مشخص کرد، وظیفه شما اینه که یه راه‌حل بسازید که شکست‌ها رو به شکلی مدیریت کنه که تجربه کاربری رو خراب نکنه.

توی مثال پشتیبانی مشتری، فرض کنیم یه مدل داریم که توی تشخیص هدف، ۸۵٪ دقت داره. برای کاهش اثر اون ۱۵٪ خطا، میشه کارهای زیر رو انجام داد:

  • مدل رو طوری طراحی کنیم که اگر مطمئن نیست، اطلاعات بیشتری از مشتری بگیره. این ممکنه دقت بار اول رو کم کنه، ولی توی بار دوم تشخیص دقیق‌تری بده.
  • امکان برگشت به مرحله تشخیص هدف رو برای دستیار انسانی فراهم کنیم، که یه فرصت دیگه برای اصلاح UX باشه، البته به قیمت کمی تاخیر بیشتر.
  • مدل رو طوری طراحی کنیم که اگر هدف نامشخص بود، مورد رو به انسان ارجاع بده. این کار در کوتاه‌مدت ممکنه هزینه عملیاتی رو بالا ببره، ولی ریسک ترک مشتری رو در بلندمدت کاهش میده.

این تصمیم‌ها روی تجربه کاربری تاثیر می‌ذاره، مثلاً سرعت رو کاهش میده ولی دقت رو بالا می‌بره، یا تعداد ارجاع‌های انسانی رو بیشتر می‌کنه که روی مدل هزینه تأثیر میذاره.

حالا شما یه روش دارید که تصمیم‌های تجاری و فنی برای تعیین هدف دقت رو بر اساس واقعیت‌های کسب‌وکاری مدیریت کنید.

اگه به موضوعات هوش مصنوعی مولد علاقه مند هستین کانال تلگرامم رو دنبال کنین :
کانال هوش مصنوعی مولّد

لینک منبع

تجربه کاربریهوش مصنوعیدقترضایت مشترییادگیری ماشین
یک برنامه نویس از سال ۸۵ تاکنون
شاید از این پست‌ها خوشتان بیاید