چقدر دقت برای استفاده در محیط واقعی کافیه؟
رسیدن به دقت مناسب برای مدلهای زبانی (LLMs) میتونه یه چالش بیپایان باشه؛ این مدلها معمولاً با روشهای آماده به دقت ۹۹.۹۹۹٪ نمیرسن. این بخش درباره اینه که چطور تصمیم بگیریم چه زمانی دقت کافی شده، چطور میتونیم با استفاده از یه مدل زبانی در محیط واقعی راحت بشیم و ریسکهای مرتبط رو مدیریت کنیم.
برای اینکه بهتر بشه این موضوع رو فهمید، بهتره هم از دید کسبوکار و هم از دید فنی بهش نگاه کنیم. من قراره روشهای کلی برای مدیریت هر دو رو توضیح بدم و یه مثال از پشتیبانی مشتری بزنم تا مشخص بشه چطور میشه این ریسکها رو مدیریت کرد.
برای کسبوکارها، اعتماد کردن به مدلهای زبانی بعد از استفاده از سیستمهای مبتنی بر قواعد یا یادگیری ماشین سنتی، یا حتی انسانها، سخته! سیستمی که شکستهای باز و غیرقابل پیشبینی داشته باشه، به سختی قابل اعتماد میشه.
یه رویکرد موفق که توی یه پروژه پشتیبانی مشتری دیدم این بود:
برای مثال:
دقت سر به سر (Break-even Accuracy) یعنی حداقل دقتی که مدل باید داشته باشه تا کل ارزش اقتصادی سیستم برابر صفر بشه؛ یعنی سود و زیانها همدیگه رو خنثی کنن. این معیار به شما کمک میکنه بفهمید که آیا مدل شما با دقت فعلیاش از نظر اقتصادی توجیهپذیره یا نه.
برای محاسبه دقت سر به سر، باید ارزش مالی هر حالت (موفقیت یا شکست) و درصد وقوع اون حالات رو در نظر بگیریم. دقت سر به سر اینجا یعنی اگر دقت مدل ۸۱.۵٪ باشه، ارزش کل سیستم دقیقاً برابر صفر میشه. اگر دقت بالاتر باشه، سیستم سوددهی داره؛ اگر پایینتر باشه، ضرر میکنه. دقت سر به سر یه معیاره که به شما میگه "چقدر دقت لازمه تا حداقل مطمئن باشیم زیان نمیکنیم." از اینجا به بعد، هر چه دقت مدل بالاتر بره، سود بیشتری تولید میشه، و هر چه دقت پایینتر بیاد، ضرر مالی بیشتری متحمل میشید.
بعد از چند آزمایش اولیه برای جمعآوری دادههای واضح، دو تصمیم مهم گرفتیم:
از نظر فنی، وقتی کسبوکار انتظارات خودش رو از ارزش و هزینهها مشخص کرد، وظیفه شما اینه که یه راهحل بسازید که شکستها رو به شکلی مدیریت کنه که تجربه کاربری رو خراب نکنه.
توی مثال پشتیبانی مشتری، فرض کنیم یه مدل داریم که توی تشخیص هدف، ۸۵٪ دقت داره. برای کاهش اثر اون ۱۵٪ خطا، میشه کارهای زیر رو انجام داد:
این تصمیمها روی تجربه کاربری تاثیر میذاره، مثلاً سرعت رو کاهش میده ولی دقت رو بالا میبره، یا تعداد ارجاعهای انسانی رو بیشتر میکنه که روی مدل هزینه تأثیر میذاره.
حالا شما یه روش دارید که تصمیمهای تجاری و فنی برای تعیین هدف دقت رو بر اساس واقعیتهای کسبوکاری مدیریت کنید.
اگه به موضوعات هوش مصنوعی مولد علاقه مند هستین کانال تلگرامم رو دنبال کنین :
کانال هوش مصنوعی مولّد