خواندن ۸ دقیقه·۱ ماه پیش

وقتی هوش مصنوعی «مطمئن» اشتباه می‌کند

درباره عدم قطعیت در یادگیری ماشین چرا Accuracyبالا کافی نیست ، زمانی که مدل اشتباه میکند ولی سطح اطمینانش به جواب قابل تحسین است .

۱. درست بودن با مطمئن بودن فرق دارد

فرض کنید یک مدل تشخیص سرطان پوست روی صدها هزار تصویر آموزش دیده و در آزمون‌های استاندارد به دقت ۹۴٪ رسیده است. روی کاغذ، این یک موفقیت چشمگیر به نظر می‌رسد.

اما پزشکان متوجه نکته‌ای عجیب می‌شوند: مدل روی برخی تصاویر با کیفیت پایین، تصاویر تار، نور نامناسب یا زاویه‌های غیرمعمول، همچنان با اطمینان بسیار بالا پیش‌بینی می‌کند. برای تصویری که حتی یک متخصص باتجربه نیز با احتیاط درباره آن نظر می‌دهد، مدل ممکن است بگوید: «خوش‌خیم، با احتمال ۹۷٪.»

نکته جالب اینجاست که مسئله صرفاً اشتباه بودن یا نبودن پیش‌بینی نیست. حتی اگر مدل در نهایت پاسخ درستی داده باشد، این سؤال همچنان مطرح است که آیا میزان اطمینانی که ابراز کرده واقعاً با کیفیت شواهد موجود همخوانی دارد یا نه.

همین فاصله میان «درست بودن» و «برآورد میزان اطمینان نسبت به درستی» در سال‌های اخیر به یکی از موضوعات مهم پژوهش در یادگیری ماشین تبدیل شده است.

اگر به تصمیم‌گیری انسان‌ها نگاه کنیم، معمولاً متخصصان باتجربه فقط نتیجه را اعلام نمی‌کنند؛ بلکه سطح اطمینان خود را نیز در نظر می‌گیرند. یک پزشک زمانی که شواهد کافی در اختیار ندارد، آزمایش‌های تکمیلی درخواست می‌کند. یک مهندس سازه در شرایط نامطمئن از ضرایب ایمنی استفاده می‌کند. به بیان دیگر، بخشی از تخصص به این مربوط می‌شود که بدانیم چه زمانی اطلاعات کافی نداریم.

بسیاری از مدل‌های یادگیری ماشین، دست‌کم در شکل استاندارد خود، چنین قابلیتی را به‌صورت طبیعی در اختیار ندارند.

۲. مشکل اصلی: مدل‌ها معمولاً مجبورند پاسخ بدهند

یکی از محدودیت‌های بنیادین بسیاری از مدل‌های یادگیری ماشین این است که تقریباً همیشه باید پاسخی تولید کنند. در یک مدل طبقه‌بندی استاندارد، هدف آموزش این است که برای هر ورودی، برچسب صحیح پیش‌بینی شود. خروجی مدل معمولاً از طریق تابع Softmax به مجموعه‌ای از احتمال‌ها تبدیل می‌شود. اما این احتمال‌ها لزوماً بیانگر میزان اطمینان واقعی مدل نیستند.

برای مثال، اگر مدلی که فقط حیوانات رایج را دیده، با تصویری بسیار غیرعادی یا خارج از توزیع آموزشی خود مواجه شود، باز هم معمولاً مجبور است یکی از کلاس‌های موجود را انتخاب کند. در چنین شرایطی ممکن است عددی مانند «۷۸٪ احتمال سگ» تولید شود، حتی اگر ورودی اساساً مشابه هیچ‌یک از نمونه‌های آموزشی نباشد.

به همین دلیل، در بسیاری از کاربردها دیگر نمی‌توان احتمال خروجی مدل را به‌سادگی معادل میزان اعتمادپذیری آن در نظر گرفت.

این مسئله در حوزه‌هایی مانند پزشکی، خودروهای خودران، سامانه‌های مالی و سیستم‌های تصمیم‌یار اهمیت ویژه‌ای پیدا می‌کند؛ زیرا در چنین کاربردهایی، ناتوانی مدل در تشخیص «نمی‌دانم» می‌تواند هزینه‌بر یا حتی خطرناک باشد.

۳. عدم قطعیت چیست؟

برای درک بهتر موضوع، سه مثال ساده را در نظر بگیرید.

وقتی یک تاس سالم می‌اندازید، نتیجه ذاتاً تصادفی است. حتی اگر همه چیز را درباره شرایط پرتاب بدانیم، همچنان نتیجه هر بار قابل پیش‌بینی دقیق نخواهد بود. این نوع عدم قطعیت به خود پدیده مربوط است.

در پیش‌بینی آب‌وهوا نیز بخشی از عدم قطعیت از پیچیدگی و رفتار آشوبناک جو ناشی می‌شود. البته بخشی دیگر می‌تواند به محدودیت داده‌ها یا مدل‌های پیش‌بینی مربوط باشد.

حالا پزشکی را تصور کنید که با بیماری نادری مواجه شده که هرگز پیش از این ندیده است. در اینجا بخشی از عدم قطعیت ناشی از کمبود دانش و تجربه است و با اطلاعات بیشتر می‌تواند کاهش یابد.

این تمایز، ما را به دو نوع اصلی عدم قطعیت در یادگیری ماشین می‌رساند؛ مفهومی که در سال‌های اخیر نقش مهمی در طراحی سامانه‌های قابل اعتماد پیدا کرده است.

۴. دو نوع اصلی عدم قطعیت

عدم قطعیت ذاتی (Aleatoric Uncertainty)

این نوع عدم قطعیت به نویز، ابهام یا تصادفی بودن خود داده‌ها مربوط است و حتی با جمع‌آوری داده‌های بیشتر نیز به طور کامل از بین نمی‌رود. برای مثال، در بسیاری از مسائل مالی، بخشی از نوسانات کوتاه‌مدت بازار ناشی از عواملی است که ذاتاً پیش‌بینی‌ناپذیرند. یا در پزشکی، ممکن است یک نمونه واقعاً در مرز میان دو دسته تشخیصی قرار داشته باشد و حتی متخصصان درباره آن به توافق کامل نرسند.

از دیدگاه مدل‌سازی، هدف معمولاً حذف این نوع عدم قطعیت نیست؛ بلکه تلاش می‌شود آن را به شکلی مناسب نمایش دهیم. به همین دلیل، در برخی مسائل به جای پیش‌بینی یک مقدار واحد، توزیع یا بازه‌ای از نتایج ممکن ارائه می‌شود.

عدم قطعیت معرفتی (Epistemic Uncertainty)

این نوع عدم قطعیت از محدودیت دانش مدل ناشی می‌شود و معمولاً با داده‌های بیشتر، داده‌های متنوع‌تر یا مدل‌های بهتر کاهش می‌یابد.

فرض کنید یک سیستم خودروی خودران عمدتاً در شرایط آب‌وهوایی آفتابی آموزش دیده باشد. اگر برای نخستین بار با برف سنگین مواجه شود، ممکن است در تشخیص مسیر یا موانع دچار مشکل شود. این مشکل ناشی از کمبود تجربه مدل در چنین شرایطی است.

یا فرض کنید یک مدل پزشکی فقط روی بیماران ۲۰ تا ۶۰ ساله آموزش دیده باشد. اگر با بیماری بسیار مسن مواجه شود، طبیعی است که انتظار داشته باشیم نسبت به پیش‌بینی خود محتاط‌تر باشد.

در پژوهش‌های یادگیری ماشین، روش‌هایی مانند Active Learning، شبکه‌های عصبی بیزی و Monte Carlo Dropout عمدتاً برای برآورد یا کاهش این نوع عدم قطعیت مورد استفاده قرار می‌گیرند.

به طور کلی، هر زمان مدل با شرایطی مواجه شود که به‌خوبی در داده‌های آموزشی نمایندگی نشده‌اند، معمولاً بخشی از عدم قطعیت مشاهده‌شده از نوع معرفتی است.

۵. چرا Accuracy کافی نیست؟

فرض کنید دو مدل تشخیص تقلب مالی داریم که هر دو روی یک مجموعه آزمون، دقت یکسانی کسب کرده‌اند.

مدل اول هنگام اعلام «۹۵٪ اطمینان» در عمل فقط در حدود ۶۵٪ مواقع درست است. همچنین روی داده‌های غیرمعمول نیز با اطمینان بالا پیش‌بینی می‌کند.

مدل دوم هنگام اعلام «۹۵٪ اطمینان» تقریباً در همان حدود درست عمل می‌کند و هرگاه با نمونه‌های ناشناخته یا غیرعادی مواجه شود، سطح اطمینان خود را کاهش می‌دهد و درخواست بررسی انسانی می‌کند.

اگر فقط Accuracy را ببینیم، این دو مدل تقریباً یکسان به نظر می‌رسند. اما از منظر قابلیت اعتماد، تفاوت میان آن‌ها بسیار عمیق است.

در بسیاری از کاربردهای واقعی، دانستن اینکه چه زمانی نباید به مدل اعتماد کرد، تقریباً به اندازه خود دقت مدل اهمیت دارد. به همین دلیل، در سال‌های اخیر معیارهای مرتبط با عدم قطعیت و کالیبراسیون توجه قابل توجهی در جامعه پژوهشی دریافت کرده‌اند.

۶. کالیبراسیون (Calibration)

فرض کنید مدلی بارها پیش‌بینی‌هایی با اطمینان ۸۰٪ ارائه می‌کند.

اگر در بلندمدت تقریباً ۸۰٪ این پیش‌بینی‌ها درست باشند، می‌گوییم مدل کالیبره است.

نمونه‌ای آشنا از این مفهوم را می‌توان در پیش‌بینی آب‌وهوا مشاهده کرد. اگر در تمام روزهایی که هواشناس «۷۰٪ احتمال باران» اعلام کرده، تقریباً در ۷۰٪ موارد باران ببارد، می‌توان گفت این پیش‌بینی‌ها به‌خوبی کالیبره شده‌اند.

در مقابل، یک مدل بیش‌ازحد مطمئن (Overconfident) ممکن است مرتباً احتمال‌های بالا اعلام کند، در حالی که نرخ موفقیت واقعی آن به‌مراتب کمتر باشد.

یکی از معیارهای رایج برای سنجش این موضوع، Expected Calibration Error یا ECE است. هرچه مقدار این معیار کمتر باشد، همخوانی میان اطمینان اعلام‌شده و عملکرد واقعی مدل بیشتر خواهد بود.

روش‌هایی مانند Temperature Scaling، Platt Scaling و Isotonic Regression نیز برای بهبود کالیبراسیون مدل‌ها توسعه یافته‌اند و همچنان در بسیاری از سامانه‌های عملی مورد استفاده قرار می‌گیرند.

۷. وقتی عدم قطعیت نادیده گرفته می‌شود

در بسیاری از سامانه‌های واقعی، مسئله فقط پیش‌بینی اشتباه نیست؛ بلکه ناتوانی در تشخیص شرایط نامطمئن است. مدل ممکن است با داده‌هایی مواجه شود که تفاوت قابل توجهی با داده‌های آموزشی دارند. اگر سامانه نتواند این وضعیت را تشخیص دهد، ممکن است تصمیم‌هایی با اطمینان ظاهری بالا اما کیفیت واقعی پایین اتخاذ شود.

نمونه‌های متعددی در پژوهش‌های پزشکی نشان داده‌اند که مدل‌هایی با عملکرد مطلوب در یک بیمارستان، پس از انتقال به بیمارستانی دیگر و مواجهه با جمعیت بیمار متفاوت یا پروتکل‌های متفاوت، عملکرد ضعیف‌تری پیدا می‌کنند.

این پدیده که معمولاً با عنوان Distribution Shift شناخته می‌شود، یکی از چالش‌های مهم استقرار مدل‌های یادگیری ماشین در محیط‌های واقعی به شمار می‌رود.

۸. عدم قطعیت در مدل‌های زبانی بزرگ

با ظهر مدل‌های زبانی بزرگ، موضوع عدم قطعیت اهمیت بیشتری پیدا کرده است.

این مدل‌ها معمولاً پاسخ‌ها را به صورت متن تولید می‌کنند و برخلاف بسیاری از مدل‌های طبقه‌بندی، سطح اطمینان آماری خود را مستقیماً نمایش نمی‌دهند.

نکته مهم اینجاست که عباراتی مانند «فکر می‌کنم»، «احتمالاً» یا «مطمئن نیستم» لزوماً بازتاب دقیقی از عدم قطعیت درونی مدل نیستند. این عبارات بخشی از الگوهای زبانی آموخته‌شده‌اند و به تنهایی نمی‌توانند مبنای مناسبی برای ارزیابی اعتمادپذیری پاسخ باشند.

برای تخمین عدم قطعیت در مدل‌های زبانی، پژوهشگران از روش‌های مختلفی استفاده می‌کنند:

Ensemble Methods
Monte Carlo Dropout
Bayesian Deep Learning
Conformal Prediction

همچنین برخی مطالعات نشان داده‌اند که مقایسه پاسخ‌های متعدد مدل به یک سؤال می‌تواند اطلاعاتی درباره میزان پایداری پاسخ فراهم کند. البته پایداری پاسخ الزاماً به معنای درست بودن آن نیست؛ یک مدل می‌تواند بارها با اطمینان کامل همان پاسخ اشتباه را تکرار کند.

۹. جمع‌بندی

در بسیاری از کاربردهای واقعی، موفقیت یک مدل فقط به دقت آن وابسته نیست.

مدلی که بتواند شرایط نامطمئن را تشخیص دهد، محدودیت‌های خود را بشناسد و در مواقع لازم درخواست بررسی انسانی کند، معمولاً از مدلی که همیشه با اطمینان بالا پاسخ می‌دهد قابل اعتمادتر است.

شاید یکی از مهم‌ترین درس‌هایی که در سال‌های اخیر از استقرار مدل‌های یادگیری ماشین در دنیای واقعی آموخته‌ایم همین باشد: یک سیستم هوشمند فقط نباید پاسخ‌های خوب تولید کند؛ بلکه باید بداند در چه شرایطی نباید به پاسخ خود بیش از حد اعتماد کند.

به همین دلیل، ارزیابی عدم قطعیت و کالیبراسیون امروز دیگر صرفاً یک موضوع پژوهشی حاشیه‌ای نیست، بلکه به بخشی جدایی‌ناپذیر از توسعه و استقرار سامانه‌های یادگیری ماشین، به‌ویژه در حوزه‌های حساس و پرریسک، تبدیل شده است