چرا باید بهت اعتماد کنم؟
یا خروجی یک مدل یادگیری ماشین چقدر قابل اعتماد است.
کلیترین نگاهی که به علم هوش مصنوعی در حوزه یادگیری میشه کرد اینه که ما به یک سیستم یاد میدیم که چطوری یاد بگیره! و بعدش اگه همه چیز بر وفق مراد پیش بره (مثلاً به تعداد کافی داده در اختیار داشته باشیم، سختافزار پردازشگر مناسب مثل کارت گرافیک نسبتاً قدرتمند در اختیار داشته باشیم، مدلی که برای مسأله مورد نظر انتخاب میکنیم انتخاب خوبی باشه، یا ویژگیهایی که برای آموزش دادن مدل انتخاب میشن هوشمندانه و درخور باشند، ابرپارامترها تنظیم شده باشند و ....) بعدش میشه پا روی پا انداخت و امیدوار بود که مدل روی دادههای آزمایش هم نتیجه خوبی بده. کل هدف من از نوشتن این متن اینه که «نتیجه خوب» چیه؟ بعد از اینکه دونه دونه دستورالعمل پخت یک مدل از مرحله پیشپردازش داده، مهندسی ویژگی و انتخاب ویژگی، انتخاب مدل و اعتبارسنجی رو اجرا کردیم در مرحله تست برای اینکه بفهمیم مدلمون عملکرد خوبی داره یا نه به معیارهای ارزیابی نیاز داریم. اکثر مدلهای یادگیری ماشین معیار اصلی ارزیابیشون accuracy است. معیارهای ارزیابی دیگهای هم مثل امتیاز اف، precision و recall هم با توجه به مسأله اهمیتشون کم و زیاد میشه. اگر معیار ارزیابی بالا باشه معمولا توی یک جدول توی صفحههای آخر مقالهتون قرار میگیره، کل دنیا هم روش قسم حضرت عباس میخوره که مدلت خوبه.
اکثر مدلهای یادگیری ماشین (مثل شبکههای عصبی) جعبه سیاه هستند. به این معنی که ورودی و خروجی مطلوب معلوم شده و این وسط مدل تخمین خوبی میزنه از اینکه با چه تابعی ورودی رو به خروجی نگاشت کنه. اما سوال اینجاست وقتی شما نمیدونین اون وسط تو دل مدل چه اتفاقاتی افتاده تا این خروجی حاصل بشه، چقدر به خروجی مدل اعتماد میکنید؟ به طور مثال مسأله تشخیص ناهنجاری روی نوار قلب یک بیمار رو در نظر بگیرید. ECG فرد با یک سری الکترود که به بدنش متصل شده هر دو دهم میلی ثانیه سینگال قلب طرف رو ضبط میکنه. فرض کنید ۶۰هزار گام زمانی ثبت شده که در انتها یک سری زمانی از نوار قلب رو نشون میدن که فقط ۲۰۰گام زمانیش نارسایی قلبی فرد رو نشون میده. اونوقت اگه مدل ما فقط خروجی بده که سالمه همه چیز معیار ارزیابی accuracyش میشه ۹۹.۷ درصد که نتیجه فوق العادهست. خب قبل از اینکه ژورنالش کنیم شما به این مدل اعتماد میکنین؟ یک سری نقد و سوال تو ذهنتون احتمالاً پیش اومده که نویسنده یه طرفه به قاضی رفته و چرا معیار ارزیابیش رو یه چیز دیگه مثل recall نذاشت؟ یا چرا اصلاً پارامتر ریسک رو در نظر نگرفت؟ (اگه این سوال تو ذهنتون پیش اومده حتماً اول بیشاپ یا تئودوریس یا کتاب مشابهی در زمینه پترن و امال رو خوندین! درود به تو) یا چرا هر گام زمانی رو ورودی گرفته و زیررشته یا کیف نکرده سری زمانی رو؟ یا.... همه اینها درست اما در مفهومی که می خوام به شما انتقال بدم خدشهای وارد نمیکنه. حوزههایی مثل تشخیصهای پزشکی و موارد امنیتی مثل شناسایی تروریست و ... اعتماد کردن بیش از پیش اهمیت پیدا میکنه و به شخصه من به تشخیص یک دکتر تا تشخیص یک مدل ماشین لرنینگ اعتماد میکنم. (احتمالاً باز تو ذهنتون این سوال پیش اومده که پزشک diagnose میکنه مدل detect میکنه چه ربطی اینا به هم دارن؟ که باید بگم درست فکر میکنید. ولی میخوام این دو تا رو بهم ربطشون بدم. یعنی قراره مدل یادگیری ماشین رو به عنوان کمککننده به یک پزشک مطرح کنم.) با این حال یک مثال دیگه میزنم. فرض کنید آنفولانزا گرفتید و توهم کرونا مثل کابوس شده براتون، اینجا قطعیت حرف اول رو میزنه: من چمه؟ مدل تشخیص بیماری با star فراوان از گیتهاب پیدا کردید و وقتی علائمتون (دادهها) رو به مدل میدید خروجی میده: آنفولانزا. شاید برای یک ثانیه نفس راحتی بکشید اما اگه همون اطراف مامانتون باشه بلند میگه از کجا معلوم راست بگه؟ اینجاست که لیست مفسر (Explanation) برگ برندهای است که یه دانشمند داده یا ماشینلرنینگکار رو میکنه تا جامعه پزشکی و مردم عادی رو از خودش ناامید نکنه. لیست مفسر کارش شبیه پرتو ایکسه. پرتو ایکس رو میندازی روی جعبه سیاه مدل و مشخص میشه که مدل کدوم ویژگیها رو بیشتر بهش اهمیت میده و خروجی نهایی رو بر اساس تأثیر کدوم ویژگیها بیرون میده. به تصویر زیر نگاه کنید.
مدل، بر پایه دادههای ورودیش مثل عطسه، وزن، سردرد، خستگی و سن، آنفولانزا رو تشخیص داده. اما روی خروجی نهایی مدل واقعاً کدوم یکی از اینها باعث شده که خروجی بشه آنفولانزا؟ لیست مفسر از روی مدل فهمیده که مدل با توجه به ویژگیهای عطسه کردن و سردرد و عدم خستگی تشخیص داده که فرد آنفولانزا داره. حالا میشه به این مدل اعتماد کرد؟ اگه پزشک نیستید باید بگین نه. لیست مفسر برای پزشک معالج کاملاً قابل درکه. خبری از صفر و یک و چیزای عجیب غریب کامپیوتر داخلش نیست. در عوض فوق العاده کمککننده میشه. عطسه کردن و سردرد از علائم آنفولانزا هست و همچنین خستگی. اما مدل عدم خستگی رو هم به عنوان یکی از پارامترهای تاثیرگذار برای تشخیصش قرار داده. اما با این همه خیلی به بیراهه نرفته و تا حد قابل قبولی میشه به مدل اعتماد کرد. اما تصمیم آخر رو پزشک میگیره. اینه که میگن کامپیوتر در خدمت انسان نه انسان در خدمت کامپیوتر و مابقی اشعار پشت اتوبوسی. همینطور که مشخصه همین لیستمفسر رو وقتی به یه فرد متخصص (اینجا پزشک) نشون میدید نظر اون در مورد لیست باعث میشه که با اطلاعاتی که از فرد متخصص میگیرین بتونین مدلتون رو ارتقا بدین و چیزایی که اشتباه یاد گرفته رو حالیش کنین که دیگه یاد نگیره. خیلی جالبه نه؟ حالا این لیست مفسر چطور ساخته میشه؟ هیهات داره. مقاله رفرنس رو بخونین. هنوزم به معیارهای ارزیابی که تو مقالهها هست اعتماد میکنین؟ میتونم بهت اعتماد کنم؟
مرجع
Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "" Why should I trust you?" Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
مطلبی دیگر از این انتشارات
اگر می خواهید تحلیلگر داده شوید...
مطلبی دیگر از این انتشارات
الگوریتم ژنتیک و مسئله هشت وزیر
مطلبی دیگر از این انتشارات
تهدید هوش مصنوعی: ترمیناتورهای سرکش؟