یک چارچوب شش موردی در مورد چگونگی حفظ مدل‌های هوش مصنوعی و یادگیری ماشینی شما

شکل ۱. هوش مصنوعی و یادگیری ماشینی
شکل ۱. هوش مصنوعی و یادگیری ماشینی
منتشر‌شده در towardsdatascience به تاریخ ۲۲ ژوئن ۲۰۲۱
لینک منبع A six-point framework on how to maintain your AI/ML models

از آنجا که این بیماری همه‌گیر تغییرات بزرگی در جهان ما ایجاد کرده‌است، ما همیشه نمی‌توانیم بر داده‌های تاریخی تکیه کنیم که از آن‌ها برای آموزش و ساخت نسخه‌های اولیه مدل خود استفاده کردیم. همه ما می‌دانیم-یا باید تا الان درک کرده باشیم-که این نسخه‌های اولیه به نحوی شکسته خواهند شد. موضوع فقط زمان است. در اولین مقاله ما از دسامبر گذشته، ما بحث کردیم که چرا شما به نظارت بر مدل هوش مصنوعی / ML خود نیاز دارید. بیایید با در نظر گرفتن یک چارچوب جامع برای حفظ مدل‌های خود، آن بحث، و دیدگاه خود را گسترش دهیم. این امر بسیار مهم است زیرا مدل‌ها زندگی می‌کنند، ابزارهای کاربردی که از تصمیمات کسب‌وکار ما پشتیبانی می‌کنند، درآمد حاصل می‌کنند، هزینه‌ها را کاهش می‌دهند، و نشان‌دهنده یک سرمایه‌گذاری قابل‌توجه توسط شرکت هستند. نظارت ساده بر مدل‌ها شروع خوبی است اما کافی نیست به خصوص اگر شما تمایل به مقیاس فراتر از تعداد انگشت شماری از مدل‌ها در تولید داشته باشید.

یک چارچوب جامع باید تضمین کند که مدل شما مغرضانه نیست (همه ما مدل استخدام آمازون را به یاد می‌آوریم که تنها با استفاده از مردان آموزش‌دیده بود). باید شامل قابلیت توجیه باشد. زمانی که زمان آموزش مجدد فرا می‌رسد، باید تمام آنچه که ما برای تکرارپذیری کامل نیاز داریم را پوشش دهد. ما آن را به شش نکته کلیدی به شرح زیر تقسیم می‌کنیم.

۱. یک هدف مستند شده اولین گام است. مدل‌های ما باید با اهداف و مقصودهای کسب‌وکار ما هم خوانی داشته باشند، در غیر این صورت کهنه می‌شوند و قدرت خود را از دست می‌دهند. این امر واضح به نظر می‌رسد، اما اغلب نادیده گرفته می‌شود، زیرا گاهی اوقات مدل‌سازان بیشتر درگیر ساختن آن‌ها برای تحقیق خود و یا راضی کردن کنجکاوی فکری خود می‌شوند. همانطور که همکارم دیوید بلاچ در این وبلاگ گفت، « بخشی از چالش، دشواری در ارزیابی ارزش یک تصمیم خوب است.» گاهی اوقات می‌توان از یک مدل برای روشن کردن این تصمیمات و ترسیم دقیق‌تر و کمی کردن ارزش آن‌ها برای کسب‌وکار استفاده کرد. داشتن این هدف-و درک اهداف کسب‌وکار واقعی-مدل را از یک پروژه علم داده دور می‌کند و آن را به بخشی مشروع از کسب‌وکار تبدیل می‌کند. بخشی از رویکرد هدفمند این است که به اهداف، KPIها و سایر معیارها برای ارزیابی ROI فکر کنید و جزئیات مربوط به کاربران نهایی هدف و مکانیزم‌های تحویل را پر کنید. بخش دیگر در درک چگونگی استفاده از یک مدل قبل و بعد از آن است که معیارهای کسب‌وکار خاص را برآورده می‌کند.

۲. جزئیات نسب داده. هر مدلی با یک سری داده اساسی ساخته شده‌است. ترفند، ثبت این جزئیات و نحوه آماده‌سازی داده‌ها با جزئیات کافی برای اطمینان از این است که مدل را می توان بازسازی و قابل‌اعتماد کرد. این مساله در زمان حسابرسی نیز مفید است، بنابراین لازم نیست سعی کنیم داستان منشا داده یک مدل را پی‌گیری کنیم یا مجبور باشیم از ابتدا آن را سوار شویم.

همانطور که در مقاله قبلی اشاره کردم، حتی بهترین مدل‌ها نیز تکامل می‌یابند، زیرا داده‌ها و روابط اساسی در طول زمان تغییر می‌کنند. داشتن این اصل و نسب داده‌ها کلید ردیابی و جلوگیری از انحراف مفهومی است، که در آن جهان تغییر می‌کند اما مدل این تغییرات را منعکس نمی‌کند. این رانش می‌تواند ناشی از تغییر توزیع‌های داده، اندازه‌گیری‌ها، یا پایه کاربری اصلی باشد که ممکن است توسط مدل شما نادیده گرفته شود. نحوه ثبت این تغییرات بسیار مهم است.

۳. یک سیستم ردیابی چرخه عمر کامل. مانند چرخه عمر توسعه نرم‌افزار، این یک فرآیند برای پیوند اجرای مدل با نسخه‌های داده خاص است و یک راه دیگر برای مستند سازی تغییرات مختلف ایجاد شده برای عناصر مدل است که بخشی از فرآیند ساخت تجربی بودند. به این فکر کنید که گیت‌هاب چه کاری برای ردیابی نسخه‌های کد برنامه و یا چه کاری داکر برای ردیابی تعاریف سیستم و اجزا انجام می‌دهد، و یا Kubernetes چه کاری برای ردیابی و هماهنگ کردن نسخه‌های محاسبه انجام می‌دهد. همانطور که اجرای مدل‌های مختلف را به پایان می‌رسانیم، باید این عناصر را مستند سازی کنیم تا بتوانیم پیشرفت خود را تفسیر کرده و نشان دهیم که چگونه مشکلات مختلف را با مدل‌های خود حل می‌کنیم. تکامل مدل‌های ما تقریبا از خود مدل‌های واقعی مهم‌تر است زیرا ما می‌توانیم بهتر درک کنیم که چه چیزی را مدل‌سازی می‌کنیم و چرا تصمیم گرفتیم که نه تنها آن‌ها را در وهله اول بسازیم بلکه ورودی‌ها و فرضیات داده آن‌ها را تنظیم کنیم.

۴. یک ثبت مدل که به سیستم ردیابی چرخه عمر که در بالا ذکر شد متصل است. مرکز ثبت همچنین می‌تواند برای ردیابی تاریخچه نسخه مدل استفاده شود که در آن هر نسخه با همان عناصری که ما در تغییر داده‌ها، کد، نرم‌افزار و پلت‌فرم‌های سخت‌افزاری تجربه می‌کنیم، کاملا قابل تکرار است. وضعیت ایده‌آل این است که یک رجیستری مرکزی با داشبورد خلاصه داشته باشید که بتوانید نسخه‌های مدل را مرور کرده و تاریخچه هرکدام را مرور کنید.

۵. اعتبار روال‌هایی که کد را بررسی می‌کنند، توضیحات مختلف در مورد بررسی‌های اخلاقی و اریبی آن را گزارش می‌کنند و مهر تایید کاربران را به دست می‌آورند. این همچنین می‌تواند مکان خوبی برای گزارش در مورد توافقات سطح خدمات و دیگر آزمون‌های عملکردی باشد که ما انجام داده‌ایم و در مورد آمادگی عمومی تولید آن اظهار نظر کرده‌ایم. من مدلسازان زیادی را دیده‌ام که از این مرحله صرف‌نظر می‌کنند. اعتبار سنجی کلید اطمینان از این است که مدل کاری را انجام می‌دهد که شما قصد انجام آن را داشتید. همچنین کلید تصمیم‌گیری زمانی است که زندگی مفید یک مدل به پایان خود نزدیک می‌شود و نیاز به بازنشستگی یا بازسازی دارد.

۶. نکته آخر داشتن یک سیستم نظارت مدل باز است. این چیزی است که من در پست ماه دسامبر ام مورد بحث قرار دادم، و باید برای ثبت اقلامی مانند انحراف داده‌ها، یک حقیقت زمینی واحد، دقت اندازه‌گیری و ارائه قابلیت‌های کاهش مهارت برای کشف سیگنال‌های مزاحم استفاده شود. سیستم نظارت نیز باید قادر به شناسایی ناهنجاری‌ها باشد و به طور خودکار سهامداران را در زمانی که آستانه های خاصی بالاتر از حد مجاز است، آگاه سازد.

همانطور که سرمایه‌گذاری خود را در علم داده و مدل‌سازی گسترش می‌دهید، باید مجموعه‌ای فزاینده از مدل‌ها را مدیریت کرده و حفظ کنید که کسب‌وکار شما به طور روزانه به آن‌ها وابسته است. در اینجا به دو روش می‌توانید شروع کنید. اول، برنامه نگهداری مدل فعلی خود را در برابر هر یک از شش هدف ذکر شده در اینجا بررسی کنید. دوم، یک نیروی کار برای تلاش ایجاد کنید، یا گرفتن کمک خارجی را در نظر بگیرید. این کار نیازمند صرف زمان و منابع بیشتری است، اما در نهایت به مدل‌های بهتری خواهید رسید که عمر طولانی تری دارند، امن‌تر هستند، و نقش بزرگتری در هدایت تصمیمات کسب‌وکار شما دارند. کسب و کارهایی که با مراقبت از مدل از این منحنی جلوتر می‌روند، برای سال‌های آتی موقعیت قدرتمندی برای مزیت رقابتی خواهند داشت. به این منبع به عنوان راهی برای تصور و هدایت یک آینده مطمئن برای کسب‌وکار خود فکر کنید.

این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.