اوبر از سرویس جدیدی برای آزمون بازخورد مدل‌های یادگیری ماشین در مقیاس بزرگ رونمایی می‌کند

آزمون بازخورد (backtesting) یک جنبه بسیار مهم از چرخه عمر مدل‌های یادگیری ماشین است. هر سازمانی که چندین مدل پیش‌بینی را اجرا می‌کند به یک مکانیزم نیاز دارد تا به طور منظم اثربخشی آن را ارزیابی کرده و از خطاها بازیابی کند. مقیاس آزمون بازخورد به صورت نمایی با تعداد مدل‌های یادگیری ماشین مورد استفاده در یک محیط ارتباط دارد. علی‌رغم اهمیت، آزمون بازخورد در مقایسه با جنبه‌های دیگر چرخه عمر یادگیری ماشین مانند آموزش مدل یا گسترش آن نسبتا نادیده گرفته شده‌است. به تازگی، اوبر از یک سرویس جدید که به طور کامل از پایه برای آزمون بازخورد مدل‌های یادگیری ماشین در مقیاس ساخته شده‌است، پرده برداشت.

اوبر یکی از بزرگ‌ترین زیرساخت‌های یادگیری ماشین در جهان را اداره می‌کند. اوبر در کنار ویژگی‌های متعدد خود، هزاران مدل پیش‌بینی را در سراسر مناطق مختلف مانند برنامه‌ریزی سواری یا مدیریت بودجه اجرا می‌کند. تضمین دقت این مدل‌های پیش‌بینی کار آسانی نیست. تعداد مدل‌ها و مقیاس محاسبات، محیط اوبر را برای اکثر چارچوب‌های آزمون معکوس نسبتا غیرعملی می‌سازد. اوبر چارچوب‌های آزمون بازخورد قبلی مانند (اومفالوس) را نیز ایجاد کرده‌است که ثابت شده‌است برای برخی موارد استفاده خاص موثر است، اما قادر به ارزیابی عملکرد اوبر نیست.

ما در مورد چه سطحی از مقیاس صحبت می‌کنیم؟ برای قرار دادن همه چیز در متن، (اوبر) باید حدود ۱۰ میلیون آزمون بازخورد را در مدل‌های مختلف پیش‌بینی خود هماهنگ کند. علاوه بر این مقیاس، عملیات اوبر ویژگی‌های مختلفی دارد.

درک روش اوبر برای آزمون بازخورد

همه آزمون‌های بازخورد مثل هم انجام نمی‌شوند. سازمان‌های مختلف برای تست مدل‌هایی که ماهیت خاص دامنه کسب‌وکار آن‌ها را منعکس می‌کنند، بر بردارهای مختلفی تکیه می‌کنند. در مورد اوبر، غول حمل و نقل نیاز به در نظر گرفتن عناصری مانند تعداد شهرها یا پنجره آزمایش به منظور پشتیبانی موثر مدل‌های آزمایشی دارد. مدل‌هایی که برای یک شهر خوب کار می‌کنند لزوما برای شهر دیگر خوب عمل نمی‌کنند. به طور مشابه، برخی از مدل‌ها باید در زمان واقعی آزمون بازخورد شوند در حالی که برخی دیگر می‌توانند از پس پنجره‌های بزرگ‌تر بربیایند. تمام موارد در نظر گرفته‌شده، Uber چهار بردار کلیدی را شناسایی کرد که به منظور پیش‌بینی مدل‌های آزمون بازخورد مرتبط بوده‌اند.

  • تعداد پنجره‌های تست پشتیبان
  • تعداد شهرها
  • تعداد پارامترهای مدل
  • تعداد مدل‌های پیش‌بینی

ترکیب این چهار بردار منجر به مقیاسی شد که توسط بسیاری از خدمات بازبینی متداول غیرقابل مدیریت بود.

یکی از عناصر کلیدی آزمون معکوس موثر، تعیین چگونگی تقسیم داده‌های آزمون است. بر خلاف تکنیک‌هایی مانند ارزیابی متقابل، آزمون بازخورد داده‌های سری زمانی و شکافه‌ای غیر تصادفی را کاهش می‌دهد. این امر همچنین به این معنی است که هر استراتژی آزمون بازخورد باید به وضوح درک کند که چگونه داده‌های تست را به روشی تقسیم کند که با عملکرد مدل سازگار شود. در مورد اوبر، این کار باید در میان هزاران مدل نیز انجام شود. برای پرداختن به این چالش، اوبر انتخاب کرد تا از دو مکانیسم تقسیم داده آزمون معکوس اولیه، آزمون بازخورد با یک پنجره در حال گسترش و آزمون بازخورد با یک پنجره در حال لغزش استفاده کند. هر پنجره به داده‌های آموزشی تقسیم می‌شود، که برای آموزش مدل و آزمایش داده‌ها استفاده می‌شود، که برای محاسبه نرخ خطا برای مدل آموزش‌دیده استفاده می‌شود.

آخرین جز استراتژی آزمون بازخورد، اندازه‌گیری دقیق دقت مدل است. یکی از رایج‌ترین معیارها میانگین خطای درصد مطلق (MAPE) است که می‌تواند به صورت ریاضی به صورت زیر مدل‌سازی شود:

هنگامی که به آزمون بازخورد مدل می‌رسیم، MAPE کم‌تر می‌شود، یک مدل پیش‌بینی بهتر عمل می‌کند. معمولا، دانشمندان داده از معیار MAPE برای مقایسه نتایج روش‌های محاسبه نرخ خطا که توسط همان مدل استفاده می‌شود برای اطمینان از اینکه آن‌ها آنچه را که در واقع در پیش‌بینی اشتباه رفته‌است بیان می‌کنند، استفاده می‌کنند.

با کنار هم قرار دادن این سه عنصر: آزمون بازخورد بردارها، آزمون بازخورد پنجره‌ها و سنجش خطا، راه‌اندازی اوبر یک سرویس آزمون بازخورد جدید که می‌تواند عملیات پیش‌بینی را در سراسر سازمان ساده کند برپا نمود.

سرویس آزمون بازخورد اوبر

در طول سال‌ها، اوبر فن‌آوری‌های اختصاصی مختلفی ساخته‌است که به ساده کردن مدیریت چرخه عمر مدل‌های یادگیری ماشین کمک می‌کند. سرویس آزمون بازخورد جدید توانست از این زیرساخت پیچیده با استفاده از فن‌آوری‌هایی مانند ابزار علم داده، تجزیه و تحلیل داده‌های تعاملی اوبر و جعبه‌ابزار یادگیری ماشین، و پلتفرم یادگیری ماشین میکلانژ، استفاده کند.

از نقطه‌نظر معماری، سرویس آزمون بازخورد جدید شامل یک کتابخانه پایتون و یک سرویس نوشته شده در گو می‌باشد. کتابخانه پایتون مانند یک کلاینت پایتون عمل می‌کند. از آنجا که بسیاری از مدل‌های یادگیری ماشین در اوبر در حال حاضر در پایتون نوشته شده‌اند، استفاده از این چارچوب برای سرویس آزمون بازخورد، که به کاربران اجازه می‌دهد تا به طور یکپارچه روی مدل‌های خود سوار، تست، و تکرار شوند، یک انتخاب مناسب بود.

سرویس گو به صورت مجموعه‌ای از جریان‌های کاری کادنس (cadence) نوشته شده‌است. کادنس یک موتور هماهنگ‌کننده متن باز است که در گو نوشته شده‌است و توسط اوبر برای اجرای غیر همزمان منطق تجاری در حال اجرا به روشی مقیاس پذیر و انعطاف‌پذیر ساخته شده‌است. در سطح بالا، مدل‌های یادگیری ماشین از طریق سکوی دیتاساینس بارگذاری می‌شوند و درخواست‌های آزمون بازخورد در مورد داده‌های مدل را با استفاده از کتابخانه پایتون که درخواست را به سرویس تست مجدد Go ارسال می‌کند، ارسال می‌شوند. هنگامی که یک اندازه‌گیری خطا محاسبه می‌شود، یا در یک انبار داده ذخیره می‌شود یا بلافاصله توسط تیم‌های دانش داده به کار گرفته می‌شود، که از این خطاهای پیش‌بینی برای بهینه‌سازی مدل‌های یادگیری ماشین در آموزش استفاده می‌کنند.

با وارد کردن جزئیات، جریان کار تست مجدد از چهار مرحله تشکیل شده‌است. در مرحله ۱، این مدل یا بصورت محلی در سکوی کار علوم داده (DSW) نوشته شده و یا به یک سکوی یادگیری ماشین آپلود شده، که یک ID مدل منحصر به فرد را باز می‌گرداند. DSW از طریق سرویس Go ما یک تست برگشتی راه‌اندازی می‌کند، که سپس یک UID را به DSW برمی گرداند. در مرحله ۲، سرویس Go داده‌های آموزشی و آزمایشی را جمع‌آوری می‌کند، آن را در یک انبار داده ذخیره می‌کند، و یک مجموعه داده را باز می‌گرداند. در مرحله ۳، مجموعه داده‌های تست مجدد بر روی سکوی یادگیری ماشین آموزش داده می‌شود و نتایج پیش‌بینی تولید شده و به سرویس Go بازگردانده می‌شوند. در مرحله ۴، نتایج تست مجدد در یک ذخیره‌کنننده‌داده ذخیره می‌شوند تا توسط کاربران با استفاده از DSW قابل انتقال باشند.

اوبر شروع به استفاده از سرویس آزمون بارخورد جدید در چندین مورد کاربردی مانند پیش‌بینی مالی و مدیریت بودجه کرده‌است. فراتر از کاربرد اولیه، سرویس آزمون بازخورد جدید می‌تواند به عنوان یک معماری مرجع برای بسیاری از سازمان‌ها به کار گرفته شود تا از مدل‌های یادگیری ماشین در مقیاس بالا استفاده کنند. اصول مشخص‌شده در معماری سرویس آزمون بازخورد را می توان در تعداد مختلفی از چارچوب‌ها و پلتفرم‌های یادگیری ماشین به کار برد. جالب خواهد بود که ببینیم آیا اوبر تصمیم می‌گیرد تا این سرویس را در آینده نزدیک متن‌باز کند یا خیر.


منتشرشده در: مجله towardsdatascience به تاریخ ۱۷ فوریه ۲۰۲۰
نویسنده: Jesus Rodriguez
لینک مقاله اصلی:https://towardsdatascience.com/uber-unveils-a-new-service-for-backtesting-machine-learning-models-at-scale-430c7b127f4c

این مقاله توسط ربات هوشمند ترجمه مقالات علمی و به صورت خودکار ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته و می‌تواند به صورت محدود دارای اشکالات ترجمه باشد.