فهرست وظایف و ابزارها برای ساخت پایپ‌لاین مقیاس‌پذیر

شکل ۱. وظایف و ابزارها برای ساخت پایپ‌لاین مقیاس‌پذیر
شکل ۱. وظایف و ابزارها برای ساخت پایپ‌لاین مقیاس‌پذیر
منتشر‌شده در: towardsdatascience به تاریخ ۱۸ آوریل ۲۰۲۱
لینک منبع: Tasks & Tools List for Building Scalable ML Pipelines

چه چیزی یادگیری ماشینی را در توییتر هدایت می‌کند که مرتبط‌ترین توییت‌ها را در بالای تایم‌لاین من نشان می‌دهد؟ چگونه می‌توان پلتفرم ML خود را برای بهبود ویژگی‌های مورد علاقه کاربر مانند توصیه‌ها و توضیحات هفتگی مقیاس‌گذاری کرد؟ چگونه ایرباس ناهنجاری‌های موجود در جریان داده دورسنجی زمان واقعی را با استفاده از مدل LSTM که بیش از ۵ تریلیون نقطه داده را آموزش داده است، شناسایی می‌کند؟

این سوالات جذاب هستند زیرا همه این سازمان‌ها (و مانند آن‌ها) کار برجسته ساخت سیستم‌های ML هنری را انجام داده‌اند. چیزی که در همه این موارد رایج است این است که چگونه آن‌ها زیرساخت ML خود را با اتخاذ گسترش TFX به عنوان هسته پایپ‌لاین ML خود بهینه‌سازی کردند.

ایجاد یک پایپ‌لاین ML بخش قابل‌توجهی از کسب‌وکار است که نیاز به اجزای مختلف زیادی دارد تا به شیوه‌ای یکپارچه ادغام شوند.

برای کسانی از شما که در ایجاد پایپ‌لاین ML جدید هستند:

ممکن است به مطالعه مقاله ۱۲ کتابخانه برتر پایتون برای علم داده در سال ۲۰۲۱ علاقمند باشید.

مقدمه‌ای کوتاه بر پایپ‌لاین ML

هر سازمان داده محور که ML را در محصول / پلتفرم خود ادغام کرده است از پایپ‌لاین ML برای ساده کردن توسعه و به‌کارگیری مدل‌های در حال تکامل خود در ارتباط با داده‌های جدید ورودی استفاده می‌کند. به بیان ساده، یک پایپ‌لاین ML یک توالی از وظایف است که برای انتقال مدل ML (ها) از یک آزمایش Jupyter Notebook (یا Google Colab) به یک برنامه قوی در تولید اجرا می‌شود.

هرچه پروژه بزرگ‌تر باشد، ایجاد کل فرآیند برای رسیدگی به مقیاسی که منجر به یک رشته مهندسی جدید به نام MLOps شده است، سخت‌تر می‌شود. حال، این وظایف چه هستند و چه ابزارهایی را می‌توان به منظور ساخت این پایپ‌لاین قوی آماده تولید استفاده کرد، چیزی است که در بخش‌های زیر توضیح داده شده است.

تعقیب داده

روش‌های متعددی برای ورود داده‌ها به پایپ‌لاین یادگیری ماشین وجود دارد. شما می‌توانید داده‌ها را از دیسک محلی یا هر پایگاه‌داده دیگری را استفاده کنید. TFX رکوردهای داده‌های تعقیب‌شده را به tf.Example (در فایل‌های TFRecord-برای ذخیره‌سازی رکوردهای باینری) برای مصرف مولفه‌های پایین‌دست و این فایل‌های باینری تبدیل می‌کند که کار ما را با مجموعه داده‌های بزرگ آسان و فوق‌العاده سریع می‌کند.

وظایف اصلی:

  • اتصال به یک منبع داده، فایل‌ها یا سرویس ابری برای بازیابی موثر داده‌ها.
  • مجموعه داده‌ها را به زیرمجموعه‌های آموزشی و آزمایشی تقسیم می‌کند.
  • اندازه‌گیری مجموعه داده‌ها و نسخه‌برداری با استفاده از ابزارهایی مانند DVC (با خالق صحبت کنید).
  • علاوه بر این، شما به روش‌های جذب اختصاصی برای مجموعه داده‌های ساختاری، متنی و تصویری نیاز دارید.

ابزارهای مورد استفاده:

  • با استفاده از Tensorflow Extended
  • همچنین tf.Example، TFFile-می‌تواند فضای دو بعدی پرس‌و‌جوی ابری، Cloud SQL یا S3 را به هم متصل کند.
  • ابزار DVC برای به‌روزرسانی مجموعه داده‌ها.
  • می‌تواند هر نوع داده-CSV، تصاویر، متن و غیره را آپلود کند.

اعتبار‌سنجی داده‌ها

یک مزیت اولیه استفاده از TFRecord/ tf.Example پشتیبانی آسان اعتبارسنجی داده tensorflow (TFDV) بود - یکی از اولین اجزای باز که توسط گوگل از مقاله TFX آن‌ها در دسترس قرار می‌گیرد. TFDV به مهندسان ML ما اجازه داد تا داده‌های خود را در طول توسعه مدل بهتر درک کنند و به راحتی مشکلات رایج مانند انحراف، مقادیر اشتباه، یا تعداد زیادی از صفرهای پایپ‌لاین و خدمات تولیدی را تشخیص دهند. /سخنگوی تیم

مراحل اعتبار‌سنجی داده‌ها در پایپ‌لاین برای بررسی هر‌گونه ناهنجاری و تاکید بر هر گونه شکست. شما می‌توانید مجموعه داده‌های جدید را پس از اجرای آن‌ها از طریق TFDV و سپس به طور جداگانه بررسی کنید.

در اصل TFX کتابخانه‌ای به نام TFDV ارائه می‌دهد که می‌تواند به شما در اعتبار‌سنجی داده‌ها کمک کند. TFDV در TFRecords (یا پرونده‌های CSV) قرار می‌گیرد و سپس به شما اجازه می‌دهد تا برش داده، مقایسه داده، بررسی skewness و انواع دیگر تحلیل‌ها را انجام دهید.

همچنین می‌توانید نتایج اعتبار‌سنجی را در تسهیلات پروژه Google PAIR مشاهده کنید.

وظایف اصلی:

  • مجموعه داده‌های ناهنجاری را بررسی می کند.
  • هر‌گونه تغییر در طرح داده را بررسی می‌کند.
  • همچنین تغییرات در آمار داده‌های جدید را در مقایسه با داده‌های آموزشی برجسته می‌کند.
  • ابزار TFDV به مقایسه چندین مجموعه داده کمک می‌کند.

ابزارهای مورد استفاده:

  • اعتبار‌سنجی داده‌های تانسوری (TFDV)
مطالعه مقاله برگه تقلب پایتون برای دانشمندان داده (۲۰۲۱) توصیه می‌شود.

تبدیل ویژگی

تبدیل‌هایی مانند رمزگذاری one-hot، نرمال‌سازی ویژگی‌های کمی، تغییر نام ویژگی‌ها، پیش‌پردازش دسته‌ای و بسیاری دیگر را اضافه می‌کند. ابزار TFX کتابخانه‌هایی مانند TFT (تبدیل tensorFlow) را برای پیش‌پردازش داده‌ها در اکوسیستم TF ارائه می‌دهد.

ابزار TFT داده‌ها را پردازش می‌کند و دو اثر هنری را برمی گرداند:

  • مجموعه داده‌های آموزشی و تست تغییر شکل داده‌شده در فرمت TFRecord.
  • نمودار تبدیل مورد نظر.

وظایف اصلی:

  • پردازش نام‌های مشخصه، انواع داده، مقیاس‌گذاری، کدگذاری، PCA، باکیت کردن، TFIDF، و غیره.
  • پردازش داده‌ها با استفاده ازtf.Transform.
  • نوشتن توابع پیش‌پردازش.
  • ادغام مراحل در پایپ‌لاین TFX.

ابزارهای مورد استفاده:

  • ابزار tf.Transform

آموزش مدل

آموزش یک مدل در پایپ‌لاین یک وجه مثبت دارد که با صادر کردن تمام مراحل تحول و آموزش مدل به عنوان یک نمودار، هر منبع خطایی را از بین می‌برد.

وظایف اصلی:

  • کل فرآیند توسعه مدل و آزمایش خود را پیگیری کنید. * اتوماسیون فرآیند با استفاده از پایپ‌لاین TFX.
  • پارامترهای بیش از حد را در یک خط لوله تنظیم می کند.
  • حفظ نه تنها وزن مدل آموزش‌دیده، بلکه حفظ مراحل پردازش داده و حفظ انسجام.

ابزارهای مورد استفاده:

  • ابزار Sklearn / tf.Keras / XGBoost
  • پایپ‌لاین TFX

ارزیابی مدل-تحلیل و اعتبارسنجی

تحلیل مدل تنسورفلو (TFMA) به تجسم عملکرد، انصاف (ابزار What-If)، به دست آوردن معیارهای گروه‌های متمایز در داده‌ها، مقایسه با مدل‌های قبلا مستقر شده، و تنظیم پارامترهای بیش از حد در خود پایپ‌لاین کمک می‌کند.

وظایف اصلی:

  • تعریف تعدادی از معیارهای مشتق از مجموعه KPI ها در ابتدا
  • گرفتن معیارهای عملکرد دقیق با استفاده از تجزیه و تحلیل مدل TFMA
  • بررسی شاخص‌های انصاف مدل

ابزارهای مورد استفاده:

  • تجزیه و تحلیل مدل TensorFLow (TFMA) - tf.ModelAnalysis
  • ابزار What-IF
شاید مطالعه مقاله توسعه مبتنی بر ترانک (Trunk) چیست؟ برای شما مفید باشد.

سرویس تنسوری‌فلو و پلتفرم Google Cloud AI

سرویس tensorFlow یک روش ساده و سازگار برای گسترش مدل‌ها از طریق یک مدل سرور ارائه می‌دهد. علاوه بر این، می‌توانید از رابط کاربری وب برای پیکربندی نقاط انتهایی مدل خود بر روی پلتفرم AI استفاده کنید.

سه روش استقرار مدل: مدل سرور، مرورگر کاربر، یا بر روی edge دستگاه. بهترین گزینه برای برنامه کاربردی خود را شناسایی کنید.

  • تنظیم سرویس tensorflow برای استقرار مداوم مدل‌های خود.
  • پاسخ به گزینه ارتباطی که به هدف شما عمل می‌کند: REST در مقابل gRPC.
  • ارائه‌دهنده ابر را انتخاب کنید.
  • استقرار با استفاده از پایپ‌لاین TFX.

ابزارهای مورد استفاده:

  • سرویس Tensorflow
  • ابزار REST
  • ابزار gRPC
  • ابزار GCP / AWS

تنظیم پایپ‌لاین

ارکسترهای پایپ‌لاین زیربنای اجزای ذکر شده را تشکیل می‌دهند. ابزار تنظیم زمانی بررسی می‌شود که یک وظیفه / جز به پایان رسیده باشد، بداند چه زمانی کار بعدی جریان کار را راه‌اندازی کند، اجرای پایپ‌لاین را زمانبندی کند، و غیره.

وظایف اصلی:

تنظیم پایپ‌لاین ML با راه‌اندازی پایپ‌لاین یا ارکستریتور که زیربنای تمام اجزای بالا را تشکیل می‌دهد.

ابزاری را که قرار است پایپ‌لاین را اجرا کند انتخاب کنید.

با نوشتن کد پایتون ترتیبی، پایپ‌لاین را تنظیم کنید. برپاسازی و اجرا.

ابزارهای مورد استفاده:

Apache Beam > Apache Airflow > Kubeflow —(به ترتیب پیچیدگی و دسترسی به ویژگی های مهم.)

این متن با استفاده از ربات ترجمه مقالات علوم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.