من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
فهرست وظایف و ابزارها برای ساخت پایپلاین مقیاسپذیر
منتشرشده در: towardsdatascience به تاریخ ۱۸ آوریل ۲۰۲۱
لینک منبع: Tasks & Tools List for Building Scalable ML Pipelines
چه چیزی یادگیری ماشینی را در توییتر هدایت میکند که مرتبطترین توییتها را در بالای تایملاین من نشان میدهد؟ چگونه میتوان پلتفرم ML خود را برای بهبود ویژگیهای مورد علاقه کاربر مانند توصیهها و توضیحات هفتگی مقیاسگذاری کرد؟ چگونه ایرباس ناهنجاریهای موجود در جریان داده دورسنجی زمان واقعی را با استفاده از مدل LSTM که بیش از ۵ تریلیون نقطه داده را آموزش داده است، شناسایی میکند؟
این سوالات جذاب هستند زیرا همه این سازمانها (و مانند آنها) کار برجسته ساخت سیستمهای ML هنری را انجام دادهاند. چیزی که در همه این موارد رایج است این است که چگونه آنها زیرساخت ML خود را با اتخاذ گسترش TFX به عنوان هسته پایپلاین ML خود بهینهسازی کردند.
ایجاد یک پایپلاین ML بخش قابلتوجهی از کسبوکار است که نیاز به اجزای مختلف زیادی دارد تا به شیوهای یکپارچه ادغام شوند.
برای کسانی از شما که در ایجاد پایپلاین ML جدید هستند:
ممکن است به مطالعه مقاله ۱۲ کتابخانه برتر پایتون برای علم داده در سال ۲۰۲۱ علاقمند باشید.
مقدمهای کوتاه بر پایپلاین ML
هر سازمان داده محور که ML را در محصول / پلتفرم خود ادغام کرده است از پایپلاین ML برای ساده کردن توسعه و بهکارگیری مدلهای در حال تکامل خود در ارتباط با دادههای جدید ورودی استفاده میکند. به بیان ساده، یک پایپلاین ML یک توالی از وظایف است که برای انتقال مدل ML (ها) از یک آزمایش Jupyter Notebook (یا Google Colab) به یک برنامه قوی در تولید اجرا میشود.
هرچه پروژه بزرگتر باشد، ایجاد کل فرآیند برای رسیدگی به مقیاسی که منجر به یک رشته مهندسی جدید به نام MLOps شده است، سختتر میشود. حال، این وظایف چه هستند و چه ابزارهایی را میتوان به منظور ساخت این پایپلاین قوی آماده تولید استفاده کرد، چیزی است که در بخشهای زیر توضیح داده شده است.
تعقیب داده
روشهای متعددی برای ورود دادهها به پایپلاین یادگیری ماشین وجود دارد. شما میتوانید دادهها را از دیسک محلی یا هر پایگاهداده دیگری را استفاده کنید. TFX رکوردهای دادههای تعقیبشده را به tf.Example (در فایلهای TFRecord-برای ذخیرهسازی رکوردهای باینری) برای مصرف مولفههای پاییندست و این فایلهای باینری تبدیل میکند که کار ما را با مجموعه دادههای بزرگ آسان و فوقالعاده سریع میکند.
وظایف اصلی:
- اتصال به یک منبع داده، فایلها یا سرویس ابری برای بازیابی موثر دادهها.
- مجموعه دادهها را به زیرمجموعههای آموزشی و آزمایشی تقسیم میکند.
- اندازهگیری مجموعه دادهها و نسخهبرداری با استفاده از ابزارهایی مانند DVC (با خالق صحبت کنید).
- علاوه بر این، شما به روشهای جذب اختصاصی برای مجموعه دادههای ساختاری، متنی و تصویری نیاز دارید.
ابزارهای مورد استفاده:
- با استفاده از Tensorflow Extended
- همچنین tf.Example، TFFile-میتواند فضای دو بعدی پرسوجوی ابری، Cloud SQL یا S3 را به هم متصل کند.
- ابزار DVC برای بهروزرسانی مجموعه دادهها.
- میتواند هر نوع داده-CSV، تصاویر، متن و غیره را آپلود کند.
اعتبارسنجی دادهها
یک مزیت اولیه استفاده از TFRecord/ tf.Example پشتیبانی آسان اعتبارسنجی داده tensorflow (TFDV) بود - یکی از اولین اجزای باز که توسط گوگل از مقاله TFX آنها در دسترس قرار میگیرد. TFDV به مهندسان ML ما اجازه داد تا دادههای خود را در طول توسعه مدل بهتر درک کنند و به راحتی مشکلات رایج مانند انحراف، مقادیر اشتباه، یا تعداد زیادی از صفرهای پایپلاین و خدمات تولیدی را تشخیص دهند. /سخنگوی تیم
مراحل اعتبارسنجی دادهها در پایپلاین برای بررسی هرگونه ناهنجاری و تاکید بر هر گونه شکست. شما میتوانید مجموعه دادههای جدید را پس از اجرای آنها از طریق TFDV و سپس به طور جداگانه بررسی کنید.
در اصل TFX کتابخانهای به نام TFDV ارائه میدهد که میتواند به شما در اعتبارسنجی دادهها کمک کند. TFDV در TFRecords (یا پروندههای CSV) قرار میگیرد و سپس به شما اجازه میدهد تا برش داده، مقایسه داده، بررسی skewness و انواع دیگر تحلیلها را انجام دهید.
همچنین میتوانید نتایج اعتبارسنجی را در تسهیلات پروژه Google PAIR مشاهده کنید.
وظایف اصلی:
- مجموعه دادههای ناهنجاری را بررسی می کند.
- هرگونه تغییر در طرح داده را بررسی میکند.
- همچنین تغییرات در آمار دادههای جدید را در مقایسه با دادههای آموزشی برجسته میکند.
- ابزار TFDV به مقایسه چندین مجموعه داده کمک میکند.
ابزارهای مورد استفاده:
- اعتبارسنجی دادههای تانسوری (TFDV)
مطالعه مقاله برگه تقلب پایتون برای دانشمندان داده (۲۰۲۱) توصیه میشود.
تبدیل ویژگی
تبدیلهایی مانند رمزگذاری one-hot، نرمالسازی ویژگیهای کمی، تغییر نام ویژگیها، پیشپردازش دستهای و بسیاری دیگر را اضافه میکند. ابزار TFX کتابخانههایی مانند TFT (تبدیل tensorFlow) را برای پیشپردازش دادهها در اکوسیستم TF ارائه میدهد.
ابزار TFT دادهها را پردازش میکند و دو اثر هنری را برمی گرداند:
- مجموعه دادههای آموزشی و تست تغییر شکل دادهشده در فرمت TFRecord.
- نمودار تبدیل مورد نظر.
وظایف اصلی:
- پردازش نامهای مشخصه، انواع داده، مقیاسگذاری، کدگذاری، PCA، باکیت کردن، TFIDF، و غیره.
- پردازش دادهها با استفاده ازtf.Transform.
- نوشتن توابع پیشپردازش.
- ادغام مراحل در پایپلاین TFX.
ابزارهای مورد استفاده:
- ابزار tf.Transform
آموزش مدل
آموزش یک مدل در پایپلاین یک وجه مثبت دارد که با صادر کردن تمام مراحل تحول و آموزش مدل به عنوان یک نمودار، هر منبع خطایی را از بین میبرد.
وظایف اصلی:
- کل فرآیند توسعه مدل و آزمایش خود را پیگیری کنید. * اتوماسیون فرآیند با استفاده از پایپلاین TFX.
- پارامترهای بیش از حد را در یک خط لوله تنظیم می کند.
- حفظ نه تنها وزن مدل آموزشدیده، بلکه حفظ مراحل پردازش داده و حفظ انسجام.
ابزارهای مورد استفاده:
- ابزار Sklearn / tf.Keras / XGBoost
- پایپلاین TFX
ارزیابی مدل-تحلیل و اعتبارسنجی
تحلیل مدل تنسورفلو (TFMA) به تجسم عملکرد، انصاف (ابزار What-If)، به دست آوردن معیارهای گروههای متمایز در دادهها، مقایسه با مدلهای قبلا مستقر شده، و تنظیم پارامترهای بیش از حد در خود پایپلاین کمک میکند.
وظایف اصلی:
- تعریف تعدادی از معیارهای مشتق از مجموعه KPI ها در ابتدا
- گرفتن معیارهای عملکرد دقیق با استفاده از تجزیه و تحلیل مدل TFMA
- بررسی شاخصهای انصاف مدل
ابزارهای مورد استفاده:
- تجزیه و تحلیل مدل TensorFLow (TFMA) - tf.ModelAnalysis
- ابزار What-IF
شاید مطالعه مقاله توسعه مبتنی بر ترانک (Trunk) چیست؟ برای شما مفید باشد.
سرویس تنسوریفلو و پلتفرم Google Cloud AI
سرویس tensorFlow یک روش ساده و سازگار برای گسترش مدلها از طریق یک مدل سرور ارائه میدهد. علاوه بر این، میتوانید از رابط کاربری وب برای پیکربندی نقاط انتهایی مدل خود بر روی پلتفرم AI استفاده کنید.
سه روش استقرار مدل: مدل سرور، مرورگر کاربر، یا بر روی edge دستگاه. بهترین گزینه برای برنامه کاربردی خود را شناسایی کنید.
- تنظیم سرویس tensorflow برای استقرار مداوم مدلهای خود.
- پاسخ به گزینه ارتباطی که به هدف شما عمل میکند: REST در مقابل gRPC.
- ارائهدهنده ابر را انتخاب کنید.
- استقرار با استفاده از پایپلاین TFX.
ابزارهای مورد استفاده:
- سرویس Tensorflow
- ابزار REST
- ابزار gRPC
- ابزار GCP / AWS
تنظیم پایپلاین
ارکسترهای پایپلاین زیربنای اجزای ذکر شده را تشکیل میدهند. ابزار تنظیم زمانی بررسی میشود که یک وظیفه / جز به پایان رسیده باشد، بداند چه زمانی کار بعدی جریان کار را راهاندازی کند، اجرای پایپلاین را زمانبندی کند، و غیره.
وظایف اصلی:
تنظیم پایپلاین ML با راهاندازی پایپلاین یا ارکستریتور که زیربنای تمام اجزای بالا را تشکیل میدهد.
ابزاری را که قرار است پایپلاین را اجرا کند انتخاب کنید.
با نوشتن کد پایتون ترتیبی، پایپلاین را تنظیم کنید. برپاسازی و اجرا.
ابزارهای مورد استفاده:
Apache Beam > Apache Airflow > Kubeflow —(به ترتیب پیچیدگی و دسترسی به ویژگی های مهم.)
این متن با استفاده از ربات ترجمه مقالات علوم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
دانشمندان یک مولد اعداد تصادفی با استفاده از لیزر فوقسریع ساختند.
مطلبی دیگر از این انتشارات
دستگاههای هوشمند ذهن شما را میخوانند
مطلبی دیگر از این انتشارات
اکنون میتوانید در متاورس لباس بخرید و در اینستا و فیسبوک بپوشید