گردش کاری یادگیری ماشینی

شکل ۱. استراتژی گردش کار
شکل ۱. استراتژی گردش کار
منتشر‌شده در : towardsdatascience به تاریخ ۲ ژوئن ۲۰۲۱
لینک منبع The Machine Learning WorkFlow

مقدمه

نزدیک شدن به یک پروژه یادگیری ماشینی برای اولین بار به تنهایی می‌تواند بسیار سخت باشد. زمانی که ارزیابی‌های آنلاین زیادی را انجام دادید، این می‌تواند کاملا گیج‌کننده باشد که چرا هنوز احساس می‌کنید هنوز چیزی در لحظه‌ای که شروع به کار بر روی یک مشکل می‌کنید، وجود ندارد - این امر منجر به یک دور باطل درس خواندن بدون کسب تجربه عملی زیاد می‌شود.

دوره‌های آموزشی عالی هستند و من وقتی می‌خواهم در یک منطقه مهارت پیدا کنم در دوره‌ها شرکت می‌کنم، اما با گذشت زمان، متوجه شدم که دوره‌ها تنها می‌توانند کار زیادی انجام دهند. نظر شخصی من این است که اکثر دوره‌های آموزشی در حوزه یادگیری ماشینی نمی‌توانند به تنهایی شما را برای کار در دنیای واقعی تجهیز کنند. این به این دلیل نیست که این دوره‌ها بد هستند بلکه تنها به این واقعیت بستگی دارد که تکرار سناریوهای دنیای واقعی در یک محیط عملی می‌تواند بسیار دشوار باشد.

تفاوت‌های ذاتی بین محیط‌های یادگیری و دنیای واقعی معمولا همان چیزی است که بسیاری از مبتدیان را به سفر یادگیری ماشینی خود باز می‌گرداند. به همین دلیل، من شدیدا بر کار بر روی پروژه‌ها تاکید می‌کنم، اما سعی می‌کنم انتظارات صنعت را در این فرآیند تکرار کنم، چون این کار شما را برای آنچه که در زمان حرکت صنعت پیش می‌آید مجهز می‌کند.

گردش کاری یادگیری ماشینی

با گفتن این مطلب، من روند یادگیری ماشینی که می‌توانید برای کار بر روی پروژه‌های خود از آن استفاده کنید را به شما معرفی خواهم کرد. مطمئن شوید که جریان کار یادگیری ماشینی می‌تواند در سراسر صفحه متغیر باشد، بنابراین، من از یک نمونه برگرفته از مهندسی یادگیری ماشینی نانو درجه (تصویر زیر را ببینید) استفاده خواهم کرد که از شرکت‌های بزرگی مانند آمازون، گوگل، و مایکروسافت الهام‌گرفته شده‌است.

شکل ۲. گردش کار یادگیری ماشینی
شکل ۲. گردش کار یادگیری ماشینی

تصویر بالا نشان می‌دهد که گردش کار یادگیری ماشینی که ما در این مقاله بررسی خواهیم کرد از ۳ مولفه تشکیل شده‌است: ۱) اکتشاف داده و پردازش ۲) مدل‌سازی ۳) استقرار. بیایید هر مولفه را پوشش دهیم تا ایده بهتری از آنچه در حال وقوع است به دست آوریم.

پردازش اکتشاف داده

اگر شما یک مدل یادگیری ماشینی زباله را تغذیه می‌کنید، باید انتظار داشته باشید که زباله را در عوض دریافت کنید. در نتیجه، کارهای زیادی برای اطمینان از کیفیت خوب داده‌ها انجام می‌شود چون این کار نقطه شروع خوبی برای مدل‌سازی به شما خواهد داد. این فرآیند تمایل دارد بیش‌ترین زمان را در گردش کار یادگیری ماشین صرف کند.

بازیابی داده

قبل از اینکه بتوانیم کار بر روی هر نوع پروژه فراگیری ماشینی را آغاز کنیم، ابتدا باید داده‌های با کیفیت خوبی را به دست آوریم. روش‌های متعددی وجود دارند که می توان داده‌ها را به دست آورد، مانند استفاده از مجموعه داده‌های عمومی، پاک‌سازی داده‌ها، مداخله محصول، ترکیبی از استراتژی‌های مختلف اکتساب و غیره.

همیشه ترکیبات داده را قبل از علم به یاد داشته باشید

اکتشاف صریح و روشن کردن داده‌ها

داده‌ها به ندرت در حالت واضح قرار می‌گیرند، برای مثال، برخی از ویژگی‌ها ممکن است بخش بزرگی از مقادیر از دست رفته را داشته باشند یا ممکن است داده‌های پرت وجود داشته باشند که باید به آن‌ها رسیدگی شود. همراه با این فرآیند، اکتشاف داده است که برای به دست آوردن درک عمیق‌تر از داده مورد استفاده قرار می‌گیرد.

دانشمندان داده حتی چه کاری انجام می‌دهند؟

آماده‌سازی داده‌ها / مهندسی ویژگی

آماده‌سازی یک مجموعه داده برای استفاده از یک مدل یادگیری ماشین دشوار است زیرا به شهود، مهارت‌های دستکاری داده و تخصص دامنه نیاز دارد. علاوه بر این، هیچ ۲ مجموعه داده‌ای معنای یکسانی ندارند که تکنیک‌هایی که ممکن است در یک پروژه کار کرده باشند ممکن است لزوما در یک پروژه دیگر کار نکنند (اگرچه می‌توانند به عنوان یک نقطه مرجع استفاده شوند).

۵ بهترین روش‌ برای مهندسی ویژگی در پروژه‌های یادگیری ماشینی

مدل‌سازی

این احتمالا هیجان‌انگیزترین بخش گردش کار ML است، و بسیاری از ما در معرض چه چیزی قرار داریم اگر ما در رقابت‌های کاگل یا چیزی از این دست شرکت کرده‌ایم.

توسعه مدل / آموزش

مرحله توسعه / آموزش مدل، وظایفی را در بر می‌گیرد که در آن یک مدل یادگیری ماشینی با داده‌هایی تغذیه می‌شود که می‌تواند از آن‌ها یاد بگیرد. توانایی مدل‌های یادگیری ماشین برای پردازش حجم زیادی از داده‌ها، کسب و کارها را قادر ساخته‌است تا راه‌حل‌هایی برای مشکلاتی پیدا کنند که در گذشته قابل‌حل نبودند.

گزینه kurtispykes/ml-from-scratch

اعتبار مدل / ارزیابی

ما از یک عدد واقعی برای ارزیابی عملکرد مدل یادگیری ماشین خود استفاده می‌کنیم (یعنی RMSE، MAE، دقت). پس از انجام این کار، می‌توانیم تصمیم بگیریم که آیا مدل آنطور که دوست داریم عمل می‌کند یا به کار بیشتری نیاز دارد تا رفتار مورد نظر را از مدل به دست آوریم-این فرآیند شامل بررسی اشتباهات ایجاد شده توسط مدل و قضاوت در مورد این است که چگونه ممکن است بهبود یابند.

بهبود سیستماتیک مدل یادگیری ماشینی شما

استقرار

به یک دلیل، بسیاری از دوره‌هایی که من انتخاب کرده‌ام به استقرار نیروها اشاره نکرده اند-من باید به صراحت دوره‌هایی را انتخاب می‌کردم که تمرکز شدیدی بر روی این موضوع برای یادگیری آن داشتند. درس‌هایی که می‌گرفتم عبارت بودند از:

  • به یک مهندس یادگیری ماشین تبدیل شوید (Udacity)
  • استقرار مدل‌های یادگیری ماشینی (Udemy)

مدل استقرار

استقرار فقط در دسترس قرار دادن مدلهای یادگیری ماشینی برای کاربران است. در محیط تولید، مدل می‌تواند ورودی بگیرد و سپس خروجی را به کاربران نهایی که از سیستم استفاده می‌کنند، برگرداند. به عنوان مثال، یک کاربر ممکن است جزئیات مربوط به یک ویژگی را که دیده‌است را انتقال دهد، و مدل ورودی‌ها را پردازش کرده و برآورد قیمت را برگرداند.

ارائه مدل یادگیری ماشینی از طریق REST API

مدل نظارت بر به‌روزرسانی مدل و داده‌ها

نظارت بر مدل شامل ردیابی نزدیک عملکرد مدل یادگیری ماشینی در تولید است. این کار به این ترتیب انجام می‌شود که تیم‌های هوش مصنوعی می‌توانند پیش از اینکه به این کسب‌وکار آسیب برسانند، به مسائل بالقوه بپردازند و به آن‌ها رسیدگی کنند.

علاوه بر این، مدل و داده‌ها نیاز به به‌روزرسانی در طول زمان تولید خود خواهند داشت. این کار در صورت تغییر ناگهانی الگوها در داده‌ها انجام می‌شود که ممکن است به عملکرد مدل آسیب برساند.

مدیریت مدل برای یادگیری ماشینی-نمودار داده

جمع‌بندی

شکاف بزرگی بین استانداردهای صنعت و آنچه که می‌تواند در یک دوره آموزش داده می‌شود وجود دارد که کاملا قابل‌درک است زیرا تکرار یک محیط واقعی در عمل می‌تواند بسیار چالش برانگیز باشد. با این حال، این به این معنی نیست که رشد شما باید آسیب ببیند. من همه کاروران را تشویق می‌کنم تا خودشان را در پروژه‌هایی که جالب می‌دانند به کار گیرند، اما همچنین در مورد آنچه که واقعا در یک محیط کاری اتفاق می‌افتد یاد بگیرند تا بتوانند آنچه را که دوست دارند در این صنعت انجام دهند.

از شما به خاطر خواندن متشکرم!

این متن با استفاده از ربات مترجم مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.