من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
گردش کاری یادگیری ماشینی
منتشرشده در : towardsdatascience به تاریخ ۲ ژوئن ۲۰۲۱
لینک منبع The Machine Learning WorkFlow
مقدمه
نزدیک شدن به یک پروژه یادگیری ماشینی برای اولین بار به تنهایی میتواند بسیار سخت باشد. زمانی که ارزیابیهای آنلاین زیادی را انجام دادید، این میتواند کاملا گیجکننده باشد که چرا هنوز احساس میکنید هنوز چیزی در لحظهای که شروع به کار بر روی یک مشکل میکنید، وجود ندارد - این امر منجر به یک دور باطل درس خواندن بدون کسب تجربه عملی زیاد میشود.
دورههای آموزشی عالی هستند و من وقتی میخواهم در یک منطقه مهارت پیدا کنم در دورهها شرکت میکنم، اما با گذشت زمان، متوجه شدم که دورهها تنها میتوانند کار زیادی انجام دهند. نظر شخصی من این است که اکثر دورههای آموزشی در حوزه یادگیری ماشینی نمیتوانند به تنهایی شما را برای کار در دنیای واقعی تجهیز کنند. این به این دلیل نیست که این دورهها بد هستند بلکه تنها به این واقعیت بستگی دارد که تکرار سناریوهای دنیای واقعی در یک محیط عملی میتواند بسیار دشوار باشد.
تفاوتهای ذاتی بین محیطهای یادگیری و دنیای واقعی معمولا همان چیزی است که بسیاری از مبتدیان را به سفر یادگیری ماشینی خود باز میگرداند. به همین دلیل، من شدیدا بر کار بر روی پروژهها تاکید میکنم، اما سعی میکنم انتظارات صنعت را در این فرآیند تکرار کنم، چون این کار شما را برای آنچه که در زمان حرکت صنعت پیش میآید مجهز میکند.
گردش کاری یادگیری ماشینی
با گفتن این مطلب، من روند یادگیری ماشینی که میتوانید برای کار بر روی پروژههای خود از آن استفاده کنید را به شما معرفی خواهم کرد. مطمئن شوید که جریان کار یادگیری ماشینی میتواند در سراسر صفحه متغیر باشد، بنابراین، من از یک نمونه برگرفته از مهندسی یادگیری ماشینی نانو درجه (تصویر زیر را ببینید) استفاده خواهم کرد که از شرکتهای بزرگی مانند آمازون، گوگل، و مایکروسافت الهامگرفته شدهاست.
تصویر بالا نشان میدهد که گردش کار یادگیری ماشینی که ما در این مقاله بررسی خواهیم کرد از ۳ مولفه تشکیل شدهاست: ۱) اکتشاف داده و پردازش ۲) مدلسازی ۳) استقرار. بیایید هر مولفه را پوشش دهیم تا ایده بهتری از آنچه در حال وقوع است به دست آوریم.
پردازش اکتشاف داده
اگر شما یک مدل یادگیری ماشینی زباله را تغذیه میکنید، باید انتظار داشته باشید که زباله را در عوض دریافت کنید. در نتیجه، کارهای زیادی برای اطمینان از کیفیت خوب دادهها انجام میشود چون این کار نقطه شروع خوبی برای مدلسازی به شما خواهد داد. این فرآیند تمایل دارد بیشترین زمان را در گردش کار یادگیری ماشین صرف کند.
بازیابی داده
قبل از اینکه بتوانیم کار بر روی هر نوع پروژه فراگیری ماشینی را آغاز کنیم، ابتدا باید دادههای با کیفیت خوبی را به دست آوریم. روشهای متعددی وجود دارند که می توان دادهها را به دست آورد، مانند استفاده از مجموعه دادههای عمومی، پاکسازی دادهها، مداخله محصول، ترکیبی از استراتژیهای مختلف اکتساب و غیره.
همیشه ترکیبات داده را قبل از علم به یاد داشته باشید
اکتشاف صریح و روشن کردن دادهها
دادهها به ندرت در حالت واضح قرار میگیرند، برای مثال، برخی از ویژگیها ممکن است بخش بزرگی از مقادیر از دست رفته را داشته باشند یا ممکن است دادههای پرت وجود داشته باشند که باید به آنها رسیدگی شود. همراه با این فرآیند، اکتشاف داده است که برای به دست آوردن درک عمیقتر از داده مورد استفاده قرار میگیرد.
دانشمندان داده حتی چه کاری انجام میدهند؟
آمادهسازی دادهها / مهندسی ویژگی
آمادهسازی یک مجموعه داده برای استفاده از یک مدل یادگیری ماشین دشوار است زیرا به شهود، مهارتهای دستکاری داده و تخصص دامنه نیاز دارد. علاوه بر این، هیچ ۲ مجموعه دادهای معنای یکسانی ندارند که تکنیکهایی که ممکن است در یک پروژه کار کرده باشند ممکن است لزوما در یک پروژه دیگر کار نکنند (اگرچه میتوانند به عنوان یک نقطه مرجع استفاده شوند).
۵ بهترین روش برای مهندسی ویژگی در پروژههای یادگیری ماشینی
مدلسازی
این احتمالا هیجانانگیزترین بخش گردش کار ML است، و بسیاری از ما در معرض چه چیزی قرار داریم اگر ما در رقابتهای کاگل یا چیزی از این دست شرکت کردهایم.
توسعه مدل / آموزش
مرحله توسعه / آموزش مدل، وظایفی را در بر میگیرد که در آن یک مدل یادگیری ماشینی با دادههایی تغذیه میشود که میتواند از آنها یاد بگیرد. توانایی مدلهای یادگیری ماشین برای پردازش حجم زیادی از دادهها، کسب و کارها را قادر ساختهاست تا راهحلهایی برای مشکلاتی پیدا کنند که در گذشته قابلحل نبودند.
گزینه kurtispykes/ml-from-scratch
اعتبار مدل / ارزیابی
ما از یک عدد واقعی برای ارزیابی عملکرد مدل یادگیری ماشین خود استفاده میکنیم (یعنی RMSE، MAE، دقت). پس از انجام این کار، میتوانیم تصمیم بگیریم که آیا مدل آنطور که دوست داریم عمل میکند یا به کار بیشتری نیاز دارد تا رفتار مورد نظر را از مدل به دست آوریم-این فرآیند شامل بررسی اشتباهات ایجاد شده توسط مدل و قضاوت در مورد این است که چگونه ممکن است بهبود یابند.
بهبود سیستماتیک مدل یادگیری ماشینی شما
استقرار
به یک دلیل، بسیاری از دورههایی که من انتخاب کردهام به استقرار نیروها اشاره نکرده اند-من باید به صراحت دورههایی را انتخاب میکردم که تمرکز شدیدی بر روی این موضوع برای یادگیری آن داشتند. درسهایی که میگرفتم عبارت بودند از:
مدل استقرار
استقرار فقط در دسترس قرار دادن مدلهای یادگیری ماشینی برای کاربران است. در محیط تولید، مدل میتواند ورودی بگیرد و سپس خروجی را به کاربران نهایی که از سیستم استفاده میکنند، برگرداند. به عنوان مثال، یک کاربر ممکن است جزئیات مربوط به یک ویژگی را که دیدهاست را انتقال دهد، و مدل ورودیها را پردازش کرده و برآورد قیمت را برگرداند.
ارائه مدل یادگیری ماشینی از طریق REST API
مدل نظارت بر بهروزرسانی مدل و دادهها
نظارت بر مدل شامل ردیابی نزدیک عملکرد مدل یادگیری ماشینی در تولید است. این کار به این ترتیب انجام میشود که تیمهای هوش مصنوعی میتوانند پیش از اینکه به این کسبوکار آسیب برسانند، به مسائل بالقوه بپردازند و به آنها رسیدگی کنند.
علاوه بر این، مدل و دادهها نیاز به بهروزرسانی در طول زمان تولید خود خواهند داشت. این کار در صورت تغییر ناگهانی الگوها در دادهها انجام میشود که ممکن است به عملکرد مدل آسیب برساند.
مدیریت مدل برای یادگیری ماشینی-نمودار داده
جمعبندی
شکاف بزرگی بین استانداردهای صنعت و آنچه که میتواند در یک دوره آموزش داده میشود وجود دارد که کاملا قابلدرک است زیرا تکرار یک محیط واقعی در عمل میتواند بسیار چالش برانگیز باشد. با این حال، این به این معنی نیست که رشد شما باید آسیب ببیند. من همه کاروران را تشویق میکنم تا خودشان را در پروژههایی که جالب میدانند به کار گیرند، اما همچنین در مورد آنچه که واقعا در یک محیط کاری اتفاق میافتد یاد بگیرند تا بتوانند آنچه را که دوست دارند در این صنعت انجام دهند.
از شما به خاطر خواندن متشکرم!
این متن با استفاده از ربات مترجم مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
۶ نکته برای تمرین برنامهنویسی
مطلبی دیگر از این انتشارات
۵ فریمورک یادگیری عمیق که باید در سال جدید بیاموزید
مطلبی دیگر از این انتشارات
بهترین زمان برای مصرف ویتامین D در روز به گفته متخصصان