من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
چرا ۹۰ درصد تمام مدلهای یادگیری ماشین هرگز به مرحله تولید نمیرسند
منتشرشده در TowardsDataScience به تاریخ ۹ نوامبر ۲۰۲۰
لینک مطلب اصلی: Why 90 percent of all machine learning models never make it into production
شرکتها روزهای سختی را پشت سر میگذارند. و من در مورد پاندمی و نوسانات بازار سهام صحبت نمیکنم.
عدم قطعیت در این زمانها وجود دارد و شرکتها باید تجربه مشتری خود را بینقصتر و همهجانبهتر کنند و این هیچ فشاری را از روی دوش آنها بر نمیدارد. در این راستا، قابلدرک است که آنها میلیاردها دلار صرف توسعه مدلهای یادگیری ماشینی میکنند تا محصولات خود را بهبود بخشند.
اما مشکلی وجود دارد. شرکتها نمیتوانند تنها به دانشمندان داده و مهندسان یادگیری ماشین پول بدهند و امیدوار باشند که آنها معجزه کنند.
همانطور که VentureBeat گزارش میدهد، حدود ۹۰ درصد مدلهای یادگیری ماشین هرگز به مرحله تولید نمیرسند. به عبارت دیگر، تنها یکی از ده روز کاری یک دانشمند داده در واقع به تولید چیزی مفید برای شرکت منجر میشود.
با وجود این که از هر ۱۰ مدیر اجرایی تکنولوژی ۹ نفر بر این باورند که هوش مصنوعی در مرکز انقلاب تکنولوژیکی آینده قرار خواهد داشت، اما تصویب و استقرار جا را برای رشد خالی میکند. و دانشمندان داده کسانی نیستند که باید سرزنش شوند.
شرکتها برای یادگیری ماشین آماده نیستند
پشتیبانی رهبری بیش از پول ارزش دارد.
بازار کار برای دانشمندان داده بسیار عالی است. شرکتها در حال استخدامند و آماده پرداخت حقوق خوب نیز هستند.
البته، مدیران و رهبران شرکت از این دانشمندان داده انتظار دارند که در عوض ارزش زیادی به آنها بیفزایند. با این حال، در حال حاضر، آنها انجام این کار را آسان نمیکنند.
کریس چاپو،SVP دادهها و تجزیه و تحلیل در GAP میگوید: « گاهی اوقات مردم فکر میکنند، تنها کاری که من باید انجام دهم این است که پول را به سمت یک مشکل پرتاب کنم یا تکنولوژی را به کار بگیرم و موفقیت از طرف دیگر حاصل میشود.»
برای کمک به موفقیت دانشمندان داده در نقش خود، رهبران تنها به هدایت منابع در مسیر درست نیاز ندارند، بلکه علاوه بر آن باید درک کنند که مدلهای یادگیری ماشین در مورد چه چیزی هستند. یک راهحل ممکن این است که رهبران آموزشهای مقدماتی درباره علم داده دریافت کنند، تا بتوانند این دانش را در شرکتهای خود به کار گیرند.
فقدان دسترسی به دادهها
شرکتها در جمعآوری دادهها بد نیستند. با این حال، بسیاری از شرکتها بخشهای بسیار متمایزی دارند، که به این معنی است که هر بخش روشهای خاص خود را برای جمعآوری دادهها، قالبهای ترجیحی، محلهای ذخیرهسازی و اولویتهای امنیتی و حریم خصوصی دارد.
از سوی دیگر دانشمندان علم داده اغلب به دادههایی از چندین بخش نیاز دارند. جداکردن بخشها پاکسازی و پردازش آن دادهها را سختتر میکند. علاوه بر این، بسیاری از دانشمندان داده شکایت دارند که حتی نمیتوانند اطلاعاتی که نیاز دارند را به دست آورند. اما اگر دادههای لازم را ندارید، چگونه باید یک مدل را آموزش دهید؟
ساختارهای جداشده شرکت-و دادههای غیرقابلدسترس-ممکن است در گذشته قابلکنترل بوده باشند. اما در دورهای که تحول تکنولوژیکی با سرعت زیادی در حال رخ دادن است، شرکتها نیاز به افزایش و ایجاد ساختارهای اطلاعاتی یکنواخت در سراسر جهان دارند.
قطع ارتباط بین فنآوری اطلاعات، علم داده و مهندسی
اگر شرکتها هدفشان این باشد که بخشهایی کمتر جدا از هم داشته باشند، به این معنی است که بخشها باید بیشتر با یکدیگر ارتباط برقرار کرده و اهداف خود را همسو کنند.
در بسیاری از شرکتها، یک شکاف اساسی بین دپارتمانهای IT و علوم داده وجود دارد. تمایل بخش IT این است که اولویت خود را به راهاندازی ویژگیها و پایدار نگه داشتن آنها اختصاص دهد. از سوی دیگر دانشمندان علم داده، علاقه به آزمایش و شکستن چیزها دارند. این به ارتباط موثر منجر نمیشود.
علاوه بر این، مهندسی همیشه برای دانشمندان داده ضروری تلقی نمیشود. این یک مشکل است زیرا مهندسان ممکن است همیشه تمام جزییات آنچه که یک دانشمند داده تصور میکند را درک نکنند، یا ممکن است بهدلیل عدم ارتباط چیزها را متفاوت اجرا کنند. بنابراین، دانشمندان دادهای که میتوانند مدلهای خود را اجرا کنند، یک مزیت رقابتی نسبت به کسانی دارند که نمیتوانند این کار را انجام دهند.
مدلهای یادگیری ماشینی مجموعه چالشهای خودشان را دارند
بزرگ شدن از چیزی که فکر میکنید سختتر است
اگر یک مدل در یک محیط کوچک خوب عمل کند، بدان معنا نیست که همه جا کار خواهد کرد.
ممکن است برای شرکتی، سختافزار یا فضای ذخیرهسازی ابری برای کنترل مجموعه دادههای بزرگتر در دسترس نباشد. به علاوه، پیمانهای بودن (ماژولاریتی) مدلهای یادگیری ماشین همیشه در مقیاسهای بزرگ شبیه به مقیاسهای کوچک عمل نمیکند.
در نهایت، منبع یابی داده ممکن است آسان نبوده یا حتی غیرممکن باشد. این موضوع، همانطور که قبلا بحث شد، میتواند ناشی از ساختارهای جداشده در شرکتها یا به دلیل چالشهای دیگر در کسب دادههای بیشتر باشد.
این یک دلیل دیگر برای یکی کردن ساختارهای داده در میان سازمانها و تشویق ارتباط بین دپارتمانهای مختلف است.
تلاشها تکرار میشوند
در راه طولانی استقرار مدلهای یادگیری ماشین، بیش از یک چهارم همه شرکتها با تلاشهای تکراری مواجه هستند.
برای مثال، یک مهندس نرمافزار ممکن است سعی کند آنچه را که یک دانشمند داده به آنها گفتهاست اجرا کند. دانشمند داده ممکن است پیش برود و برخی از کارها را خودش انجام دهد.
این نه تنها هدر دادن زمان و منابع است، همچنین زمانی که سهامداران نمیدانند کدام نسخه از کد را استفاده کنند و اگر با هر گونه اشکال مواجه شوند به چه کسی مراجعه کنند، میتواند منجر به سردرگمی بیشتر شود.
اگرچه دانشمندان داده در صورتی که بتوانند مدلهای خود را پیادهسازی کنند، یک مزیت دارند، اما باید به وضوح با مهندسان در مورد اینکه چه کاری باید توسط چه کسی انجام شود، ارتباط برقرار کنند. با این روش، آنها زمان و منابع شرکت را ذخیره میکنند.
مدیران همیشه حاضر به خرید نیستند
مدیران فنی شدیدا به قدرت هوش مصنوعی به عنوان یک کل اعتقاد دارند، اما این بدان معنا نیست که آنها با هر ایدهای در آن موافق هستند. همانطور که Algorithmia گزارش میدهد، یک سوم تمام مدیران اجرایی تجاری، آمار استقرار ضعیف را ناشی از عدم خرید و تامین مالی توسط مدیر ارشد میدانند.
به نظر میرسد که دانشمندان داده هنوز تا حدی فاقد حس تجاری هستند. این موضوع باعث میشود که تکمیل مهارتهای تجاری متخصصان داده و بهدنبال گفتگو با مدیر ارشد بودن، در صورت امکان، به مسئلهای مهمتر تبدیل شود.
البته، این بدان معنا نیست که هر دانشمند دادهای ناگهان به یک مدرک مدیریت اجرایی برای برتری در کار خود نیاز دارد. با این حال، برخی از نکات کلیدی آموختهشده از کلاس یا تجربه کسبوکار ممکن است به آنها خیلی کمک کند.
فقدان پشتیبانی میانزبانی و چارچوب
از آنجا که مدلهای یادگیری ماشین هنوز در مراحل اولیه خود هستند، هنوز شکاف قابلتوجهی در مورد زبانها و چارچوبهای مختلف وجود دارد.
برخی از کانالهای ارتباطی در پایتون شروع میشوند، در R ادامه یافته و در جولیا پایان مییابند. برخی دیگر این مسیر را برعکس طی کرده یا به طور کامل از زبانهای دیگر استفاده میکنند. از آنجا که هر زبان دارای مجموعه کتابخانهها و وابستگیهای منحصر به فردی است، ردیابی پروژهها به سرعت دشوار میشود.
علاوه بر این، برخی از کانالهای ارتباطی ممکن است از تراکم زیاد با داکر و کورنت استفاده کنند، برخی دیگر ممکن است این کار را نکنند. برخی از کانالهای ارتباطی API های خاص را مستقر خواهند کرد، و برخی دیگر نه. و این لیست ادامه دارد.
ابزارهایی مانند TFX، Mlflow و Kubeflow در حال ظهور برای پر کردن این شکاف هستند. اما این ابزارها هنوز در دوران ابتدایی هستند و در این زمان، تخصص در آنها نادر است.
دانشمندان علم داده میدانند که باید به بررسی آخرین پیشرفتها در زمینه خود ادامه دهند. این امر باید برای توسعه مدل نیز اعمال شود.
نسخهسازی و قابلیت تولید مجدد همچنان چالش برانگیز است
مسئله دیگر در ارتباط با موضوع بالا این است که تا به حال هیچ روش مناسبی برای مدلهای یادگیری ماشین به صورت شفاهی وجود نداشته است. کاملا واضح است که دانشمندان علوم داده باید هر تغییری که ایجاد میکنند را دنبال کنند، اما این روزها این کار بسیار دشوار است.
علاوه بر این، مجموعه دادهها ممکن است در طول زمان دستخوش تغییر جهت شوند. این امر با تکامل شرکتها و پروژهها طبیعی است، اما تولید مجدد نتایج گذشته را سختتر میکند.
مهمتر از همه این است که به محض شروع یک پروژه، یک معیار برای عملکرد حال حاضر و آینده تعیین میشود. در ترکیب با کنترل نسخه مستمر، دانشمندان داده میتوانند مدلهای قابل تولید مجدد خود را بدست آورند.
چگونه تلاش را متوقف کرده و شروع به استقرار کنیم
اگر ۹۰ درصد از تلاشهای یک دانشمند داده به چیزی منجر نشود، این نشانه خوبی نیست. همانطور که در بالا نشانداده شد، این تقصیر دانشمندان داده نیست، بلکه به خاطر موانع ذاتی و سازمانی است.
تغییر در یک روز اتفاق نمیافتد. بنابراین به شرکتهایی که تازه شروع به کار در مدلهای یادگیری ماشینی کردهاند، توصیه میشود که با یک پروژه واقعا کوچک و ساده شروع کنند.
وقتی مدیران یک پروژه ساده و روشن را مشخص کردند، گام دوم انتخاب تیم مناسب است. این تیم باید چند منظوره و شامل دانشمندان داده، مهندسان، توسعهدهندگان، و هر نقش دیگری باشد که برای موفقیت آن مهم به نظر میرسد.
سوم اینکه، مدیران باید برای کمک به تسریع آنها در آغاز به اعمال نفوذ روی اشخاص ثالث بپردازند. IBM از جمله شرکتهایی است که چنین خدماتی را ارائه میدهد، اما شرکتهای دیگری نیز در بازار وجود دارند.
هشدار نهایی این است که به هر قیمتی برای رسیدن به یک ویژگی دلفریب تلاش نکنید. اگر یک مدل ارزان و ساده ۸۰ درصد نیازهای مشتری را برآورده کرده و بتواند ظرف چند ماه اجرا شود، به خودی خود کار بزرگی است. علاوه بر این، آموختههای ساخت یک مدل ساده، اجرای یک مدل پیچیدهتر که امیدواریم مشتریان را ۱۰۰ درصد راضی کند، را تقویت خواهد کرد.
حرف آخر: ایجاد انقلابها زمان میبرد
دهه آینده نیز مانند دهه گذشته انقلابی خواهد بود. استفاده گسترده از هوش مصنوعی تنها یکی از روندهای رو به رشد است. ظهور اینترنت اشیا، روباتهای پیشرفته و تکنولوژی بلاک چین نیز در این فهرست به چشم میخورد.
با این حال، من عمدا از دههها صحبت میکنم و نه سالها. برای مثال، در نظر بگیرید که ۹۰ درصد از شرکتها در فضای ابری هستند-آنقدر زیاد که حتی فکر کردن در مورد این که زندگی ما بدون آن چگونه خواهد بود سخت است. از سوی دیگر، چندین دهه طول کشید تا فضاهای ابری به طور گسترده مورد استفاده قرار گیرند.
هیچ دلیلی وجود ندارد که باور کنیم انقلاب هوش مصنوعی باید با این روندها تفاوت داشته باشد. اجرای آن کمی طول خواهد کشید؛ زیرا وضعیت موجود مجموعهای از موانع دارد که باید با آنها مقابله کرد.
اما از آنجا که یادگیری ماشین راههای زیادی برای بهبود تجربه مشتری و بهرهوری شرکت ارائه میدهد، واضح است که برندگان کسانی خواهند بود که مدلها را سریع و زود به کار میگیرند.
این مقاله با استفاده از ربات ترجمه آنلاین مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفتهاست، در نتیجه ممکن است دارای برخی اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
برنج خشک: شکستن صفات فیزیولوژیکی و مولکولی اصلی برنج مقاوم به خشکسالی
مطلبی دیگر از این انتشارات
مطالعه نشان میدهد ویتامین D3 برای مبارزه با عفونتها از اهمیت ویژهای برخوردار است -به تقویت دفاع در برابر کووید۱۹ کمک میکند
مطلبی دیگر از این انتشارات
استفاده از هوش مصنوعی در تصاویر امپراطوران روم