چالش‌های پروژه‌های علوم داده


این راز نیست که علم داده دشوار است. شرکت‌ها برای موفقیت در پروژه‌های علم داده تلاش می‌کنند. حتی گارتنر پیش‌بینی می‌کند که تا سال ۲۰۲۲ تنها ۲۰ درصد از پروژه‌های تحلیلی ارزش کسب‌وکار را ارائه خواهند کرد. این بدان معناست که حدود ۸۰٪ نمی‌توانند ارزش ارائه کنند. بنابراین، شرکت‌ها باید در مورد اجرای پروژه‌های تجزیه و تحلیل داده‌ها بسیار مراقب باشند.

دلایل بسیاری برای شکست پروژه‌های علم داده وجود دارد. آن‌ها در اینترنت به خوبی مستند شده‌اند: چرا پروژه‌های علم داده از کار می‌افتند، پنج دلیل پروژه علم داده شما ممکن است شکست بخورد، و بسیاری دیگر. در زیر چند چالش وجود دارد که من در زمانی که بخشی از پروژه‌های علم داده بودم، دیده‌ام.

راه‌حل‌های تعیین‌شده در آغاز

در اینجا مثالی از شروع ناقص پروژه ارائه می‌شود.

هی، اگر نقشه‌ای داشتم که بالا و به سمت راست می‌رفت، در ارائه بسیار عالی به نظر می‌رسید. آیا می‌توانید داده‌ها را بگیرید تا آن نمودار را بسازید؟

در این سناریو، راه‌حل نهایی قبلا تعیین شده‌است. این پروژه زمانی به مشکل تبدیل می‌شود که داده‌ها جمع‌آوری شوند و نمودار حاصل بالا و پایین نرود. این سناریو اغلب شبیه شکست علم داده است. با این حال، علم داده شکست نخورد. در واقع هیچ علم داده یا حل مساله وجود نداشت. راه‌حل از پیش تعیین شده‌بود. شروع با برخی مشکلات کسب‌وکار بهتر از شروع با راه‌حل است.

الگوریتم ها پاسخ نهایی را ارایه می‌دهند

جهان الگوریتم ها را دوست دارد و از آن‌ها متنفر است. آن‌ها می‌توانند اطلاعاتی را در مورد آنچه که ما فقط در زمان مناسب نیاز داریم، فراهم کنند. با این حال، آن‌ها می‌توانند اشتباه کنند و ما را در حال خاراندن سرهایمان بگذارند. این به خاطر تعصب، داده‌های ضعیف، نیازهای نامشخص و هر چیز دیگری است.

یک روش بهتر این است که انسان‌ها را از این فرآیند خارج نکنید. این تکنیک به افراد کمک می‌کند تا در استفاده از الگوریتم ها برای تصمیم‌گیری به راحتی برسند. با استفاده از یک الگوریتم برای کم کردن گزینه‌ها در زمان صرفه‌جویی می‌کند.

برای بسیاری از مشکلات کسب‌وکار، صدها و هزاران راه‌حل وجود دارد. فیلتر کردن صدها راه‌حل، استفاده خوبی از زمان افراد نیست. در اینجاست که الگوریتم‌ها می‌توانند مفید واقع شوند. این هم حقه. الگوریتم تنها یک پاسخ نهایی تولید نمی‌کند. از الگوریتم بخواهید تصمیمات را به ۳ یا ۴ محدود کند و یک انسان را داشته باشد که بهترین انتخاب را از میان این گزینه‌ها انتخاب کند. این امر اجازه می‌دهد تا تصمیمات هم با داده و هم با ورودی انسان گرفته شوند. با از بین بردن انسان شروع نکنید!

نداشتن اطلاعات صحیح

داده‌های بیشتر همیشه بهتر نیستند. باید داده درستی باشد. من یک‌بار با یک مشکل مواجه شدم: آیا می‌توانید پیش‌بینی کنید کدام مشتریان ترک خواهند کرد؟ گفتم "شاید" و مقداری اطلاعات خواستم. من با مقادیر زیادی داده در مورد اشکالات و نقص‌های نرم‌افزار ارائه شدم. سعی کردم توضیح دهم که داده‌ها برای این مشکل خیلی مفید نبودند. من به دریافت این پاسخ ادامه دادم، «اما داده‌های زیادی وجود دارد» متاسفانه، داده‌ها هیچ ارتباطی با مشتریان ندارند. بنابراین، پیش‌بینی‌ها تا زمانی که داده‌های مرتبط‌تر کشف نشوند، نمی‌توانند اتفاق بیفتند. بیشتر داده‌های نادرست نمی‌توانند مقدار کمی از داده‌های صحیح را جایگزین کنند.

انتظارات نادرست

علم داده جادو نیست. باز هم می‌گویم. علم داده جادو نیست. باید از شرکت خرید کنید و کسی که قدرت تصمیم‌گیری دارد باید در پروژه سرمایه‌گذاری کند. باید یک هدف و یک چشم‌انداز برای ارزشی که علم داده می‌تواند فراهم کند وجود داشته باشد. حتی بهتر از آن، باید یک برنامه وجود داشته باشد.

استخدام یک دانشمند داده و امید به اینکه چیزها به طور جادویی اتفاق بیفتند، دستورالعمل موفقیت نیست.

اهداف و فرآیندهایی داشته باشید. علاوه بر این، زمانی که به آن نیاز دارید (و نه اگر)از آن پشتیبانی کنید.

ایجاد یک استراتژی داده

قبل از شروع پروژه دانش داده بعدی خود، ایجاد یک استراتژی داده را در نظر بگیرید. آن باید شامل یک چشم‌انداز آینده و یک برنامه برای رسیدن به آنجا باشد.

من روی یک دوره استراتژی داده کار می‌کنم که در مقاله بعدی ارایه خواهم کرد.


منتشرشده در: سایت 101.datascience به تاریخ ۲۶ نوامبر ۲۰۱۹
نویسنده: Ryan Swanstrom
لینک مقاله اصلی: https://101.datascience.community/2019/11/26/challenges-of-data-science-projects/

این مقاله توسط مترجم هوشمند مقالات علمی تخصصی و به صورت خودکار و با حداقل بازبینی انسانی ترجمه شده و می‌تواند به صورت محدود دارای اشکالات ترجمه باشد.