دانشمند داده: کثیف‌ترین شغل قرن ۲۱‌ام

مطابق مجله کسب‌وکار هاروارد، یک دانشمند داده دارای سکسی‌ترین کار قرن ۲۱ است. در دنیای کلان‌داده‌ها، آن‌ها هوش مصنوعی و یادگیری عمیق را برای ارایه بینش‌های تجاری ارزشمند بکار می‌بندند.

برای من، با داشتن عنوان شغلی «دانشمند داده» در پنج سال گذشته، هنوز کاملا مشخص نشده که کدام بخش من جذاب است. به جز شاید موهای تازه پر شده‌ام که مرا شبیه یک «اوپا»ی کره‌ای می‌کند (معمولا برای اشاره به نقش اول مرد درام‌های کره‌ای استفاده می‌شد).

در واقع، ظهور ابر و حرکت کسب‌و‌کارها به سمت اینترنت منجر به انفجار داده‌ها شده‌است. این امر باعث افزایش تقاضا و کمبود دانشمندان داده در برخی از بخش‌ها شده.

اما شغل دانشمندان داده به صورت روزانه مستلزم چه چیزی است؟

می‌توانیم با تحلیل نیازمندی‌های شغلی در LinkedIn پاسخ خود را به این سوال پیدا کنیم. بگذارید معروف‌ترین‌هایشان را عنوان کنم:

  • درک کسب‌وکار و مشتریان، تایید فرضیات
  • ساخت مدل‌های پیش‌بینی و خطوط لوله یادگیری ماشین، انجام آزمایش A/B
  • مفهوم‌پردازی تحلیل‌ها برای سهامداران کسب‌وکار
  • توسعه الگوریتم ها برای قدرت بخشیدن به تصمیمات کسب‌وکار
  • بررسی و مطالعه فن‌آوری‌ها و روش‌های نوین برای بهبود قابلیت‌های فنی

این کارها جذاب به نظر می‌رسند، اینطور نیست؟

اگر وظیفه شما شامل کار بر روی مجموعه داده Kaggle نباشد، این توصیفات شغلی تنها بخش کوچکی از دانشمند داده بودن هستند. نتایج بررسی زیر توسط CrowdFlower مجموع فعالیت‌های یک روز نمونه برای یک دانشمند داده را نشان می‌دهد:

دانشمندان داده‌ها بیشتر وقت خود را صرف انجام چه کاری می‌کنند.
دانشمندان داده‌ها بیشتر وقت خود را صرف انجام چه کاری می‌کنند.

همانطور که از نمودار بالا می‌بینید، اکثر زمان یک متخصص داده در جمع‌آوری مجموعه داده‌ها و تمیز کردن و سازمان دهی داده‌ها است.

جاروکش داده با کارایی بالا در قرن ۲۱

دریاچه‌های داده مخزن‌های مرکزی هستند که تمام داده‌های شرکت را ذخیره می‌کنند. آن‌ها سازمان‌ها را قادر می‌سازند تا از این داده‌ها برای ساخت مدل‌های یادگیری ماشین و داشبوردها استفاده کنند. متاسفانه، برخی از مردم فرض می‌کنند که دریاچه‌های داده زمین‌های جمع‌آوری داده‌ها هستند.

بسیاری از سازمان‌ها شروع به پیاده‌سازی دریاچه‌های داده کرده‌اند بدون هیچ ایده روشنی از این که با داده‌های جمع‌آوری‌شده چه کار می‌خواهند بکنند. آن‌ها گفته‌اند: «بیایید همه چیز را جمع‌آوری کنیم» در حالی که هدف از یک مخزن داده این است که تمام داده‌های شرکت را در یک مکان داشته باشیم، هنوز هم مهم است که آن را با نیازهای پروژه‌های خاص طراحی کنیم. برنامه‌ریزی مانند ایجاد یک «پوشه بدون عنوان» جدید و سپس کپی و چسباندن کل داده‌های شرکت در آنجا نیست.

زمانی که از دسکتاپتان به عنوان زمین ذخیره داده استفاده می‌کنید
زمانی که از دسکتاپتان به عنوان زمین ذخیره داده استفاده می‌کنید

از لحاظ تاریخی، برنامه‌ریزی ضعیف منجر به عدم وجود فراداده به خوبی تعریف‌شده است، که جستجو (و یافتن) داده‌های مورد نیاز را برای هر کسی دشوار ساخته‌است. دانشمندان علوم داده اغلب خود را در حال تماس با بخش‌های مختلف برای داده‌ها می‌یابند. آن‌ها ممکن است نیاز به جستجوی اطلاعات در مورد داده‌های صاحبان مختلف داده داشته باشند. ذخیره‌سازی صرف داده‌ها بدون فهرست‌نویسی یک اشتباه بزرگ است. کلید داشتن یک مخزن داده مفید این است که اطمینان حاصل شود فراداده به خوبی تعریف شده‌است.

به دلیل نظارت بر داده‌ها یا حجم زیادی از صاحبان داده‌ها، که اغلب سهام داران بخش‌های مختلف هستند، بدست آوردن داده‌های حیاتی می‌تواند هفته‌ها طول بکشد. بعد از بازی انتظار، دانشمندان داده ممکن است به این نتیجه برسند که داده‌ها مرتبط نیستند یا مشکلات کیفی جدی دارند. وقتی که دانشمندان داده در نهایت به اطلاعات دست می‌یابند، باید زمان زیادی را صرف بررسی و آشنایی با آن کنند. آن‌ها باید این حجم از داده‌ها را به جداول جدیدی تبدیل کنند که با نیازهای پروژه آن‌ها همخوانی داشته باشد.

درخواست بسیار بالا برای رفتگر داده در قرن بیست و یکم

هر کسی که با داده‌ها سر و کار دارد باید اصطلاح "داده‌های کثیف" را شنیده باشد. داده‌های کثیف یکپارچگی مجموعه داده‌ها را از بین می‌برند. برخی ویژگی‌های داده‌های کثیف، داده‌های ناقص، نادرست، متناقض و تکراری هستند.

داده‌های ناقص زمانی است که برخی از ویژگی‌های ضروری خالی هستند. برای مثال، فرض کنید وظیفه شما پیش‌بینی قیمت‌های خانه است. بیایید فرض کنیم که «منطقه محل خانه» برای پیش‌بینی خوب مهم است، اما از دست رفته‌است. این ممکن است برای شما چالش برانگیز باشد و مدل شما ممکن است عملکرد خوبی نداشته باشد.

داده‌های نادرست و متناقض زمانی است که ارزش‌ها از لحاظ فنی درست اما براساس زمینه اشتباه هستند. برای مثال، زمانی که یک کارمند آدرس خود را تغییر داد، و این اطلاعات به روز نشده است. یا زمانی که نسخه‌های زیادی از داده‌ها وجود دارد و دانشمند داده یک نسخه قدیمی گرفته‌است.

داده‌های تکراری یک مشکل رایج هستند. اجازه دهید داستانی را با شما در میان بگذارم که در حین کار در یک شرکت تجارت الکترونیک برای من اتفاق‌افتاده است. بر اساس طراحی، زمانی که یک بازدید کننده روی دکمه «دریافت کوپون» کلیک می‌کرد، وب سایت پاسخی به سرور ارسال می‌کرد. این به ما این امکان را می‌داد تا تعداد کاربرانی که کوپن جمع کرده‌اند را اندازه‌گیری کنیم. سایت به خوبی کار می‌کرد، تا اینکه یک روز چیزی تغییر کرد و من از آن اطلاعی نداشتم. توسعه دهنده اصلی پاسخ دیگری را برای زمانی که کسی به طور موفقیت آمیزی کوپن جمع می‌کند، اضافه می‌کند. دلیلش این بود که بعضی از کوپن ها ممکن است خارج از انبار باشند. آن‌ها می‌خواستند تا رد بازدیدکنندگانی را که روی دکمه کلیک کرده بودند و کسانی که کوپن ها را جمع کرده بودند را دنبال کنند. در آن زمان، دو پاسخ به همان جدول ثبت فرستاده شد. با نگاه کردن به ابزار گزارش دهی، به نظر می‌رسید که تعداد کوپن های جمع‌آوری‌شده یک شبه دو برابر شده‌است! از آنجایی که یک مدل را روز قبل توسعه داده بودم، تصور می‌کردم که مدل جدیدم آن قدر تاثیرگذار شده است. یادم می‌آید که پیش خودم مدل را تحسین کردم، اما بعدا متوجه شدم که این فقط ورودی بوده که دو برابر شده‌است!

همچنین، در پنج سال گذشته به عنوان یک دانشمند داده، برخی از داده‌هایی که من دریافت کرده‌ام ورودی‌های دستی توسط پرسنل شرکت هستند. این داده‌ها در صفحات گسترده اکسل هستند؛ بسیاری از آن‌ها نادرست، ناقص، و متناقض هستند.

چه داده‌های حاصل از داده‌های دستی ورودی انسان باشد و چه داده‌های ماشین، جمع‌آوری داده‌ها بخش بزرگی از اتفاقی است که در دنیای واقعی می‌افتد. دانشمندان علوم اطلاعات باید با آن مقابله کنند. برای اینکه الگوریتم‌های یادگیری با نظارت کار کنند، ما به داده‌های قابل‌اعتماد و برچسب دار نیاز داریم. شما نمی‌توانید یک مدل پیش‌بینی بسازید مگر اینکه داده‌ها به درستی برچسب زده شوند. اما هیچ‌کس دوست ندارد که داده‌ها را برچسب بزند.

بسیاری این را قانون ۲۰/۸۰ توصیف می‌کنند. دانشمندان علوم اطلاعات تنها ۲۰ درصد وقت خود را صرف ساخت مدل‌ها و ۸۰ درصد وقت خود را صرف جمع‌آوری، تحلیل، پاک‌سازی و سازماندهی مجدد داده‌ها می‌کنند. داده‌های کثیف وقت‌گیرترین جنبه کار یک دانشمند داده معمولی هستند

لازم است اشاره کنیم که تمیز کردن داده‌ها فوق‌العاده ضروری است؛ داده‌های درهم و برهم نتایج خوبی ایجاد نمی‌کنند. شما ممکن است عبارت «ورودی آشغال، خروجی آشغال» را شنیده باشید. دانشمندان علوم اطلاعات به هنگام شنا کردن در داده‌ها، کشفی انجام می‌دهند، اما قبل از این که دانشمندان اطلاعات بتوانند آموزش هر مدلی را آغاز کنند، باید ابتدا به رفتگران داده تبدیل شوند. داده‌ها به پاک کردن نیاز دارند، داده‌ها به برچسب زدن نیاز دارند.

من یک دانشمند داده هستم …

من شغلم را جذاب نمی‌دانم

من ۴۰٪ مواقع در حال جاروکشی و مکش داده هستم، ۴۰٪ دیگر را رفتگر هستم.

و در ۲۰٪ آخر … یک طالع‌بین!