من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
دانشمند داده: کثیفترین شغل قرن ۲۱ام
مطابق مجله کسبوکار هاروارد، یک دانشمند داده دارای سکسیترین کار قرن ۲۱ است. در دنیای کلاندادهها، آنها هوش مصنوعی و یادگیری عمیق را برای ارایه بینشهای تجاری ارزشمند بکار میبندند.
برای من، با داشتن عنوان شغلی «دانشمند داده» در پنج سال گذشته، هنوز کاملا مشخص نشده که کدام بخش من جذاب است. به جز شاید موهای تازه پر شدهام که مرا شبیه یک «اوپا»ی کرهای میکند (معمولا برای اشاره به نقش اول مرد درامهای کرهای استفاده میشد).
در واقع، ظهور ابر و حرکت کسبوکارها به سمت اینترنت منجر به انفجار دادهها شدهاست. این امر باعث افزایش تقاضا و کمبود دانشمندان داده در برخی از بخشها شده.
اما شغل دانشمندان داده به صورت روزانه مستلزم چه چیزی است؟
میتوانیم با تحلیل نیازمندیهای شغلی در LinkedIn پاسخ خود را به این سوال پیدا کنیم. بگذارید معروفترینهایشان را عنوان کنم:
- درک کسبوکار و مشتریان، تایید فرضیات
- ساخت مدلهای پیشبینی و خطوط لوله یادگیری ماشین، انجام آزمایش A/B
- مفهومپردازی تحلیلها برای سهامداران کسبوکار
- توسعه الگوریتم ها برای قدرت بخشیدن به تصمیمات کسبوکار
- بررسی و مطالعه فنآوریها و روشهای نوین برای بهبود قابلیتهای فنی
این کارها جذاب به نظر میرسند، اینطور نیست؟
اگر وظیفه شما شامل کار بر روی مجموعه داده Kaggle نباشد، این توصیفات شغلی تنها بخش کوچکی از دانشمند داده بودن هستند. نتایج بررسی زیر توسط CrowdFlower مجموع فعالیتهای یک روز نمونه برای یک دانشمند داده را نشان میدهد:
همانطور که از نمودار بالا میبینید، اکثر زمان یک متخصص داده در جمعآوری مجموعه دادهها و تمیز کردن و سازمان دهی دادهها است.
جاروکش داده با کارایی بالا در قرن ۲۱
دریاچههای داده مخزنهای مرکزی هستند که تمام دادههای شرکت را ذخیره میکنند. آنها سازمانها را قادر میسازند تا از این دادهها برای ساخت مدلهای یادگیری ماشین و داشبوردها استفاده کنند. متاسفانه، برخی از مردم فرض میکنند که دریاچههای داده زمینهای جمعآوری دادهها هستند.
بسیاری از سازمانها شروع به پیادهسازی دریاچههای داده کردهاند بدون هیچ ایده روشنی از این که با دادههای جمعآوریشده چه کار میخواهند بکنند. آنها گفتهاند: «بیایید همه چیز را جمعآوری کنیم» در حالی که هدف از یک مخزن داده این است که تمام دادههای شرکت را در یک مکان داشته باشیم، هنوز هم مهم است که آن را با نیازهای پروژههای خاص طراحی کنیم. برنامهریزی مانند ایجاد یک «پوشه بدون عنوان» جدید و سپس کپی و چسباندن کل دادههای شرکت در آنجا نیست.
از لحاظ تاریخی، برنامهریزی ضعیف منجر به عدم وجود فراداده به خوبی تعریفشده است، که جستجو (و یافتن) دادههای مورد نیاز را برای هر کسی دشوار ساختهاست. دانشمندان علوم داده اغلب خود را در حال تماس با بخشهای مختلف برای دادهها مییابند. آنها ممکن است نیاز به جستجوی اطلاعات در مورد دادههای صاحبان مختلف داده داشته باشند. ذخیرهسازی صرف دادهها بدون فهرستنویسی یک اشتباه بزرگ است. کلید داشتن یک مخزن داده مفید این است که اطمینان حاصل شود فراداده به خوبی تعریف شدهاست.
به دلیل نظارت بر دادهها یا حجم زیادی از صاحبان دادهها، که اغلب سهام داران بخشهای مختلف هستند، بدست آوردن دادههای حیاتی میتواند هفتهها طول بکشد. بعد از بازی انتظار، دانشمندان داده ممکن است به این نتیجه برسند که دادهها مرتبط نیستند یا مشکلات کیفی جدی دارند. وقتی که دانشمندان داده در نهایت به اطلاعات دست مییابند، باید زمان زیادی را صرف بررسی و آشنایی با آن کنند. آنها باید این حجم از دادهها را به جداول جدیدی تبدیل کنند که با نیازهای پروژه آنها همخوانی داشته باشد.
درخواست بسیار بالا برای رفتگر داده در قرن بیست و یکم
هر کسی که با دادهها سر و کار دارد باید اصطلاح "دادههای کثیف" را شنیده باشد. دادههای کثیف یکپارچگی مجموعه دادهها را از بین میبرند. برخی ویژگیهای دادههای کثیف، دادههای ناقص، نادرست، متناقض و تکراری هستند.
دادههای ناقص زمانی است که برخی از ویژگیهای ضروری خالی هستند. برای مثال، فرض کنید وظیفه شما پیشبینی قیمتهای خانه است. بیایید فرض کنیم که «منطقه محل خانه» برای پیشبینی خوب مهم است، اما از دست رفتهاست. این ممکن است برای شما چالش برانگیز باشد و مدل شما ممکن است عملکرد خوبی نداشته باشد.
دادههای نادرست و متناقض زمانی است که ارزشها از لحاظ فنی درست اما براساس زمینه اشتباه هستند. برای مثال، زمانی که یک کارمند آدرس خود را تغییر داد، و این اطلاعات به روز نشده است. یا زمانی که نسخههای زیادی از دادهها وجود دارد و دانشمند داده یک نسخه قدیمی گرفتهاست.
دادههای تکراری یک مشکل رایج هستند. اجازه دهید داستانی را با شما در میان بگذارم که در حین کار در یک شرکت تجارت الکترونیک برای من اتفاقافتاده است. بر اساس طراحی، زمانی که یک بازدید کننده روی دکمه «دریافت کوپون» کلیک میکرد، وب سایت پاسخی به سرور ارسال میکرد. این به ما این امکان را میداد تا تعداد کاربرانی که کوپن جمع کردهاند را اندازهگیری کنیم. سایت به خوبی کار میکرد، تا اینکه یک روز چیزی تغییر کرد و من از آن اطلاعی نداشتم. توسعه دهنده اصلی پاسخ دیگری را برای زمانی که کسی به طور موفقیت آمیزی کوپن جمع میکند، اضافه میکند. دلیلش این بود که بعضی از کوپن ها ممکن است خارج از انبار باشند. آنها میخواستند تا رد بازدیدکنندگانی را که روی دکمه کلیک کرده بودند و کسانی که کوپن ها را جمع کرده بودند را دنبال کنند. در آن زمان، دو پاسخ به همان جدول ثبت فرستاده شد. با نگاه کردن به ابزار گزارش دهی، به نظر میرسید که تعداد کوپن های جمعآوریشده یک شبه دو برابر شدهاست! از آنجایی که یک مدل را روز قبل توسعه داده بودم، تصور میکردم که مدل جدیدم آن قدر تاثیرگذار شده است. یادم میآید که پیش خودم مدل را تحسین کردم، اما بعدا متوجه شدم که این فقط ورودی بوده که دو برابر شدهاست!
همچنین، در پنج سال گذشته به عنوان یک دانشمند داده، برخی از دادههایی که من دریافت کردهام ورودیهای دستی توسط پرسنل شرکت هستند. این دادهها در صفحات گسترده اکسل هستند؛ بسیاری از آنها نادرست، ناقص، و متناقض هستند.
چه دادههای حاصل از دادههای دستی ورودی انسان باشد و چه دادههای ماشین، جمعآوری دادهها بخش بزرگی از اتفاقی است که در دنیای واقعی میافتد. دانشمندان علوم اطلاعات باید با آن مقابله کنند. برای اینکه الگوریتمهای یادگیری با نظارت کار کنند، ما به دادههای قابلاعتماد و برچسب دار نیاز داریم. شما نمیتوانید یک مدل پیشبینی بسازید مگر اینکه دادهها به درستی برچسب زده شوند. اما هیچکس دوست ندارد که دادهها را برچسب بزند.
بسیاری این را قانون ۲۰/۸۰ توصیف میکنند. دانشمندان علوم اطلاعات تنها ۲۰ درصد وقت خود را صرف ساخت مدلها و ۸۰ درصد وقت خود را صرف جمعآوری، تحلیل، پاکسازی و سازماندهی مجدد دادهها میکنند. دادههای کثیف وقتگیرترین جنبه کار یک دانشمند داده معمولی هستند
لازم است اشاره کنیم که تمیز کردن دادهها فوقالعاده ضروری است؛ دادههای درهم و برهم نتایج خوبی ایجاد نمیکنند. شما ممکن است عبارت «ورودی آشغال، خروجی آشغال» را شنیده باشید. دانشمندان علوم اطلاعات به هنگام شنا کردن در دادهها، کشفی انجام میدهند، اما قبل از این که دانشمندان اطلاعات بتوانند آموزش هر مدلی را آغاز کنند، باید ابتدا به رفتگران داده تبدیل شوند. دادهها به پاک کردن نیاز دارند، دادهها به برچسب زدن نیاز دارند.
من یک دانشمند داده هستم …
من شغلم را جذاب نمیدانم
من ۴۰٪ مواقع در حال جاروکشی و مکش داده هستم، ۴۰٪ دیگر را رفتگر هستم.
و در ۲۰٪ آخر … یک طالعبین!
مطلبی دیگر از این انتشارات
ظهور میکروپلاستیکها ممکن است برخی غذاهای دریایی را پرریسکتر کند
مطلبی دیگر از این انتشارات
۴ عامل کلیدی برای فروش به نسل Z(نسل جوان)
مطلبی دیگر از این انتشارات
چگونه ردیابی پست الکترونیکی را در جیمیل متوقف کنیم - از کار انداختن تصاویر به طور پیشفرض