یکی از فیلدهای مرتبط با دنیای کامپیوتر و فن آوری اطلاعات که اخیرا در بین کارکنان و اندیشمندان این حوزه بسیار باب شده است و هر روز بر احساس نیاز به آن افزوده میشود، زمینه علم داده یا Data Science میباشد.
بسیار از مواقع عنوان یک زمینه علمی نمی تواند راهنمای خوبی برای بیان محتوای آن باشد و این در مورد فیلد علوم داده نیز صادق است. ما در این مقاله سعی خواهیم کرد ضمن باز کردن معنای این حوزه از علم جدید، به مهارتهای لازم برای ورود به حوزه علم داده و تبدیل شدن به یک Data Scientist اشاره کنیم و بدین ترتیب یک راهنمایی برای کسانی که میخواهند به نحوی وارد این حوزه شوند یا از آن به صورتی استفاده کنند را ارائه دهیم.
قبل از هرچیز باید به مفهوم داده و اهمیت آن بپردازیم. همانطور که احتمالا میدانید حجم بسیار بالایی از داده به اصطلاح خام در هر ثانیه در سطح اینترنت توسط منابع مختلفی مانند شبکه های اجتماعی و اشیاء متصل به اینترنت و سیستم های ابری تولید شده و یا در حال تولید است. داده ها میتوانند شامل یک متن ساده, یک تصویر, صوت یا ویدئو و هر نوع دیگری باشند. برخی از این داده ها به صورت منظم و برخی به صورت نامنظم در سطح رسانه های ذخیره سازی روی کامپیوتر های لوکال تا سطوح مختلف ذخیره سازی ابری قرار دارند. همچنین این داده ها میتوانند در دسته بندیهای مختلفی مانند تفریحی, پزشکی, ورزشی, سیاسی و … باشند. دوره جامع آموزش علم داده با پایتون (2020 – Data Science) در کدفرند
اگر بتوانیم داده هایی که در بخش قبلی به آن اشاره شد را به صورت دسته بندی شده مورد هدف قرار دهیم تا با تحلیل آن به نتایجی برای کسب و کارمان یا موارد استفاده دیگر تبدیل شوند این منبع داده ای که معمولا حجم عظیمی از آن را شامل میشود با نام Big Data یا داده بزرگ بیان میشود. در واقع وجود داده بزرگ و این نوع نگاه به داده باعث ایجاد انگیزه برای تحلیل و دریافت نتایج آن در دنیای فن آوری اطلاعات شده است.
تمامی روشها و مراحل علمی, مهندسی و تجاری که منجر به ایجاد نتایج قابل استفاده از یک داده بزرگ یا Big Data در حوزه صنعت, پزشکی و … شود جزوی از علوم داده میباشند و در واقع این مفهوم بسیار فراگیر است و خود شامل مفاهیم دیگری میشود که به آن خواهیم پرداخت.
کسی که توانایی علمی و مهارت کافی برای پیش برد همه مراحل مورد ذکر را در زمینه های مختلفی مانند ریاضیات, علوم کامپیوتر و دانش کسب و کار را داشته باشد به عنوان دانشمند علم داده میتوانیم از او یاد کنیم.
معمولا برای ورود به حوزه علم داده و به دنیای پردازش داده به مهارتهای مختلفی نیاز داریم و در نتیجه نقش های مختلفی به وجود می آیند که در مجموع میتوانند یک فرایند مربوط به حوزه علم داده را پیش ببرند. این تفکر که یک شخص به تنهایی تمامی مراحل همه نقشهای موجود در فرایند پردازش داده را انجام دهد کمی دور از واقعیت است. به عنوان مثال مراحلی مانند جمع آوری, مرتب سازی, معماری, تحلیل آماری, یادگیری ماشین و استنتاج و استنباط را باید در این فرایند طی کنیم که میتواند به نقشهایی مانند تحلیل گر داده, مسئول آمار, معمار داده, مهندس پایگاه داده ها, مدیر سیستم و تحلیل گر کسب و کار بیانجامد. روشن است که همه این نقشها و مهارتها برای یک شخص بسیار سنگین است و معمولا شرکتها و یا تیم های کاری هر بخش از فرایند را به شخص یا اشخاصی به صورت گروهی محول میکنند. پس ابتدا باید بدانید که در این حوزه میخواهید در کدام بخش مهارت کافی را بدست آورید.
اما به صورت کلی یک تیم یا شخص کامل در زمینه حوزه علم داده یا به اصطلاح دانشمند علم داده باید در زمینه های زیر مهارت کافی را داشته باشد:
در واقع Data Science نقطه طلاقی سه علم مختلف به شرح بالا است و برای تبدیل شدن به آن باید بتوانید در این حوزه ها به صورت موثر فعالیت کرد و از مهارتهای تیمی در این حوزه ها استفاده کرد.