دانشمند علم داده یا دیتاساینتیست کیست و چه می‌کند؟

خیلی وقتا شده که اطرافیانم ازم می‌پرسن تو چه حوزه‌ای کار می‌کنی؟ و وقتی می‌گم دیتاساینس، خیلی ها براشون سوال پیش میاد که دقیقا چی کار می‌کنی؟؟ خب توضیحش برای همه زیاد راحت نیست... اما سعی کردم این مطلب رو طوری بنویسم که بیشتر افراد متوجه بشن یک دانشمند علم داده یا دیتاساینتیست دقیقا چی کار می‌کنه. البته پیشنهاد می‌کنم پست دیتاساینس چیست رو قبل ازین مطلب بخونید؛ چون در اون مطلب به طور جامع به این پرداختم که دیتاساینس چیه و از چه تخصص هایی تشکیل شده و در این جا قصد دارم کار هایی که یک دیتاساینتیست انجام می‌ده رو شرح بدم.

در این مطلب به صورت مختصر و ساده توضیح دادم که دیتاساینتیست کیه و چی کار می‌کنه؟
در این مطلب به صورت مختصر و ساده توضیح دادم که دیتاساینتیست کیه و چی کار می‌کنه؟


دانشمند علم داده کیست؟

یک دانشمند علم داده شخصی است که از داده ها برای حل مسائل، کشف الگو ها و بدست آوردن بینش استفاده می‌کنه.

متخصصین علم داده بیشتر با سازمان ها و تجارت هایی همکاری دارند که مجموعه داده های بزرگ را جمع آوری می‌کنند. متخصصین علم داده ممکنه از آمار، برنامه نویسی، پایگاه داده، یادگیری ماشین و مدل های ریاضیاتی برای دستیابی به اهداف خود استفاده کنند. به طور کلی این متخصصین مراحل هرم دانش را برای حل مسائل طی می‌کنند. ممکنه براتون سوال بشه هرم داده چیه؟ به طور مختصر بخوام بگم هرم دانش متشکل شده از 4 مرحله داده، اطلاعات، دانش و خرد که هر یک ازین مراحل توضیح خاص خودش رو داره و توی مطلب هرم DIWK یا هرم دانش مفصل‌تر بهش پرداختم.

متخصص علم داده برای حل هر مساله در کسب و کار، ابتدا نیاز داره تا اهمیت ها و اولویت های تجارت یا سازمان رو درک کنه. دیتاساینتیست پس ازین مرحله به دنبال داده هایی می‌گرده که ممکنه برای انجام آزمون های تشخیص داده شده توسط خودش جمع آوری بشه یا داده هایی که ممکنه در حال حاضر در جایی موجود باشه. اگر لازم به انجام آزمایشی باشه، مهمه که قبل از پردازش داده ها فرض های اون نوشته بشه. پس از جمع آوری داده ها، آن ها باید ارزیابی و پاکسازی بشند. سپس ابزار مناسب برای مدل سازی انتخاب می‌شه. برای مثال نرم افزار R یا Python یا بسته های نرم افزاری دیگر می‌تونن ابزاری برای مدل سازی باشن. سپس داده ها و نتیجه هایشان با استفاده از ابزار های مصور سازی، تجزیه و تحلیل می‌شند. متخصصین علم داده به دنبال نشانه های مهم و روند ها می‌گردند و فروض را بررسی می‌کنند. تست های آماری برای بررسی استوار بودن و اعتبار سنجی نتایج استفاده می‌شند. یادگیری ها، نتایج و بینش ها به صاحبان تجارت ابلاغ می‌شند که این نتایج معمولا به همراه پیشنهادات است. برای مثال یک متخصص علم داده در مساله ای که مربوط به تجارت حمل و نقل می‌شه؛ ممکنه مسیر های خاصی رو که ناکارآمد هستند شناسایی کنه و راه حل هایی با کارایی بیشتر پیشنهاد بده.

یک دیتاساینتیست چه توانایی هایی باید داشته باشه؟

شاغلین در حوزه علم داده که اون ها رو متخصص علم داده یا دانشمند علم داده و به اصطلاحی دیگر دیتاساینتیست می‌نامند؛ به مهارت هایی برای دستیابی به طیف وسیعی از نتایج نیاز دارند که مهمترین مهارت ها به شرح زیر است:

· توانایی استخراج و تفسیر منابع داده

· مدیریت حجم زیاد اطلاعات با سخت‌افزار

· محدودیت‌های نرم‌افزاری و پهنای باند

· ادغام منابع داده با یک دیگر

· تضمین پایداری مجموعه‌های داده

· مصورسازی داده به منظور فهم آن

· ساخت مدل‌های ریاضی و آماری با استفاده از داده، مانند مدل های رگرسیون و طبقه بندی

· مقایسه آماری مدل های گوناگون و انتخاب مدل برتر

· به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام

البته که اگه کسی ازم بپرسه چطور می‌تونم این مسیر رو طی کنم به عنوان کسی که حدود یک و نیم سال توی این فیلد فعالیت داره؛ قبل ازین که بهش پیشنهادی بدم، از حوزه‌ای که در اون بوده سوال می‌پرسم. چراکه این فیلد کاری نیاز داره که از قبل یک پایه دانشی از یکی از سه حوزه آمار و ریاضی، علوم کامپیوتر و یا دانش حوزه کسب و کار داشته باشید و به قولی در یکی ازین تخصص ها عمیق باشید. مسیری که هر کدوم ازین تخصص ها طی می‌کنند تا به یک دیتاساینتیست تبدیل بشن متفاوته و نکته آخر این که دیتاساینس یک کار "تیمی" هست. چون همه توانایی هایی که در بالا ذکر کردم رو یک نفر نمی‌تونه به صورت تخصصی داشته باشه درصورتی که هر یک از توانایی ها رو یک نفر می‌تونه کسب کنه و در بقیه توانایی ها تسلطی سطحی داشته باشه تا بتونه به صورت تیمی کار کنه.


در آخر بهتون پیشنهاد می‌کنم مطلب «مسیر علم داده ارزیاب» رو بخونید تا دید جامعی از این که چطور مسیر یادگیری علم داده رو شروع کنید و استارت بزنید پیدا کنید.