Data Scientist یا به اصطلاح کسی که داره روی داده ها کار میکنه چه کسی هست و چه عملیاتی رو باید در شرکت ها انجام بده؟ اساساً این پوزیشن چه مسئولیت هایی داره و با چه استک و ابزارهایی باید کار کنه؟
این مقاله رو با همکاری دیتاساینتیست شرکت خودمون نوشتم که چندین سال هست داریم باهم کار میکنیم و قرار هست که در اینجا تجربیات به اشتراک گذاشته بشه.

یک جریان کلی از کار هایی که دیتاسانتیست در شرکت ما انجام میده رو باهم بررسی کنیم بعد بریم سراغ موضوعات دیگه. ما در شرکت خودمون حدود ده سالی هست که چند تا استارت اپ با اسکیل کوچیک یا متوسط و چند تا پروژه ثابت اصلی داریم که این ها داده های خیلی زیادی رو تولید میکنند. ما این داده ها رو از زیرساخت های دیتابیس خودمون استخراج میکنیم و در یکسری شیت های اکسلی مرتبشون کرده و به عنوان داده های خام میدیم به دیتاساینتیستمون.
ایشون در اولین مرحله که این داده ها رو از تیم دیتابیس ما گرفت، میاد و این ها رو بر اساس یکسری اصول اولیه با متد هایی که خودش داره مرتب سازی میکنه و وضعیت سطر و ستون ها و داده های اصلی و داده های computed رو درست میکنه و خروجی میشه مثلا یک فایل اکسل تر تمیز.
در مرحله بعدی میاد و این داده ها رو به عنوان ورودی میده به داشبورد های کاریشون (یکسری داشبورد هایی دارند اینها که بعداً صحبت میکنیم راجبش) و این داشبورد بر اساس یکسری شاخص ها و تنظیمات و فرمول ها، میاد و اون داده های خام رو visualize (بصری سازی) میکنه و بر اساس چارت های گرافیکی دینامیک نشون میده.
در مرحله بعدی، این دیتاساینتیست ما میاد و این داده های به وجود اومده رو بررسی میکنه و یکسری الگوهایی که احتمالاً بدون دقت دیده نمیشوند رو پیدا میکنند و اون رو به گزارش تبدیل میکنند. خودشون بهش الگو های پنهان میگن و از نظر این عزیزان، الگو های پنهان خیلی میتونه برای بیزینس اون سیستم اهمیت داشته باشه.
در نهایت، این گزارشات میاد میرسه به دست ما و با مطالعه این گزارشات میفهمیم که باید چه تصمیمات و چه کارهایی رو انجام بدیم.
حالا بریم سراغ موضوعات تکنیکال و ابزار هایی که این دوستان باید داشته باشند و کار کردن باهاش رو بلد باشند.
آشنایی با دیتابیس ها و ساختار های دیتابیس
آشنایی با مفاهیم مدل سازی داده (هم داده منطقی و هم داده فیزیکی)
آشنایی با مباحث داده کاوی (Data Mining)
آشنایی با ابزار ها و داشبورد های visualization همانند Tableau یا Power BI یا Grafana
آشنایی کامل با SQL
آشنایی با پایتون و کتابخونه هایی که خیلی لازمشون میشه مثل پای چارت
آشنایی با الگوریتم های دیتاسانتیستی مثل درخت های تصمیم، SVM و رگرسیون ها و ...
آشنایی با تکنیک های Segmentation
آشنایی با Machine Learning و پیاده سازی مدل های مبتنی بر اون ها
این ها کارهایی بود که در خود شرکت ما اتفاق میوفته و جالب هست که فقط دو نفر (خودم به عنوان برنامه نویس و دیتاآنالیستمون هم به عنوان متخصص این حوزه) تقریبا موضوعات رو جمع میکنیم و به نتیجه میرسونیم.
این جریان برای پروژه هایی که دیتای زیاد روزانه تولید میکنند اتفاق میوفته و برای تصمیم هایی که باید گرفته بشه، دارای اهمیت ویژه ای هست.
طبیعتاً شرکت های خیلی بزرگ و مهمی وجود دارند که مسئولیت این عزیزان در اون شرکت ها خیلی سنگین تر و مهم تر و حتی پیچیده تر هست اما بیس کار همین موضوعاتی که عرض کردم این ها هستند.
موفق و پیروز باشید.