آمار شهید بهشتی خوندم. حوزه فعالیتم دیتاساینسه. عضو کوچیکی از خانوادهی شتابدهنده سنجیده و شرکت علم داده ارزیاب ام. پروفایل من در ارزیاب: https://arz-yab.com/our-teams/personalpage.php?uid=2
دانشمند علم داده یا دیتاساینتیست کیست و چه میکند؟
خیلی وقتا شده که اطرافیانم ازم میپرسن تو چه حوزهای کار میکنی؟ و وقتی میگم دیتاساینس، خیلی ها براشون سوال پیش میاد که دقیقا چی کار میکنی؟؟ خب توضیحش برای همه زیاد راحت نیست... اما سعی کردم این مطلب رو طوری بنویسم که بیشتر افراد متوجه بشن یک دانشمند علم داده یا دیتاساینتیست دقیقا چی کار میکنه. البته پیشنهاد میکنم پست دیتاساینس چیست رو قبل ازین مطلب بخونید؛ چون در اون مطلب به طور جامع به این پرداختم که دیتاساینس چیه و از چه تخصص هایی تشکیل شده و در این جا قصد دارم کار هایی که یک دیتاساینتیست انجام میده رو شرح بدم.
دانشمند علم داده کیست؟
یک دانشمند علم داده شخصی است که از داده ها برای حل مسائل، کشف الگو ها و بدست آوردن بینش استفاده میکنه.
متخصصین علم داده بیشتر با سازمان ها و تجارت هایی همکاری دارند که مجموعه داده های بزرگ را جمع آوری میکنند. متخصصین علم داده ممکنه از آمار، برنامه نویسی، پایگاه داده، یادگیری ماشین و مدل های ریاضیاتی برای دستیابی به اهداف خود استفاده کنند. به طور کلی این متخصصین مراحل هرم دانش را برای حل مسائل طی میکنند. ممکنه براتون سوال بشه هرم داده چیه؟ به طور مختصر بخوام بگم هرم دانش متشکل شده از 4 مرحله داده، اطلاعات، دانش و خرد که هر یک ازین مراحل توضیح خاص خودش رو داره و توی مطلب هرم DIWK یا هرم دانش مفصلتر بهش پرداختم.
متخصص علم داده برای حل هر مساله در کسب و کار، ابتدا نیاز داره تا اهمیت ها و اولویت های تجارت یا سازمان رو درک کنه. دیتاساینتیست پس ازین مرحله به دنبال داده هایی میگرده که ممکنه برای انجام آزمون های تشخیص داده شده توسط خودش جمع آوری بشه یا داده هایی که ممکنه در حال حاضر در جایی موجود باشه. اگر لازم به انجام آزمایشی باشه، مهمه که قبل از پردازش داده ها فرض های اون نوشته بشه. پس از جمع آوری داده ها، آن ها باید ارزیابی و پاکسازی بشند. سپس ابزار مناسب برای مدل سازی انتخاب میشه. برای مثال نرم افزار R یا Python یا بسته های نرم افزاری دیگر میتونن ابزاری برای مدل سازی باشن. سپس داده ها و نتیجه هایشان با استفاده از ابزار های مصور سازی، تجزیه و تحلیل میشند. متخصصین علم داده به دنبال نشانه های مهم و روند ها میگردند و فروض را بررسی میکنند. تست های آماری برای بررسی استوار بودن و اعتبار سنجی نتایج استفاده میشند. یادگیری ها، نتایج و بینش ها به صاحبان تجارت ابلاغ میشند که این نتایج معمولا به همراه پیشنهادات است. برای مثال یک متخصص علم داده در مساله ای که مربوط به تجارت حمل و نقل میشه؛ ممکنه مسیر های خاصی رو که ناکارآمد هستند شناسایی کنه و راه حل هایی با کارایی بیشتر پیشنهاد بده.
یک دیتاساینتیست چه توانایی هایی باید داشته باشه؟
شاغلین در حوزه علم داده که اون ها رو متخصص علم داده یا دانشمند علم داده و به اصطلاحی دیگر دیتاساینتیست مینامند؛ به مهارت هایی برای دستیابی به طیف وسیعی از نتایج نیاز دارند که مهمترین مهارت ها به شرح زیر است:
· توانایی استخراج و تفسیر منابع داده
· مدیریت حجم زیاد اطلاعات با سختافزار
· محدودیتهای نرمافزاری و پهنای باند
· ادغام منابع داده با یک دیگر
· تضمین پایداری مجموعههای داده
· مصورسازی داده به منظور فهم آن
· ساخت مدلهای ریاضی و آماری با استفاده از داده، مانند مدل های رگرسیون و طبقه بندی
· مقایسه آماری مدل های گوناگون و انتخاب مدل برتر
· به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
البته که اگه کسی ازم بپرسه چطور میتونم این مسیر رو طی کنم به عنوان کسی که حدود یک و نیم سال توی این فیلد فعالیت داره؛ قبل ازین که بهش پیشنهادی بدم، از حوزهای که در اون بوده سوال میپرسم. چراکه این فیلد کاری نیاز داره که از قبل یک پایه دانشی از یکی از سه حوزه آمار و ریاضی، علوم کامپیوتر و یا دانش حوزه کسب و کار داشته باشید و به قولی در یکی ازین تخصص ها عمیق باشید. مسیری که هر کدوم ازین تخصص ها طی میکنند تا به یک دیتاساینتیست تبدیل بشن متفاوته و نکته آخر این که دیتاساینس یک کار "تیمی" هست. چون همه توانایی هایی که در بالا ذکر کردم رو یک نفر نمیتونه به صورت تخصصی داشته باشه درصورتی که هر یک از توانایی ها رو یک نفر میتونه کسب کنه و در بقیه توانایی ها تسلطی سطحی داشته باشه تا بتونه به صورت تیمی کار کنه.
در آخر بهتون پیشنهاد میکنم مطلب «مسیر علم داده ارزیاب» رو بخونید تا دید جامعی از این که چطور مسیر یادگیری علم داده رو شروع کنید و استارت بزنید پیدا کنید.
مطلبی دیگر از این انتشارات
اشتباهات همیشه آموزنده اند.
مطلبی دیگر از این انتشارات
خوشه بندی چیست و چگونه عمل میکند؟
مطلبی دیگر از این انتشارات
چالش های ارزیاب در جذب نیرو و مسیر علم داده ارزیاب