داده های مورد نیاز (Data requirements)
جمع آوری داده ها (Data collection )
درک داده ها (Data understanding)
آماده سازی داده ها (Data Preparation)
شناسایی داده های مورد نیاز مرحله الزامات داده در متدولوژی علم داده را برآورده می کند.
– یک مجموعه داده تمیز و با کیفیت بالا (clean and high-quality data) تولید کنید که ارتباط آن با متغیرهای مورد نظر مشخص باشد.
در مرحله اولیه جمع آوری داده ها ، دانشمندان داده ها (data scientists) منابع داده موجود را شناسایی و جمع آوری می کنند. اینها می توانند به صورت داده های ساختار یافته (structured) ، بدون ساختار (unstructured) و حتی نیمه ساختار (semi-structured data) یافته مربوط به مشکل سازمان باشند.
– مجموعه داده ها را در محیط تجزیه و تحلیل مناسب قرار دهید تا آماده مدل سازی باشید.
– توسعه یک راه حل از خطوط داده ها (data pipeline), که به طور مرتب داده ها را تازه (refresh) و نمره گذاری (scoring) می کند.
وقتی که مرحله جمع آوری داده ها به پایان رسید، دانشمندان داده ها معمولاً از آمار توصیفی و تکنیک های تجسم برای درک بهتر داده ها و آشنایی با آنها استفاده می کنند. دانشمندان داده ، اساساً ، داده ها را برای چند دلیل کاوش می کنند:
درک محتوا, ارزیابی کیفیت, و همچنین کشف هر گوته شرایطی برای تعیین اینکه آیا داده های اضافی برای پر کردن هرگونه خلأ در داده ها ضروری است یا خیر.
در این مرحله سه وظیفه اصلی مطرح می شود:
فرآیند انتقال داده ها را از منابع به مکان های هدف که در آن عملیات تجزیه و تحلیل را انجام می دهید ، مانند آموزش (training) و پیش بینی (predictions)، تنظیم کنید.
قبل از آموزش (training) مدل های خود ، باید درک درستی از داده ها ایجاد کنید. مجموعه داده های دنیای واقعی غالباً شلوغ هستند ، مقادیر گمشده (missing values) دارند یا دارای تناقضات هستند. می توانید از خلاصه سازی و تجسم داده ها برای بررسی کیفیت داده های خود و ارائه اطلاعات مورد نیاز برای پردازش داده ها قبل از آماده شدن برای مدل سازی استفاده کنید. این فرایند اغلب تکراری است.
پس از اطمینان از کیفیت داده های تمیز شده ، گام بعدی درک بهتر الگوهای اصلی داده ها است. این تجزیه و تحلیل داده ها به شما کمک می کند تا یک مدل پیش بینی مناسب برای هدف خود انتخاب و توسعه دهید. به دنبال شواهدی باشید که نشان دهد میزان ارتباط داده ها با هدف چقدر است. سپس تعیین کنید که آیا اطلاعات کافی برای حرکت در مراحل بعدی مدل سازی وجود دارد یا خیر. باز هم ، این فرایند اغلب تکراری است. ممکن است لازم باشد منابع داده جدیدی با داده های دقیق تر و مرتبط تر پیدا کنید تا مجموعه داده هایی که در مرحله قبل در ابتدا شناسایی شده اند را افزایش دهید.
علاوه بر وارد کردن و پاکسازی اولیه داده ها ، شما معمولاً باید فرایندی را برای امتیاز دهی به داده های جدید یا به روزرسانی منظم داده ها به عنوان بخشی از یک فرایند یادگیری مداوم تنظیم کنید. نمره گذاری ممکن است با خطوط ارتباط داده یا گردش کار تکمیل شود.
در این مرحله ، شما طرح راه حل خط ارتباط داده را توسعه می دهید. شما خط ارتباط را به موازات مرحله بعدی پروژه علم داده توسعه می دهید. بسته به نیازهای تجاری شما و محدودیت های سیستم های موجود که این راه حل در آنها ادغام شده است ، خط ارتباط می تواند یکی از گزینه های زیر باشد:
ادامه در :
https://mindmover.academy/data-science-3/