در بخش اول این مقاله با وظایف و اهداف شغل مهندسی داده (Data Engineering) آشنا شدیم. در این بخش به بررسی مهارتهای مورد نیاز برای یک مهندس داده، خواهیم پرداخت. میتوانید بخش اول را از اینجا مطالعه کنید.
مهم ترین مهارتهای مورد نیاز در مهندسی داده، توانایی طراحی و ساخت مخزن دادهها میباشد که در آن تمام دادههای خام جمع آوری، ذخیره و بازیابی میشوند. بدون مخزنهای داده (Data warehouses) تمام کارهایی که مهندسین و تحلیلگران داده انجام میدهند، منسوخ خواهند شد. برخی دیگر از مهارتهایی که یک مهندس داده باید داشته باشد، به شکل زیر میباشد:
Data Model یک بخش حیاتی از خطوط انتقال داده (data pipeline) در از دیتا ساینس است. این فرآیند تبدیل سند طراحی یک نرم افزار پیچیده به یک دیاگرام جهت نمایش جریان داده است که میتوان آن را درک کرد. Data Model ها در هنگام تحلیل داده و فاز طراحی پروژه ساخته میشوند تا از درک کامل نیازهای جدید اپلیکیشن اطمینان حاصل شود.
انواع Data Modeling :
در صنایع مختلف از اتوماسیون استفاده میشود تا کارایی و بهره وری بیشتری داشته باشند. ارتقای کیفیت و ثبات، کاهش هزینهها و سرعت عملکرد بیشتر از اهداف مهم اتوماسیون هستند. داشتن اتوماسیون خوب، مزایای بزرگی برای هرکدام از اعضای تیم شامل تسترها، تحلیلگران کیفیت، توسعه دهندگان و ختی کاربران به ارمغان میآورد.
اتوماسیون میتواند مزایای زیر را داشته باشد:
در Data Science، طراحی و معماری یک مخزن داده نیاز به زمان طولانی برای تکمیل دارد. بنابراین مهندسین داده، راه حلی برای اتوماسیون مخزن داده (Data warehouse) ارائه کردند و بدین ترتیب، کار و تلاش مورد نیاز برای مدیریت آن کاهش یافت. با این حال، نیاز مهندسین داده به پیاده سازی ابزارهای اتوماسیون مخزن داده (DWA) در حال افزایش است.
ETL به معنی روند کپی کردن داده از یک یا چند منبع و قرار دادن آن در سیستم مقصد میباشد که در آن دادهها بطور متفاوتتر یا با سبک متفاوتتر نسبت به منبعشان نمایش داده میشوند. ETL اغلب در ذخیرهسازی دادهها (data warehousing) استفاده میشود.
استخراج یا extraction داده بطور کلی روش استخراج داده از منابع همگن یا ناهمگن است. پروسه انتقال داده (data transformation) با تمیز کردن داده و انتقال آنها به یک ساختار ذخیرهسازی مناسب جهت اعمال کوئریهای مختلف و تحلیل صورت میگیرد. نهایتا بارگذاری داده (data loading)، افزودن دادهها به دیتابیس مورد نظر و عملیات مختلف با دادهها در دیتابیس را توصیف میکند.
در علوم داده، ETL شامل استخراج دادهها از سیستمهای عملیاتی مانند MySQL یا Oracle و انتقال آنها به سیستمهای data warehouse مانند SQL Server یا data warehouse های مدرن مانند Hadoop و RedShift و سپس فرمت آنها طوری که توسط آنالیست (تجلیلگر داده) قابل دریافت باشد.
مهندسین داده، به دادهها با دید محصولشان نگاه میکنند، بنابراین باید طوری باید روی آنها کار کنند که دیگر مهندسان توانایی استفاده از آنها را داشته باشند. اگر ما در حال ساخت Data Set هایی برای مهندسین یادگیری ماشینی یا متخصصان داده هستیم، باید درک کنیم که آنها چگونه از دادهها استفاده خواهند کرد و چه ماژولهایی را خواهند ساخت. همین مقدار دانش میتواند برای یک مهندس داده، اطلاعات کافی در سطح مشتری باشد.