سلام رفقا، من امیرحسین هستم.
احتمالا این روزها اسم "مهندس داده" یا همون Data Engineer رو زیاد میشنوید. خیلیها فکر میکنن مهندسی داده همون دانشمند دادهست یا یه چیزی تو مایههای هوش مصنوعیه. ولی داستان یه کم فرق داره.
تصمیم گرفتم تو این پست خیلی ساده و خودمونی بگم که مهندس داده دقیقا چیکار میکنه و اگه بخواید وارد این مسیر بشید، از کجا باید شروع کنید. آخرش هم کوتاه میگم که خودم چطوری وارد این دنیا شدم.
فرض کنید قراره یه قصر بزرگ (همون مدلهای هوش مصنوعی یا تحلیلهای آماری) ساخته بشه. دانشمند داده (Data Scientist) اون معماریه که طرح قصر رو میده. اما مهندس داده اون کسیه که آجر، سیمان و مصالح رو آماده میکنه و مطمئن میشه که این مصالح سر وقت و با کیفیت عالی به پای ساختمون میرسن.
اگر مهندس داده نباشه، دیتایی هم نیست که تحلیل بشه! کار ما ساختن "لولهکشی" (Pipeline) برای انتقال و تمیز کردن دادههاست.
برای اینکه یه مهندس داده بشید، لازم نیست همون اول برید سراغ ابزارهای پیچیده و ترسناک. این ۴ تا پله اصلی رو طی کنید:
۱. برنامهنویسی (فقط پایتون!) زبون مشترک همه ما پایتونه (Python). لازم نیست برنامهنویس وب حرفهای باشید، اما باید بتونید با پایتون با فایلها کار کنید، دادهها رو تغییر بدید و اسکریپت بنویسید.
۲. زبان دیتابیسها (SQL) این نون شب شماست! امکان نداره مهندس داده باشید و SQL بلد نباشید. باید یاد بگیرید چطور از دیتابیسها اطلاعات بکشید بیرون، اونها رو فیلتر کنید و به هم وصل کنید.
۳. لینوکس (Linux) بیشتر سرورها و ابزارهای داده روی لینوکس اجرا میشن. در حد کار با ترمینال و دستورات ساده (مثل کپی کردن فایل، مدیریت دسترسیها و...) باید بلد باشید.
۴. مفاهیم بیگ دیتا (Big Data) وقتی حجم دادهها از اکسل و دیتابیس معمولی بیشتر میشه، سر و کله ابزارهایی مثل Spark یا Hadoop پیدا میشه. برای شروع فقط کافیه بفهمید اینا چی هستن و چطور کار میکنن.