چگونه مسیر یادگیری من پس از تبدیل شدن به یک محقق داده تغییر کرد

شکل ۱. مسیر یادگیری
شکل ۱. مسیر یادگیری
منتشر‌شده در: towardsdatascience به تاریخ ۱۱ ژوئن ۲۰۲۱
لینک منبع How My Learning Path Changed After Becoming a Data Scientist

علاقه من به علم داده حدود دو سال و نیم پیش شروع شد. من در شغلی کار می‌کردم که هیچ ربطی به علم داده نداشت. این یک چالش بزرگ برای من بود که یک تغییر شغلی ایجاد کنم چون چیزهای زیادی برای یادگیری داشتم.

بعد از دو سال یادگیری و فداکاری، من توانستم اولین شغلم را به عنوان یک دانشمند داده پیدا کنم. البته سفر یادگیری من متوقف نشد. من در حالی که کارم را به عنوان یک دانشمند داده انجام می‌دهم، چیزهای زیادی یاد می‌گیرم.

بخش یادگیری g تغییر نمی‌کند. با این حال، چه چیزی و چگونه یاد می‌گیرم به طور چشمگیری تغییر کرده‌است. در این مقاله، من می‌خواهم در مورد این تغییرات توضیح بیشتری بدهم. اگر شما در حال کار کردن بر روی راه خود از طریق تبدیل شدن به یک دانشمند داده هستید، ممکن است همین تجربه را داشته باشید.

مهم است که تاکید کنیم یک دانشمند داده بودن نیازمند یادگیری مداوم است. علم داده هنوز در حال تحول است و شما باید همیشه خود را تازه نگه دارید. من فکر می‌کنم علم داده هنوز یک زمینه کامل نیست، بنابراین تکنیک‌ها و مفاهیم جدید به طور مکرر معرفی می‌شوند.

اندازه داده‌ها

۱۰ میلیون ردیف برای یک مشکل زندگی واقعی زیاد نیست.

بارزترین تغییر برای من اندازه داده‌ها بود. زمانی که من به تنهایی مشغول مطالعه بودم، با مجموعه داده‌هایی تمرین می‌کردم که حداکثر ۱۰۰ هزار ردیف داشتند. من اکنون آن را به عنوان یک مجموعه داده کوچک در نظر می‌گیرم. اندازه داده‌ها به زمینه و مشکلی که بر روی آن کار می‌کنید بستگی دارد. به طور کلی ۱۰ میلیون ردیف برای یک مشکل زندگی واقعی زیاد نیست.

کار کردن با مجموعه داده بزرگ چالش‌های خودش را دارد. اول از همه، من نیاز به یادگیری ابزارهای جدیدی داشتم که بتوانند چنین مجموعه داده‌هایی را مدیریت کنند. پانداس قبل از اینکه به عنوان یک دانشمند داده شروع به کار کنم، برای من بیش از حد کافی بود. با این حال، این یک ابزار کارآمد با داده‌های بزرگ مقیاس نیست.

ابزارهایی که امکان محاسبه توزیع‌شده را فراهم می‌کنند، ترجیح داده می‌شوند. اسپارک یکی از محبوب‌ترین آن‌ها است. این یک موتور تحلیلی است که برای پردازش داده‌های بزرگ مقیاس به کار می‌رود. صرفه‌جویی به شما این امکان را می‌دهد که هم اطلاعات و هم محاسبات را بر روی خوشه‌ها گسترش دهید تا به یک افزایش عملکردی قابل‌توجه دست یابید.

خوشبختانه، امکان استفاده از SPark با کد پایتون وجود دارد. پای اسپارک یکAPI پیتون برای اسپارک است. این سبک سادگی پایتون را با کارایی پارک ترکیب می‌کند.

محاسبات ابری

تغییر بزرگ دیگر از محیط محلی به ابر بود. زمانی که مشغول مطالعه بودم، همه کارها را در کامپیوترم انجام می‌دادم (برای مثال، به صورت محلی کار کنید). این برای تمرین و مطالعه کافی بود.

با این حال، بسیار بعید است که یک شرکت به صورت محلی عمل کند. بیشتر شرکت‌ها در فضای ابری کار می‌کنند. داده‌ها در فضای ابری ذخیره می‌شوند، محاسبات در فضای ابری و غیره انجام می‌شوند.

به منظور انجام موثر کارتان، بسیار مهم است که درک جامعی از ابزارها و خدمات ابری به دست آورید. ارائه دهندگان مختلف ابر وجود دارند اما بازیگران کلیدی عبارتند ازAWS، Azure، پلتفرم Google Cloud. من باید یاد می‌گرفتم که چگونه از خدمات آن‌ها استفاده کنم و داده‌های ذخیره‌شده در ابر را مدیریت کنم.

گیت

ابزار دیگری که من به عنوان یک دانشمند داده از آن استفاده می‌کنم، git است. من هنگام مطالعه دستورات اساسی git را یاد گرفتم. با این حال، کار کردن در یک محیط تولید متفاوت است. Git یک سیستم کنترل نسخه است. آن یک تاریخچه از تمام تغییرات ایجاد شده در کد را حفظ می‌کند.

گیت امکان همکاری مشترک را فراهم می‌کند. احتمالا روی پروژه‌ها به عنوان یک تیم کار خواهید کرد. بنابراین، حتی اگر در یک شرکت نوپا کوچک کار کنید، باید مهارت لازم را به دست آورید. پروژه‌ها توسعه داده‌شده و با گیت نگهداری می‌شوند. Git کمی پیچیده‌تر از آن چیزی است که از بیرون به نظر می‌رسد. با این حال، شما بعد از کار بر روی چند پروژه به آن عادت می‌کنید.

نه فقط ابزار!

ابزارها تنها چیزهایی نیستند که در سفر یادگیری من تغییر می‌کنند. نحوه رویکرد من به داده‌ها نیز تغییر کرد. زمانی که بر روی یک مجموعه داده آماده برای استفاده کار می‌کنید، کارهای زیادی از نظر تمیز کردن و پردازش داده‌ها نمی‌توانید انجام دهید. به عنوان مثال، در مورد یک کار یادگیری ماشین، شما می‌توانید یک مدل را بعد از چند مرحله ساده به کار ببرید.

این مورد در شغل شما متفاوت خواهد بود. بخش قابل‌توجهی از یک پروژه صرف آماده کردن داده‌ها می‌شود. منظورم فقط تمیز کردن داده‌های خام نیست. این یک گام مهم نیز هست. با این حال، بررسی ساختار اساسی در داده‌ها و درک روابط میان ویژگی‌ها از اهمیت حیاتی برخوردار است.

اگر بر روی یک مشکل جدید کار می‌کنید، تعریف الزامات داده نیز کار شما خواهد بود. این چالش دیگری است که نیازمند مجموعه خاصی از مهارت‌ها است. دانش دامنه بخش مهمی از آن است.

مهندسی ویژگی بسیار مهم‌تر از تنظیم هایپرپارامتری یک مدل یادگیری ماشین است. آنچه شما می‌توانید با تنظیم هایپرپارامتری به آن دست یابید محدود است، بنابراین می‌توانید عملکرد را تا حدی بهبود بخشید. از سوی دیگر، یک ویژگی اطلاعاتی این پتانسیل را دارد که به طور قابل‌توجهی یک مدل را بهبود بخشد.

قبل از اینکه به عنوان یک دانشمند داده شروع به کار کنم، بر روی درک الگوریتم های یادگیری ماشین و چگونگی تنظیم یک مدل تمرکز کردم. حالا بیشتر وقتم را صرف آماده کردن داده‌ها می‌کنم.

منظور من از آماده بودن شامل مراحل بسیاری از جمله موارد زیر است:

  • تمیز کردن و پردازش داده‌ها
  • قالب‌بندی مجدد داده‌ها
  • بررسی و درک داده‌ها

دانش آماری برای این مراحل بسیار مهم است. بنابراین، من به شدت توصیه می‌کنم که دانش خود را در این زمینه بهبود بخشید. این کار به شما کمک زیادی در حرفه علم اطلاعات خواهد کرد.

نتیجه‌گیری

منابع زیادی برای یادگیری علم داده وجود دارد. شما می‌توانید از آن‌ها برای بهبود مهارت‌های خود در هر بخش ساختاری از علم داده استفاده کنید. با این حال، این منابع نمی‌توانند یک تجربه شغلی واقعی ارائه دهند. هیچ اشکالی ندارد. فقط زمانی که اولین شغل خود را به دست آوردید خود را آماده کنید تا مجموعه‌ای از مواد مختلف را یاد بگیرید.

متشکرم که مطالعه کردید.

این متن با استفاده از ربات مترجم مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.