من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
چگونه مسیر یادگیری من پس از تبدیل شدن به یک محقق داده تغییر کرد

منتشرشده در: towardsdatascience به تاریخ ۱۱ ژوئن ۲۰۲۱
لینک منبع How My Learning Path Changed After Becoming a Data Scientist
علاقه من به علم داده حدود دو سال و نیم پیش شروع شد. من در شغلی کار میکردم که هیچ ربطی به علم داده نداشت. این یک چالش بزرگ برای من بود که یک تغییر شغلی ایجاد کنم چون چیزهای زیادی برای یادگیری داشتم.
بعد از دو سال یادگیری و فداکاری، من توانستم اولین شغلم را به عنوان یک دانشمند داده پیدا کنم. البته سفر یادگیری من متوقف نشد. من در حالی که کارم را به عنوان یک دانشمند داده انجام میدهم، چیزهای زیادی یاد میگیرم.
بخش یادگیری g تغییر نمیکند. با این حال، چه چیزی و چگونه یاد میگیرم به طور چشمگیری تغییر کردهاست. در این مقاله، من میخواهم در مورد این تغییرات توضیح بیشتری بدهم. اگر شما در حال کار کردن بر روی راه خود از طریق تبدیل شدن به یک دانشمند داده هستید، ممکن است همین تجربه را داشته باشید.
مهم است که تاکید کنیم یک دانشمند داده بودن نیازمند یادگیری مداوم است. علم داده هنوز در حال تحول است و شما باید همیشه خود را تازه نگه دارید. من فکر میکنم علم داده هنوز یک زمینه کامل نیست، بنابراین تکنیکها و مفاهیم جدید به طور مکرر معرفی میشوند.
اندازه دادهها
۱۰ میلیون ردیف برای یک مشکل زندگی واقعی زیاد نیست.
بارزترین تغییر برای من اندازه دادهها بود. زمانی که من به تنهایی مشغول مطالعه بودم، با مجموعه دادههایی تمرین میکردم که حداکثر ۱۰۰ هزار ردیف داشتند. من اکنون آن را به عنوان یک مجموعه داده کوچک در نظر میگیرم. اندازه دادهها به زمینه و مشکلی که بر روی آن کار میکنید بستگی دارد. به طور کلی ۱۰ میلیون ردیف برای یک مشکل زندگی واقعی زیاد نیست.
کار کردن با مجموعه داده بزرگ چالشهای خودش را دارد. اول از همه، من نیاز به یادگیری ابزارهای جدیدی داشتم که بتوانند چنین مجموعه دادههایی را مدیریت کنند. پانداس قبل از اینکه به عنوان یک دانشمند داده شروع به کار کنم، برای من بیش از حد کافی بود. با این حال، این یک ابزار کارآمد با دادههای بزرگ مقیاس نیست.
ابزارهایی که امکان محاسبه توزیعشده را فراهم میکنند، ترجیح داده میشوند. اسپارک یکی از محبوبترین آنها است. این یک موتور تحلیلی است که برای پردازش دادههای بزرگ مقیاس به کار میرود. صرفهجویی به شما این امکان را میدهد که هم اطلاعات و هم محاسبات را بر روی خوشهها گسترش دهید تا به یک افزایش عملکردی قابلتوجه دست یابید.
خوشبختانه، امکان استفاده از SPark با کد پایتون وجود دارد. پای اسپارک یکAPI پیتون برای اسپارک است. این سبک سادگی پایتون را با کارایی پارک ترکیب میکند.
محاسبات ابری
تغییر بزرگ دیگر از محیط محلی به ابر بود. زمانی که مشغول مطالعه بودم، همه کارها را در کامپیوترم انجام میدادم (برای مثال، به صورت محلی کار کنید). این برای تمرین و مطالعه کافی بود.
با این حال، بسیار بعید است که یک شرکت به صورت محلی عمل کند. بیشتر شرکتها در فضای ابری کار میکنند. دادهها در فضای ابری ذخیره میشوند، محاسبات در فضای ابری و غیره انجام میشوند.
به منظور انجام موثر کارتان، بسیار مهم است که درک جامعی از ابزارها و خدمات ابری به دست آورید. ارائه دهندگان مختلف ابر وجود دارند اما بازیگران کلیدی عبارتند ازAWS، Azure، پلتفرم Google Cloud. من باید یاد میگرفتم که چگونه از خدمات آنها استفاده کنم و دادههای ذخیرهشده در ابر را مدیریت کنم.
گیت
ابزار دیگری که من به عنوان یک دانشمند داده از آن استفاده میکنم، git است. من هنگام مطالعه دستورات اساسی git را یاد گرفتم. با این حال، کار کردن در یک محیط تولید متفاوت است. Git یک سیستم کنترل نسخه است. آن یک تاریخچه از تمام تغییرات ایجاد شده در کد را حفظ میکند.
گیت امکان همکاری مشترک را فراهم میکند. احتمالا روی پروژهها به عنوان یک تیم کار خواهید کرد. بنابراین، حتی اگر در یک شرکت نوپا کوچک کار کنید، باید مهارت لازم را به دست آورید. پروژهها توسعه دادهشده و با گیت نگهداری میشوند. Git کمی پیچیدهتر از آن چیزی است که از بیرون به نظر میرسد. با این حال، شما بعد از کار بر روی چند پروژه به آن عادت میکنید.
نه فقط ابزار!
ابزارها تنها چیزهایی نیستند که در سفر یادگیری من تغییر میکنند. نحوه رویکرد من به دادهها نیز تغییر کرد. زمانی که بر روی یک مجموعه داده آماده برای استفاده کار میکنید، کارهای زیادی از نظر تمیز کردن و پردازش دادهها نمیتوانید انجام دهید. به عنوان مثال، در مورد یک کار یادگیری ماشین، شما میتوانید یک مدل را بعد از چند مرحله ساده به کار ببرید.
این مورد در شغل شما متفاوت خواهد بود. بخش قابلتوجهی از یک پروژه صرف آماده کردن دادهها میشود. منظورم فقط تمیز کردن دادههای خام نیست. این یک گام مهم نیز هست. با این حال، بررسی ساختار اساسی در دادهها و درک روابط میان ویژگیها از اهمیت حیاتی برخوردار است.
اگر بر روی یک مشکل جدید کار میکنید، تعریف الزامات داده نیز کار شما خواهد بود. این چالش دیگری است که نیازمند مجموعه خاصی از مهارتها است. دانش دامنه بخش مهمی از آن است.
مهندسی ویژگی بسیار مهمتر از تنظیم هایپرپارامتری یک مدل یادگیری ماشین است. آنچه شما میتوانید با تنظیم هایپرپارامتری به آن دست یابید محدود است، بنابراین میتوانید عملکرد را تا حدی بهبود بخشید. از سوی دیگر، یک ویژگی اطلاعاتی این پتانسیل را دارد که به طور قابلتوجهی یک مدل را بهبود بخشد.
قبل از اینکه به عنوان یک دانشمند داده شروع به کار کنم، بر روی درک الگوریتم های یادگیری ماشین و چگونگی تنظیم یک مدل تمرکز کردم. حالا بیشتر وقتم را صرف آماده کردن دادهها میکنم.
منظور من از آماده بودن شامل مراحل بسیاری از جمله موارد زیر است:
- تمیز کردن و پردازش دادهها
- قالببندی مجدد دادهها
- بررسی و درک دادهها
دانش آماری برای این مراحل بسیار مهم است. بنابراین، من به شدت توصیه میکنم که دانش خود را در این زمینه بهبود بخشید. این کار به شما کمک زیادی در حرفه علم اطلاعات خواهد کرد.
نتیجهگیری
منابع زیادی برای یادگیری علم داده وجود دارد. شما میتوانید از آنها برای بهبود مهارتهای خود در هر بخش ساختاری از علم داده استفاده کنید. با این حال، این منابع نمیتوانند یک تجربه شغلی واقعی ارائه دهند. هیچ اشکالی ندارد. فقط زمانی که اولین شغل خود را به دست آوردید خود را آماده کنید تا مجموعهای از مواد مختلف را یاد بگیرید.
متشکرم که مطالعه کردید.
این متن با استفاده از ربات مترجم مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
۱۰ ترفند مدیریت پروژه که به موفق شدن مدیران پروژه تازهکار کمک میکند
مطلبی دیگر از این انتشارات
تلسکوپ هابل برخورد سورئال کهکشانی را رصد میکند
مطلبی دیگر از این انتشارات
آینده ایمنی COVID19 خوب به نظر میرسد