۳ نکته اساسی در یادگیری علوم داده

شکل ۱. یادداشت
شکل ۱. یادداشت
منتشر‌شده در: towardsdatascience به تاریخ ۱۵ مارس ۲۰۲۱
لینک منبع: 3 Lessons I Have Learned After I Started Working as a Data Scientist

من سفر علمی داده‌هایم را با تکمیل گواهی حرفه‌ای دانش داده IBM در مورد کورسرم‌ها آغاز کردم. تقریبا دو سال طول کشید تا یک شغل علمی در زمینه داده پیدا کنم. بعد از اینکه من به عنوان یک دانشمند داده شروع به کار کردم، مدت زیادی طول نکشید تا بفهمم در طول سفر یادگیری چه کار درست و غلطی انجام دادم. چیزهایی که من نادیده گرفته‌ام کاملا واضح شده‌اند.

مطمئن نیستم که این به دلیل باور به این است که بالاخره شغلی را پیاده می‌کند یا در یک محیط تولیدی با داده‌های زندگی واقعی کار می‌کند. با این حال، می‌توانم به شما اطمینان دهم که اگر مجبور بودم کار را شروع کنم، کارهای دیگری می‌کردم. در این مقاله، من در مورد سه درسی که پس از شروع به کار به عنوان یک دانشمند داده یاد گرفته‌ام، خواهم نوشت. شاید بعضی از شما از این درس‌ها آگاه باشید، اما من مطمئنم که برخی از دانشمندان مشتاق داده وجود دارند که ممکن است از آن‌ها سود ببرند.

مطالعه مقاله افزونه‌های ضروری کروم برای مهندسان یادگیری ماشینی و دانشمندان داده توصیه می‌شود.

زبان SQL یک الزام است!

سوخت علم داده، داده است. بدون داده‌های مناسب، خوب نگهداری شده، و به راحتی در دسترس، ما نمی‌توانیم کار زیادی انجام دهیم. اگرچه دیتابیس‌های NoSQL در حال مشترک شدن هستند، بسیاری از شرکت‌ها هنوز از دیتابیس‌های رابطه‌ای برای ذخیره داده‌ها استفاده می‌کنند. SQL کلید پایگاه‌داده رابطه‌ای است. SQL نه تنها برای دسترسی و بازیابی داده‌ها مورد استفاده قرار می‌گیرد، بلکه به عنوان یک ابزار کارآمد برای تجزیه و تحلیل داده‌ها نیز به کار می‌رود. توابع SQL انعطاف‌پذیر و همه‌کاره امکان انجام تجزیه و تحلیل داده‌ها را در حین بازیابی داده‌ها فراهم می‌کنند.

همچنین می‌توانیم از آن برای فیلتر کردن و تبدیل داده‌ها استفاده کنیم به طوری که تنها داده‌هایی که نیاز داریم را به دست آوریم. آن هم حافظه و هم محاسبات ما را ذخیره می‌کند. من SQL را در طول سفر علمی داده‌هایم یاد گرفتم اما کافی نبود. من خودم را یک کاربر میان‌رده از SQL در نظر می‌گیرم. اگر کار را شروع کنم، قطعا به عنوان یک کاربر SQL پیشرفته عمل خواهم کرد.

من قابلیت‌های SQL و اهمیت آن برای اکوسیستم علم داده را کشف می‌کنم. به منظور تبدیل شدن به یک کاربر پیشرفته، شما باید کارهای زیادی انجام دهید.

گیت Git راهی برای هم‌کاری با همکاران‌تان است.

گیت (Git) یک سیستم کنترل نسخه است. این سازمان تاریخچه تمام تغییرات ایجاد شده در کد پروژه را حفظ می‌کند. این تغییرات در یک پایگاه‌داده خاص به نام «مخزن» ذخیره می‌شوند که به نام «رپو» نیز شناخته می‌شود.

دو مزیت اصلی استفاده از Git در توسعه نرم‌افزار:

  • پیگیری تغییرات و به‌روزرسانی‌ها. ما می‌توانیم ببینیم چه کسی چه تغییراتی ایجاد کرده است. همچنین Git زمان و دلیل ایجاد تغییر را فراهم می‌کند.
  • اجازه دادن به کار کردن به طور مشترک. پروژه‌های توسعه نرم‌افزار معمولا به افراد زیادی نیاز دارند تا همکاری کنند. Git روش سیستماتیک انجام این کار را برای توسعه‌دهندگان فراهم می‌کند. بنابراین، توسعه‌دهندگان به جای جلسات ارتباطی گسترده بین توسعه‌دهندگان دیگر بر رویپروژه تمرکز می‌کنند.

در یک پروژه علم داده معمولی، شما به احتمال زیاد با بسیاری از افراد از جمله مهندسان داده، توسعه‌دهندگان نرم‌افزار، یا دیگر دانشمندان داده کار می‌کنید. اولین و مهم‌ترین راه ارتباط از طریق گیت انجام می‌شود.

شما باید با دستورهای گیت راحت باشید و برای همکاری با همکاران‌تان جریان کاری داشته باشید. اگرچه سرویس‌های میزبان مانندGithub و Gitlab واسط‌های ساده‌ای را برای استفاده از گیت فراهم می‌کنند، اما من توصیه می‌کنم که دستورهای بش گیت را نیز یاد بگیرید.

ممکن است به مطالعه مقاله ۸ ابزار رایگان برای تصویرسازی داده تعاملی در سال ۲۰۲۱ - بدون نیازبه کدنویسی علاقمند باشید.

پایتون فقط در مورد پانداس نیست.

زبان Pandas یک ابزار عالی برای تجزیه و تحلیل و دستکاری داده‌ها است. من از اولین روزی که سفر علمی داده‌هایم را شروع کردم از آن استفاده کردم. من همچنین از کتابخانه‌های پایتون بسیار دیگری در اکوسیستم علم داده مانند نومیپی، سیبورن، متپلوتیب، ساینکیت-یادگیری و غیره استفاده کرده‌ام.

همه آن‌ها بسیار مفید هستند و من قطعا یادگیری آن‌ها را پیشنهاد می‌کنم. با این حال، پایتون تنها در مورد کتابخانه‌های علوم داده نیست. احساس می‌کنم بیش از حد بر یادگیری این کتابخانه‌ها تمرکز کرده‌ام. در نتیجه، من قادر به بهبود مهارت‌های پایتون خود به عنوان یک زبان عمومی نبودم.

شما ممکن است استدلال کنید که یک دانشمند داده یک توسعه‌دهنده نرم‌افزار نیست. با این حال، بسیاری از شرکت‌ها از شما می‌خواهند که اسناد اولیه را برای اجرای پروژه‌ها بنویسید. علاوه بر این، شما باید بتوانید کد نوشته شده توسط دیگر دانشمندان داده یا توسعه‌دهندگان نرم‌افزار را بخوانید و درک کنید.

این تنها برای پایتون نیست. هر زبان برنامه‌نویسی که برای یادگیری علم داده انتخاب می‌کنید، مطمئن شوید که حوزه کاری شما بیشتر از کتابخانه‌های علم داده را پوشش می‌دهد.

نتیجه‌گیری

۳ درسی که من در این مقاله به اشتراک گذاشتم چیزی است که بعد از کار کردن به عنوان یک دانشمند داده فهمیدم. من SQL، Git و پایتون را می‌شناختم که مهم بودند و زمان زیادی را صرف یادگیری آن‌ها می‌کردم، اما کافی نبود. من باید خیلی بیشتر بر روی این سوژه‌ها تمرکز می‌کردم.

می‌خواهم تاکید کنم که اینها تنها چیزهایی نیستند که شما نیاز دارید یاد بگیرید. در واقع، اینها چیزهایی هستند که شما ممکن است آن‌ها را نادیده بگیرید. از آنجایی که علم داده به خوبی در سیستم آموزش سنتی ایجاد نشده است، مسیر یادگیری عمدتا از طریق گواهی‌نامه‌ها و دوره‌های MOOC است. گواهی‌نامه‌های معمول مربوط به علم داده معمولا بر کتابخانه‌ها تمرکز دارند. بنابراین، دانشمندان مشتاق داده که از یک فرآیند خودآموزی مانند من پیروی می‌کنند، به احتمال زیاد اهمیت کافی به ابزارهای ذکر شده در این مقاله نمی‌دهند.

این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.