من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
۳ نکته اساسی در یادگیری علوم داده
منتشرشده در: towardsdatascience به تاریخ ۱۵ مارس ۲۰۲۱
لینک منبع: 3 Lessons I Have Learned After I Started Working as a Data Scientist
من سفر علمی دادههایم را با تکمیل گواهی حرفهای دانش داده IBM در مورد کورسرمها آغاز کردم. تقریبا دو سال طول کشید تا یک شغل علمی در زمینه داده پیدا کنم. بعد از اینکه من به عنوان یک دانشمند داده شروع به کار کردم، مدت زیادی طول نکشید تا بفهمم در طول سفر یادگیری چه کار درست و غلطی انجام دادم. چیزهایی که من نادیده گرفتهام کاملا واضح شدهاند.
مطمئن نیستم که این به دلیل باور به این است که بالاخره شغلی را پیاده میکند یا در یک محیط تولیدی با دادههای زندگی واقعی کار میکند. با این حال، میتوانم به شما اطمینان دهم که اگر مجبور بودم کار را شروع کنم، کارهای دیگری میکردم. در این مقاله، من در مورد سه درسی که پس از شروع به کار به عنوان یک دانشمند داده یاد گرفتهام، خواهم نوشت. شاید بعضی از شما از این درسها آگاه باشید، اما من مطمئنم که برخی از دانشمندان مشتاق داده وجود دارند که ممکن است از آنها سود ببرند.
مطالعه مقاله افزونههای ضروری کروم برای مهندسان یادگیری ماشینی و دانشمندان داده توصیه میشود.
زبان SQL یک الزام است!
سوخت علم داده، داده است. بدون دادههای مناسب، خوب نگهداری شده، و به راحتی در دسترس، ما نمیتوانیم کار زیادی انجام دهیم. اگرچه دیتابیسهای NoSQL در حال مشترک شدن هستند، بسیاری از شرکتها هنوز از دیتابیسهای رابطهای برای ذخیره دادهها استفاده میکنند. SQL کلید پایگاهداده رابطهای است. SQL نه تنها برای دسترسی و بازیابی دادهها مورد استفاده قرار میگیرد، بلکه به عنوان یک ابزار کارآمد برای تجزیه و تحلیل دادهها نیز به کار میرود. توابع SQL انعطافپذیر و همهکاره امکان انجام تجزیه و تحلیل دادهها را در حین بازیابی دادهها فراهم میکنند.
همچنین میتوانیم از آن برای فیلتر کردن و تبدیل دادهها استفاده کنیم به طوری که تنها دادههایی که نیاز داریم را به دست آوریم. آن هم حافظه و هم محاسبات ما را ذخیره میکند. من SQL را در طول سفر علمی دادههایم یاد گرفتم اما کافی نبود. من خودم را یک کاربر میانرده از SQL در نظر میگیرم. اگر کار را شروع کنم، قطعا به عنوان یک کاربر SQL پیشرفته عمل خواهم کرد.
من قابلیتهای SQL و اهمیت آن برای اکوسیستم علم داده را کشف میکنم. به منظور تبدیل شدن به یک کاربر پیشرفته، شما باید کارهای زیادی انجام دهید.
گیت Git راهی برای همکاری با همکارانتان است.
گیت (Git) یک سیستم کنترل نسخه است. این سازمان تاریخچه تمام تغییرات ایجاد شده در کد پروژه را حفظ میکند. این تغییرات در یک پایگاهداده خاص به نام «مخزن» ذخیره میشوند که به نام «رپو» نیز شناخته میشود.
دو مزیت اصلی استفاده از Git در توسعه نرمافزار:
- پیگیری تغییرات و بهروزرسانیها. ما میتوانیم ببینیم چه کسی چه تغییراتی ایجاد کرده است. همچنین Git زمان و دلیل ایجاد تغییر را فراهم میکند.
- اجازه دادن به کار کردن به طور مشترک. پروژههای توسعه نرمافزار معمولا به افراد زیادی نیاز دارند تا همکاری کنند. Git روش سیستماتیک انجام این کار را برای توسعهدهندگان فراهم میکند. بنابراین، توسعهدهندگان به جای جلسات ارتباطی گسترده بین توسعهدهندگان دیگر بر رویپروژه تمرکز میکنند.
در یک پروژه علم داده معمولی، شما به احتمال زیاد با بسیاری از افراد از جمله مهندسان داده، توسعهدهندگان نرمافزار، یا دیگر دانشمندان داده کار میکنید. اولین و مهمترین راه ارتباط از طریق گیت انجام میشود.
شما باید با دستورهای گیت راحت باشید و برای همکاری با همکارانتان جریان کاری داشته باشید. اگرچه سرویسهای میزبان مانندGithub و Gitlab واسطهای سادهای را برای استفاده از گیت فراهم میکنند، اما من توصیه میکنم که دستورهای بش گیت را نیز یاد بگیرید.
ممکن است به مطالعه مقاله ۸ ابزار رایگان برای تصویرسازی داده تعاملی در سال ۲۰۲۱ - بدون نیازبه کدنویسی علاقمند باشید.
پایتون فقط در مورد پانداس نیست.
زبان Pandas یک ابزار عالی برای تجزیه و تحلیل و دستکاری دادهها است. من از اولین روزی که سفر علمی دادههایم را شروع کردم از آن استفاده کردم. من همچنین از کتابخانههای پایتون بسیار دیگری در اکوسیستم علم داده مانند نومیپی، سیبورن، متپلوتیب، ساینکیت-یادگیری و غیره استفاده کردهام.
همه آنها بسیار مفید هستند و من قطعا یادگیری آنها را پیشنهاد میکنم. با این حال، پایتون تنها در مورد کتابخانههای علوم داده نیست. احساس میکنم بیش از حد بر یادگیری این کتابخانهها تمرکز کردهام. در نتیجه، من قادر به بهبود مهارتهای پایتون خود به عنوان یک زبان عمومی نبودم.
شما ممکن است استدلال کنید که یک دانشمند داده یک توسعهدهنده نرمافزار نیست. با این حال، بسیاری از شرکتها از شما میخواهند که اسناد اولیه را برای اجرای پروژهها بنویسید. علاوه بر این، شما باید بتوانید کد نوشته شده توسط دیگر دانشمندان داده یا توسعهدهندگان نرمافزار را بخوانید و درک کنید.
این تنها برای پایتون نیست. هر زبان برنامهنویسی که برای یادگیری علم داده انتخاب میکنید، مطمئن شوید که حوزه کاری شما بیشتر از کتابخانههای علم داده را پوشش میدهد.
نتیجهگیری
۳ درسی که من در این مقاله به اشتراک گذاشتم چیزی است که بعد از کار کردن به عنوان یک دانشمند داده فهمیدم. من SQL، Git و پایتون را میشناختم که مهم بودند و زمان زیادی را صرف یادگیری آنها میکردم، اما کافی نبود. من باید خیلی بیشتر بر روی این سوژهها تمرکز میکردم.
میخواهم تاکید کنم که اینها تنها چیزهایی نیستند که شما نیاز دارید یاد بگیرید. در واقع، اینها چیزهایی هستند که شما ممکن است آنها را نادیده بگیرید. از آنجایی که علم داده به خوبی در سیستم آموزش سنتی ایجاد نشده است، مسیر یادگیری عمدتا از طریق گواهینامهها و دورههای MOOC است. گواهینامههای معمول مربوط به علم داده معمولا بر کتابخانهها تمرکز دارند. بنابراین، دانشمندان مشتاق داده که از یک فرآیند خودآموزی مانند من پیروی میکنند، به احتمال زیاد اهمیت کافی به ابزارهای ذکر شده در این مقاله نمیدهند.
این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
اوبر از سرویس جدیدی برای آزمون بازخورد مدلهای یادگیری ماشین در مقیاس بزرگ رونمایی میکند
مطلبی دیگر از این انتشارات
محبوبترین زبانهای برنامهنویسی
مطلبی دیگر از این انتشارات
چگونه محاسبات کوانتومی میتواند علم شیمی را متاثر کند؟