آیا برای تبدیل شدن به یک محقق داده به مدرک کارشناسی‌ارشد نیاز دارید؟

شکل ۱. اجازه ندهید که محدودیت‌ها شما را از وارد شدن به کار رویاهایتان باز دارد
شکل ۱. اجازه ندهید که محدودیت‌ها شما را از وارد شدن به کار رویاهایتان باز دارد
منتشر‌شده در: towardsdatascience به تاریخ ۴ ژوئن ۲۰۲۱
لینک منبعDo you need a Master’s degree to become a data scientist?

من علم داده را از طریق دوره‌های آنلاین، کتاب‌ها و ویدئوهای یوتیوب به خودم یاد دادم. بعد از تقریبا یک سال خودآموزی، من اکنون به عنوان یک دانشمند داده کار می‌کنم.

جایی در طول این سفر، اغلب خودم را در شک و تردید گم می‌کردم.

من مقالات بی شماری را با تاکید بر اینکه تنها راه ورود به علم داده، به دست آوردن درک قوی از آمار، ریاضیات، جبر خطی و مدل‌سازی پیشگویانه بود، خواندم.

در حالی که این تا حدی درست است، اما منجر به این فرض شده‌است که تنها یک فارغ‌التحصیل علم داده می‌تواند به یک دانشمند داده تبدیل شود.

چقدر ریاضی برای یک دانشمند داده مورد نیاز است؟

شکل ۲: عکس از JESHOOTS.COM
شکل ۲: عکس از JESHOOTS.COM

وقتی که من به خودم علم داده درس می‌دهم، اغلب به یک دیوار برخورد می‌کنم و متوجه می‌شوم که از چگونگی پیشرفت مطمئن نیستم. احساس می‌کردم پس‌زمینه ریاضیاتی من به اندازه کافی قوی نیست.

برای تبدیل شدن به علم داده، من تصمیم گرفتم دوره‌های آنلاین حساب دیفرانسیل و انتگرال، آمار و جبر خطی بگیرم.

من قبلاً سابقه ریاضی داشتم، زیرا در طول سطح A خود ریاضیات و ریاضیات بیشتری را گذراندم.

من حدود دو ماه را صرف تمرین تمایز، ادغام و دستکاری ماتریس کردم. سپس، من چندین دوره آمار و احتمال را گذراندم.

حدود ۶ ماه طول کشید تا من تمام پیش‌نیاز ریاضی توصیه شده‌برای یک دانشمند داده را به دست آورم.

آیا این به انتقال من به علم داده کمک کرد؟

بله و نه.

بیشتر محاسبات و مفاهیم جبر خطی که یاد گرفتم هیچ کاربرد مستقیمی در فرآیند ساخت مدل نداشتند.

کار روزانه‌ من نیاز ندارد که بدانم چطور یک سری تیلور را بدون ماشین‌حساب محاسبه کنم.

با این حال، من از صرف وقت برای این دوره‌ها پشیمان نیستم. مهارت‌های حل مساله من واقعا بهبود پیدا کرد وقتی که من این درس‌های ریاضی و تکالیف را هر روز انجام می‌دادم.

از میان تمام درس‌های ریاضی که گرفتم، متوجه شدم که آمار بیش‌ترین تاثیر مستقیم را بر کاری که انجام می‌دادم، دارد.

من در مورد تکنیک‌های نمونه‌گیری مختلف، انواع مختلف توزیع‌ها و نحوه استفاده از آن‌ها برای نرمال سازی مجموعه داده‌های بزرگ، آزمون فرضیه، و انتخاب ویژگی یاد گرفتم.

داشتن یک درک کامل از نحوه عملکرد الگوریتم‌ها واقعا فرآیند ساخت مدل من را بهبود بخشید.

با این حال، برای گرفتن برخی دوره‌های آماری، شما باید با برخی نمادهای ریاضی آشنا باشید. اینجاست که درک اولیه (پیش دانشگاهی یا شاید دبیرستان) از محاسبات به دست می آید.

شما باید مفاهیم اساسی مانند جمع‌بندی و تمایز را بدانید تا در طول دوره‌های آماری دنبال شوند، اما به عمق بیش از حد نیاز نیست.

خبر خوب این است که شما می‌توانید دربان‌ها را نادیده بگیرید.

نیازی نیست که شما مدرک کارشناسی‌ارشد یا دکترا در رشته آمار داشته باشید تا در زمینه علم داده شغلی به دست آورید.

هر چیزی که لازم است بدانید می‌تواند خود آموخته باشد.

در واقع، بسیاری از همکاران من (از جمله رئیس تیم علوم داده من) از یک رشته با زمینه ریاضی نیامده‌اند. بسیاری از آن‌ها دارای مدرک کسب‌وکار هستند و به خودشان علم داده را آموزش می‌دهند.

فراتر رفتن از ریاضیات و آمار

با این حال، مهم‌تر از نیاز ریاضی، توانایی پیاده‌سازی و مقیاس بندی الگوریتم‌هایی است که شما ایجاد می‌کنید.

برای مثال

بیشتر کار من به عنوان یک دانشمند داده در یک نوت بوک Jupyter بوده‌است. با این حال، یکی از مجموعه داده‌هایی که من چند روز پیش مجبور بودم با آن کار کنم حدود ۳۰ میلیون ردیف داشت. این بدان معنی بود که من نمی‌توانستم مدل را به صورت محلی بسازم.

من بیشتر وقتم را صرف ایجاد یک محیط بر روی AWS کردم تا مدل خود را بسازم و آموزش دهم.

من مجبور بودم کدی را که داشتم از پایتون به Pyspark می‌نوشتم تغییر دهم. Pyspark یک API نوشته شده در پایتون است که از Apache Spark پشتیبانی می‌کند و به شما اجازه می‌دهد تا کد موازی را اجرا کنید. این بدان معنی است که می‌تواند مقادیر زیادی از داده‌ها را به سرعت پردازش کند و به شما این امکان را می‌دهد که با داده‌های بزرگ کار کنید.

تمام این کارها باید به سرعت انجام می‌شد، و من باید تمام کدها را به یک زبان متفاوت در طول روز تغییر می‌دادم.

به عنوان یک محقق داده، شما باید برنامه‌ریزی کافی و دانش SQL داشته باشید تا بتوانید مدل خود را تطبیق داده و مقیاس‌بندی کنید.

این مهارتی است که با تمرین همراه است، بنابراین من به شدت کدگذاری و حل مشکلات را برای حداقل ۳ تا ۴ ساعت در روز پیشنهاد می‌کنم.

مدیریت پایان برای پایان دادن به جریان کار

حتی مهم‌تر از فرآیند ساخت مدل، توانایی کار بر روی یک فرآیند انتها به انتها است.

این کار با اولین درک نیاز کسب‌وکار شروع می‌شود.

سپس، شما باید نقاط داده‌ای مختلف مورد نیاز برای حل مشکل کسب‌وکار را بدانید.

برای جمع‌آوری این داده‌ها، شما به مهارت‌های فنی و برنامه‌نویسی قوی نیاز دارید. شما باید بدانید که چگونه با APIها کار کنید، و چگونه یک وب اسکرپر بسازید.

پس از جمع‌آوری داده‌ها، شما باید آن را تمیز کنید، پیش پردازش کنید، و برخی تحلیل‌های اولیه را قبل از شروع با فرآیند ساخت مدل انجام دهید.

همچنین، همه مشکلات نیاز به یادگیری ماشینی برای حل ندارند.

اگر از شما خواسته شود تا یک مدل برای حل یک مشکل کسب‌وکار بسازید و متوجه شوید که یادگیری ماشینی در این زمینه ضروری نیست، در غیر این صورت پیشنهاد دهید.

بخش ساخت مدل احتمالا کم‌ترین زمان بر کل پروژه علم داده است، و کار شما به آنجا ختم نمی‌شود.

زمانی که مدل را ساختید، باید آن را به شیوه‌ای ارائه دهید که برای فردی از یک پس‌زمینه غیر فنی جامع باشد.

شما باید موارد استفاده و سناریوهایی را برای توضیح آنچه ساخته‌اید، با درک آسان تجسم‌ها ایجاد کنید.

به تمام این دلایل، یک پروژه علم داده به ظاهر ساده می‌تواند خیلی بیشتر از آنچه انتظار می‌رود طول بکشد. الزامات تجاری دائماً در حال تغییر هستند، بنابراین انتظار دارید که برای ایجاد تغییر در مدل یا ترکیب ویژگی‌های جدید، دوباره فراخوانده شوید.

ریاضیات و آمار در یادگیری علم داده مهم هستند، اما نقش آن‌ها در این صنعت بیش از حد بیان شده‌است.

مهارت‌های برنامه‌نویسی مناسب و توانایی حل مشکلات کسب‌وکار با داده شما را در این صنعت بسیار فراتر از خوب بودن در ریاضی می‌برد.

این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.