من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
آیا برای تبدیل شدن به یک محقق داده به مدرک کارشناسیارشد نیاز دارید؟

منتشرشده در: towardsdatascience به تاریخ ۴ ژوئن ۲۰۲۱
لینک منبعDo you need a Master’s degree to become a data scientist?
من علم داده را از طریق دورههای آنلاین، کتابها و ویدئوهای یوتیوب به خودم یاد دادم. بعد از تقریبا یک سال خودآموزی، من اکنون به عنوان یک دانشمند داده کار میکنم.
جایی در طول این سفر، اغلب خودم را در شک و تردید گم میکردم.
من مقالات بی شماری را با تاکید بر اینکه تنها راه ورود به علم داده، به دست آوردن درک قوی از آمار، ریاضیات، جبر خطی و مدلسازی پیشگویانه بود، خواندم.
در حالی که این تا حدی درست است، اما منجر به این فرض شدهاست که تنها یک فارغالتحصیل علم داده میتواند به یک دانشمند داده تبدیل شود.
چقدر ریاضی برای یک دانشمند داده مورد نیاز است؟

وقتی که من به خودم علم داده درس میدهم، اغلب به یک دیوار برخورد میکنم و متوجه میشوم که از چگونگی پیشرفت مطمئن نیستم. احساس میکردم پسزمینه ریاضیاتی من به اندازه کافی قوی نیست.
برای تبدیل شدن به علم داده، من تصمیم گرفتم دورههای آنلاین حساب دیفرانسیل و انتگرال، آمار و جبر خطی بگیرم.
من قبلاً سابقه ریاضی داشتم، زیرا در طول سطح A خود ریاضیات و ریاضیات بیشتری را گذراندم.
من حدود دو ماه را صرف تمرین تمایز، ادغام و دستکاری ماتریس کردم. سپس، من چندین دوره آمار و احتمال را گذراندم.
حدود ۶ ماه طول کشید تا من تمام پیشنیاز ریاضی توصیه شدهبرای یک دانشمند داده را به دست آورم.
آیا این به انتقال من به علم داده کمک کرد؟
بله و نه.
بیشتر محاسبات و مفاهیم جبر خطی که یاد گرفتم هیچ کاربرد مستقیمی در فرآیند ساخت مدل نداشتند.
کار روزانه من نیاز ندارد که بدانم چطور یک سری تیلور را بدون ماشینحساب محاسبه کنم.
با این حال، من از صرف وقت برای این دورهها پشیمان نیستم. مهارتهای حل مساله من واقعا بهبود پیدا کرد وقتی که من این درسهای ریاضی و تکالیف را هر روز انجام میدادم.
از میان تمام درسهای ریاضی که گرفتم، متوجه شدم که آمار بیشترین تاثیر مستقیم را بر کاری که انجام میدادم، دارد.
من در مورد تکنیکهای نمونهگیری مختلف، انواع مختلف توزیعها و نحوه استفاده از آنها برای نرمال سازی مجموعه دادههای بزرگ، آزمون فرضیه، و انتخاب ویژگی یاد گرفتم.
داشتن یک درک کامل از نحوه عملکرد الگوریتمها واقعا فرآیند ساخت مدل من را بهبود بخشید.
با این حال، برای گرفتن برخی دورههای آماری، شما باید با برخی نمادهای ریاضی آشنا باشید. اینجاست که درک اولیه (پیش دانشگاهی یا شاید دبیرستان) از محاسبات به دست می آید.
شما باید مفاهیم اساسی مانند جمعبندی و تمایز را بدانید تا در طول دورههای آماری دنبال شوند، اما به عمق بیش از حد نیاز نیست.
خبر خوب این است که شما میتوانید دربانها را نادیده بگیرید.
نیازی نیست که شما مدرک کارشناسیارشد یا دکترا در رشته آمار داشته باشید تا در زمینه علم داده شغلی به دست آورید.
هر چیزی که لازم است بدانید میتواند خود آموخته باشد.
در واقع، بسیاری از همکاران من (از جمله رئیس تیم علوم داده من) از یک رشته با زمینه ریاضی نیامدهاند. بسیاری از آنها دارای مدرک کسبوکار هستند و به خودشان علم داده را آموزش میدهند.
فراتر رفتن از ریاضیات و آمار
با این حال، مهمتر از نیاز ریاضی، توانایی پیادهسازی و مقیاس بندی الگوریتمهایی است که شما ایجاد میکنید.
برای مثال
بیشتر کار من به عنوان یک دانشمند داده در یک نوت بوک Jupyter بودهاست. با این حال، یکی از مجموعه دادههایی که من چند روز پیش مجبور بودم با آن کار کنم حدود ۳۰ میلیون ردیف داشت. این بدان معنی بود که من نمیتوانستم مدل را به صورت محلی بسازم.
من بیشتر وقتم را صرف ایجاد یک محیط بر روی AWS کردم تا مدل خود را بسازم و آموزش دهم.
من مجبور بودم کدی را که داشتم از پایتون به Pyspark مینوشتم تغییر دهم. Pyspark یک API نوشته شده در پایتون است که از Apache Spark پشتیبانی میکند و به شما اجازه میدهد تا کد موازی را اجرا کنید. این بدان معنی است که میتواند مقادیر زیادی از دادهها را به سرعت پردازش کند و به شما این امکان را میدهد که با دادههای بزرگ کار کنید.
تمام این کارها باید به سرعت انجام میشد، و من باید تمام کدها را به یک زبان متفاوت در طول روز تغییر میدادم.
به عنوان یک محقق داده، شما باید برنامهریزی کافی و دانش SQL داشته باشید تا بتوانید مدل خود را تطبیق داده و مقیاسبندی کنید.
این مهارتی است که با تمرین همراه است، بنابراین من به شدت کدگذاری و حل مشکلات را برای حداقل ۳ تا ۴ ساعت در روز پیشنهاد میکنم.
مدیریت پایان برای پایان دادن به جریان کار
حتی مهمتر از فرآیند ساخت مدل، توانایی کار بر روی یک فرآیند انتها به انتها است.
این کار با اولین درک نیاز کسبوکار شروع میشود.
سپس، شما باید نقاط دادهای مختلف مورد نیاز برای حل مشکل کسبوکار را بدانید.
برای جمعآوری این دادهها، شما به مهارتهای فنی و برنامهنویسی قوی نیاز دارید. شما باید بدانید که چگونه با APIها کار کنید، و چگونه یک وب اسکرپر بسازید.
پس از جمعآوری دادهها، شما باید آن را تمیز کنید، پیش پردازش کنید، و برخی تحلیلهای اولیه را قبل از شروع با فرآیند ساخت مدل انجام دهید.
همچنین، همه مشکلات نیاز به یادگیری ماشینی برای حل ندارند.
اگر از شما خواسته شود تا یک مدل برای حل یک مشکل کسبوکار بسازید و متوجه شوید که یادگیری ماشینی در این زمینه ضروری نیست، در غیر این صورت پیشنهاد دهید.
بخش ساخت مدل احتمالا کمترین زمان بر کل پروژه علم داده است، و کار شما به آنجا ختم نمیشود.
زمانی که مدل را ساختید، باید آن را به شیوهای ارائه دهید که برای فردی از یک پسزمینه غیر فنی جامع باشد.
شما باید موارد استفاده و سناریوهایی را برای توضیح آنچه ساختهاید، با درک آسان تجسمها ایجاد کنید.
به تمام این دلایل، یک پروژه علم داده به ظاهر ساده میتواند خیلی بیشتر از آنچه انتظار میرود طول بکشد. الزامات تجاری دائماً در حال تغییر هستند، بنابراین انتظار دارید که برای ایجاد تغییر در مدل یا ترکیب ویژگیهای جدید، دوباره فراخوانده شوید.
ریاضیات و آمار در یادگیری علم داده مهم هستند، اما نقش آنها در این صنعت بیش از حد بیان شدهاست.
مهارتهای برنامهنویسی مناسب و توانایی حل مشکلات کسبوکار با داده شما را در این صنعت بسیار فراتر از خوب بودن در ریاضی میبرد.
این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
پیشبینی آینده اپیدمی ویروس کرونا
مطلبی دیگر از این انتشارات
نظارت جهانی بر عفونت انسانی با کروناویروس جدید (۲۰۱۹ - nCoV)
مطلبی دیگر از این انتشارات
تأثیر دادههای بزرگ و هوش مصنوعی بر وامدهی آنلاین