یک نقشه راه علم داده کامل در سال ۲۰۲۱

شکل ۱. نقشه راه
شکل ۱. نقشه راه
منتشر‌شده در towardsdatascienceبه تاریخ ۲۱ ژوئن ۲۰۲۱
لینک منبع A Complete Data Science Roadmap in 2021

حدود سه سال پیش، من یک مدرک کارشناسی در علوم کامپیوتر گرفتم. من رشته علم داده را انتخاب کردم، چرا که در آن زمان بسیار در مورد آن هیاهو و هیجان بود.

من یک سال پیش متوجه شدم که مدرک من مرا به مهارت‌های لازم برای تبدیل شدن به یک دانشمند داده مجهز نکرده است.

و این برای والدین من تقریبا ۲۵ هزار دلار هزینه در بر داشت.

این قبل از این بود که من در مورد پلتفرم های یادگیری آنلاین مانندedX و کاندیدا بدانم.

من تمام مهارت‌های لازم برای تبدیل شدن به یک دانشمند داده را به خودم یاد دادم. و من همه آن را خارج از مدرکم آموختم - آن را بصورت آنلاین یاد گرفتم.

حالا، من به عنوان یک دانشمند داده برای یک شرکت داده و هوش مصنوعی کار می‌کنم.

در مقاله‌ای که سال گذشته نوشتم، لیستی از دوره‌هایی را که شما می‌توانید برای ورود به صنعت علم داده انتخاب کنید، تهیه کردم.

من این لیست را در اینجا تازه خواهم کرد، و چند منبع یادگیری دیگر برای شما فراهم خواهم کرد که به شما کمک خواهد کرد تا در سال ۲۰۲۱ وارد علم داده شوید.

این دوره‌ها خیلی بیشتر از کل دوره تحصیلی من به شما آموزش می‌دهند، و فقط مقدار کمی هزینه.

گام ۱: پایتون را یاد بگیرید

اگر می‌خواهید علم داده‌ را از ابتدا یاد بگیرید، اولین کاری که باید انجام دهید این است که چگونه کد نوشتن را یاد بگیرید.

یک زبان برنامه‌نویسی (یا پایتون یا R) را انتخاب کرده و شروع به یادگیری کنید.

من پیشنهاد می‌کنم که با پایتون شروع کنیم چون بیشتر از R استفاده می‌شود. همچنین عمومی‌تر و بسیار انعطاف‌پذیرتر است، و اگر دانش پایتون داشته باشید، می‌توانید به حوزه‌های مختلف (تجزیه و تحلیل داده‌ها، توسعه وب) انتقال دهید.

برای یادگیری پایتون، هر یک از این دروس را انتخاب کنید:

دیتاکمپ: مقدمه‌ای بر پایتون

این دوره دیتاکمپ شما را از طریق تمرین‌هایی هدایت خواهد کرد و به شما آموزش خواهد داد که چگونه در پایتون کد نویسی کنید.

در این دوره چه چیزی یاد خواهید گرفت؟

  • اصول اولیه پایتون را یاد می‌گیرید: متغیرها، انواع داده‌ها، کارکردها، روش‌ها، لیست‌ها و آرایه‌ها. دانستن چگونگی دستکاری آرایه‌ها مهارت بسیار مهمی است که هنگام کار به عنوان یک دانشمند داده باید داشته باشد، به همین دلیل است که آن‌ها یک ماژول کامل را به آن اختصاص داده‌اند.
  • بعد از این که شما پایه و اساس محکمی از پایتون ابتدایی دارید، این درس به شما یاد خواهد داد که از کتابخانه‌ای به نام Numpy استفاده کنید. Numpy یک بسته پایتون محبوب است که توسط دانشمندان داده برای دستکاری آرایه‌ها مورد استفاده قرار می‌گیرد.

این درس درک پایه‌ای از برنامه‌نویسی در پایتون به شما می‌دهد.

موضوعات کمی وجود دارند که این درس آن‌ها را پوشش نمی‌دهد، مانند عبارات شرطی و حلقه‌ها.

اینها مفاهیم بسیار مهمی هستند و شما نباید از یاد گرفتن آن‌ها صرف‌نظر کنید. من استفاده از منابع خارجی مانند فری‌کودکمپ و ویدئوهای یوتیوب را برای به دست آوردن درکی از این مفاهیم پیشنهاد می‌کنم.

بوت‌کمپ کامل پایتون ۲۰۲۱ از صفر تا قهرمان در پایتون Udemy

این یک جایگزین برای دوره دیتاکمپ است. این دوره توسط خوزه پورتیلا تدریس می‌شود که (به نظر من) بهترین مربی زنده است.

من این دوره را نخوانده‌ام چون قبل از ورود به رشته علم داده، دانش برنامه‌نویسی پایه‌ای داشتم.

با این حال، من دوره علم داده و یادگیری ماشینی او را گذرانده‌ام. این اولین دوره آنلاین دانش داده بود که من گرفتم، و من بلافاصله عاشق این موضوع شدم.

سبک تدریس خوزه باور نکردنی است. تمرین‌های برنامه‌ریزی او تنها در سطح درست دشواری قرار دارند و شما را به فکر کردن و رسیدن به یک راه‌حل سوق می‌دهند.

اگر شما یک مبتدی کامل بدون هیچ گونه تجربه برنامه‌نویسی هستید، من ۱۰۰٪ توصیه می‌کنم که این دوره را انتخاب کنید.

تنها نکته منفی در مقایسه با دوره دیتاکمپ این است که در ویرایشگر کد ساخته نشده است. شما باید محیط برنامه‌نویسی خود را ایجاد کنید (اما خوزه شما را در این مسیر راهنمایی خواهد کرد و اصلا سخت نیست).

پس از گذراندن هر یک از این دوره‌ها، درک خوبی از اصول برنامه‌نویسی به دست می‌آورید.

با این حال، سفر شما در یادگیری این که چگونه کد نوشتن را یاد بگیرید، در اینجا به پایان نمی‌رسد.

شما باید یاد بگیرید چگونه مشکلات را با نحو جدیدی که یاد گرفته‌اید حل کنید.

من یک‌بار از یک دانشمند داده پرسیدم که چطور کد نوشتن را یاد گرفته‌است، و او مکانی به نام HackerRank را پیشنهاد داد.

او به من گفت که هر بار که می‌خواهد زبان جدیدی یاد بگیرد، تا جایی که می‌تواند مشکلات را در سایت حل خواهد کرد. او پیشنهاد داد که در حدود ۱۰ مشکل در روز حل شود.

این ممکن است برای زمانی که تازه شروع به کار می‌کنید، کمی بیش از حد باشد.

زمانی که من تازه شروع به یادگیری برنامه‌نویسی کردم، به یاد می‌آورم که یک روز کامل را صرف حل فقط یک چالش کدگذاری در سایت کردم.

با این حال، همانطور که مهارت‌های پایتون و حل مساله من در طول زمان پیشرفت می‌کردند، من شروع به بهتر شدن در آن کردم.

حدود ۴ تا ۵ ساعت در روز وقت صرف حل مشکلات HackerRank کنید، و مهارت‌های برنامه‌نویسی پایتون شما در زمان ناچیزی بهبود خواهد یافت.

مرحله ۲: یادگیری علم داده

بعد از اینکه شما درک بهتری از برنامه‌نویسی در پایتون و حل مساله پیدا کردید، می‌توانید شروع به یادگیری اصول علم داده و یادگیری ماشینی کنید.

برای انجام این کار می‌توانید یک (یا هر دو) دوره زیر را انتخاب کنید:

پایتون برای دانش داده و اردوگاه آموزشی ماشینی Udemy

این اولین دوره علم داده است که من تا به حال انجام داده‌ام. من حدود ۵ ساعت در روز را در این درس گذراندم و آن را ظرف یک ماه کامل کردم.

این یک دوره علم داده سطح مقدماتی است که توسط خوزه پورتیلا آموزش داده می‌شود. این کار به شما یاد خواهد داد که چگونه از کتابخانه‌هایی مانند نومپی و پانداس برای تجزیه و تحلیل داده‌ها، همراه با کتابخانه‌های مصورسازی مانند Matplotlib و Seaborn استفاده کنید.

خوزه همچنین شما را با اصول یادگیری ماشینی آشنا می‌کند. او توضیح می‌دهد که چگونه مدل‌های مختلف یادگیری ماشینی کار می‌کنند، و سپس شما را از طریق پیاده‌سازی این مدل‌ها در پایتون راهنمایی می‌کند.

من در طول یک ماه از این درس چیزهای بیشتری یاد گرفتم نسبت به کل دوره مدرک علم داده خودم.

به یاد داشته باشید، شما باید قبل از انجام این درس کمی تجربه برنامه‌نویسی داشته باشید، بنابراین قبل از انجام این درس یک درس پایتون را انتخاب کنید.

دیتاکمپ: اصول یادگیری ماشینی با پایتون

این درس اصول یادگیری ماشینی را با پایتون به شما آموزش می‌دهد.

در این درس، شما تئوری پشت هر دو الگوریتم یادگیری ماشین نظارت شده و بدون نظارت را یاد خواهید گرفت.

همچنین اجرای عملی این مدل‌ها را در پایتون یاد خواهید گرفت.

من قبلا این درس مجموعه داده‌ها رو نگذرانده‌ام. با این حال، به نظر می‌رسد که محتوای این دوره دقیق‌تر و جامع‌تر از دوره «Udemy» باشد.

بسیاری از موضوعات (مانند تنظیم مدل و معیارها) در دوره Udemy توسط خوزه پورتیلا پوشش داده نشده اند.

پیشنهاد من این است که ابتدا دوره آموزشی خوزه را در وب سایت Udemy برای یادگیری اصول اولیه و درک نحوه ساخت و آموزش مدل‌ها در پایتون بگذرانید.

سپس، می‌توانید درس مجموعه داده‌ها را برای پر کردن شکاف‌های یادگیری خود انتخاب کنید.

پس از گذراندن این دو دوره، شما درک کاملی از نحوه کار الگوریتم‌های یادگیری ماشینی و اجرای آن‌ها در پایتون خواهید داشت.

حالا، شما آماده اید تا پروژه‌های یادگیری ماشینی خودتان را شروع کنید.

داشتن یک درک نظری از یادگیری ماشینی برای ورود به صنعت کافی نیست.

در واقع، من اولین کار علم داده را به دلیل پروژه‌های علم داده که ساخته‌ام و بر روی نمونه کارهای خودم به نمایش گذاشتم، گرفتم.

مرحله ۳: آمار را یاد بگیرید

بسیاری از مردم قبل از اینکه وارد یادگیری ماشینی و علم داده شوند، یادگیری آمار را پیشنهاد می‌کنند.

من عکس این را پیشنهاد می‌کنم.

من ابتدا یادگیری پایتون و ساخت مدل‌های یادگیری ماشینی را پیشنهاد می‌کنم.

زمانی که شما درک بالایی از این مدل‌ها داشته باشید و بدانید چگونه آن‌ها را در پایتون پیاده کنید، می‌توانید نحوه کار آن‌ها را یاد بگیرید.

شما می‌توانید وارد شوید و تئوری و ریاضی را در پشت این مدل‌ها یاد بگیرید.

این رویکرد یادگیری از بالا به پایین نامیده می‌شود، و من این گونه علم داده را به خودم آموزش دادم.

در اینجا به برخی از دوره‌های آماری که باید برای درک بهتر علم داده و یادگیری ماشینی صرف کنید، اشاره می‌کنیم:

احتمال و آمار: p یا نه به p؟

این درس برای شما است اگر هیچ دانش آماری قبلی ندارید. این یکی از بهترین دوره‌های آمار مقدماتی است که من انجام داده‌ام.

برخی از مهم‌ترین مفاهیم در آمار، مانند توزیع‌های احتمالات مختلف، استانداردسازی، آمار توصیفی، نمونه‌گیری تصادفی، آزمون فرضیه، و قضیه حد مرکزی را به شما خواهد آموخت.

بهترین بخش در مورد این درس: برای دانش آموزانی که از یک پیش‌زمینه غیر آماری می‌آیند مناسب است.

مربی این درس، جیمز عبدی، مطالب را با نمونه‌های جالب و مطالعات موردی توضیح می‌دهد.

او تمام مفاهیم را به زبان انگلیسی ساده توضیح می‌دهد و از هیچ نماد ریاضی پیچیده‌ای استفاده نمی‌کند.

زمانی که این درس را تمام کردید، درک پایه‌ای از احتمال و آمار و روش‌های مورد استفاده برای تصمیم‌گیری تحت عدم قطعیت خواهید داشت.

یادگیری آماری edX

این درس درک عمیقی از الگوریتم های یادگیری ماشین به شما می‌دهد.

این تنها منبع در این لیست است که در R آموزش داده می‌شود. لازم نیست پیش از این که این درس را بگیرید، برنامه‌نویسی R را بدانید. مربیان به شما یاد خواهند داد که چگونه درR کد گذاری کنید قبل از این که شما را به یک پیاده‌سازی عملی برسانند.

این درس تکنیک‌های یادگیری نظارت شده مانند رگرسیون خطی، رگرسیون لجستیک، ماشین‌های بردار پشتیبان و درخت‌های تصمیم‌گیری را پوشش می‌دهد. همچنین الگوریتم های یادگیری بدون نظارت مانند خوشه‌بندی K-means و تجزیه و تحلیل مولفه‌های اصلی را پوشش می‌دهد.

برخلاف تمام منابع ذکر شده در بالا، این درس حساب قبلی و پیشینه جبر خطی را در نظر می‌گیرد. برای گذراندن این دوره، شما باید با نماد جمع و دستکاری ماتریس آشنا باشید.

دلیل اینکه من این درس را پیشنهاد می‌کنم این است که من متوجه شدم که این درس عمیقا به شهود پشت مدل‌های یادگیری ماشین می‌رود.

این کار به شما آموزش می‌دهد که بهترین الگوریتم یادگیری ماشینی را براساس توزیع متغیرها انتخاب کنید.

شما تکنیک‌های مختلف نمونه‌گیری را یاد خواهید گرفت که می‌توانند برای آموزش مدل شما در زمانی که داده‌های کافی در دسترس ندارید، به کار گرفته شوند.

همچنین به پاسخ سوالاتی مانند چرا نمی توان از رگرسیون خطی برای مسائل طبقه‌بندی استفاده کرد؟ می‌رسید.

اگر می‌خواهید درک جامعی از الگوریتم‌های یادگیری ماشین و نحوه کار آن‌ها به دست آورید، من همچنین خواندن کتابی به نام مقدمه در یادگیری آماری را پیشنهاد می‌کنم که این درس براساس آن است.

من مراحل بالا را دنبال کردم تا علم داده را به خودم یاد دهم.

این نقشه راه به من کمک کرد تا وارد صنعت داده شوم و شغلی به عنوان یک دانشمند داده پیدا کنم.

البته، سفر یادگیری اطلاعات شما در اینجا به پایان نمی‌رسد.

چیزهای زیادی برای یادگیری ماشینی و علم داده وجود دارد، و این موضوعات به سختی سطح همه چیزهایی که برای یادگیری وجود دارد را فرا می‌گیرند.

نکته:

این مقاله شامل لینک‌های وابسته است. این به این معنی است که اگر بر روی آن کلیک کنید و انتخاب کنید که یک دوره که من در بالا به آن لینک کردم را بخرید، بخش کوچکی از هزینه اشتراک شما به من خواهد رسید.

به عنوان یک خالق، این به من کمک می‌کند تا رشد کنم و به خلق محتوایی مانند این ادامه دهم.

با این حال، من فقط دوره‌هایی را توصیه می‌کنم که فکر می‌کنم خوب هستند. من تقریبا تمام دوره‌های ذکر شده در بالا را گرفته‌ام، و آن‌ها در کمک به من در انتقال به علم داده حیاتی بوده‌اند.

از حمایت شما متشکرم!

و از خواندن شما متشکرم!

این متن با استفاده از ربات ترجمه مقاله دیتاساینس ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.