برنامه آموزشی کامل ۵۲ هفته‌ای برای تبدیل شدن به یک دانشمند داده

شکل 1: برنامه آموزشی برای تبدیل شدن به یک دانشمند داده
شکل 1: برنامه آموزشی برای تبدیل شدن به یک دانشمند داده


منتشر‌شده در: towardsdatascience به تاریخ ۲۳ دسامبر 202۰
لینک منبع: A Complete 52 Week Curriculum to Become a Data Scientist in 2021

«هر کسی می‌خواهد غذا بخورد، اما تعداد کمی تمایل به شکار دارند.»

مقدمه

اگر می‌خواهید یک دانشمند داده باشید اما هنوز اقدامی برای آن نکرده‌اید، اکنون زمان آن است.

سال گذشته، من متعهد شدم که هر هفته به مدت ۵۲ هفته چیز جدیدی درباره علوم داده یاد بگیرم، و فکر می‌کنم این یکی از بهترین تصمیماتی بود که تا به حال گرفتم. تعجب می‌کنید اگر بدانید در عرض یک سال تا چه حد می‌توانید رشد کنید. و بنابراین، من یک برنامه آموزشی کامل ۵۲ هفته‌ای را به شما ارائه می‌کنم که می‌توانید در سال جدید به عنوان یک راه‌حل جدید انجام دهید! آن یک برنامه زمان‌بر است و کمی سنگین خواهد بود، اما ارزشش را خواهد داشت.

بلافاصله، متوجه خواهید شد که این راهنما با یادگیری ماشین شروع نمی‌شود، و من دلایل خوبی برای آن دارم. قبل از اینکه وارد بحث اصلی شویم، چند نکته را یادآوری می‌کنیم:

این تمام چیزهایی که شما باید بدانید تا یک دانشمند داده‌ای کاملا مجهز باشید را پوشش نخواهد داد. این خودآموزی، مواردی را پوشش خواهند داد که من باور دارم اساسی‌ترین مهارت‌های یک دانشمند داده است.

فرض بر این است که شما حساب دیفرانسیل را از زمانی که همه ما آن را در دبیرستان یاد گرفتیم، می‌دانید.

این برنامه آموزشی شامل هیچ چیز مربوط به یادگیری عمیق نخواهد بود. یادگیری عمیق به خودی خود سزاوار ۵۲ هفته زمان اختصاصی است - اگر بخواهم آن را به زور داخل این برنامه بگنجانم، این کار به ضرر شما تمام خواهد شد!

بنابراین اجازه دهید شروع کنیم!

ساختار دوره

  • آمار و احتمال (هفته ۱ تا هفته ۶)
  • ریاضی (هفته ۷ تا ۱۲)
  • زبان SQL (هفته ۱۳ تا هفته ۲۱)
  • پایتون و برنامه‌نویسی (هفته ۲۲ تا هفته ۲۸)
  • پانداس (هفته ۲۹ تا هفته ۳۳)
  • تصویرسازی داده‌ها (هفته ۳۴ تا هفته ۳۵)
  • اکتشاف و آماده‌سازی داده (هفته ۳۶ تا هفته ۳۹)
  • یادگیری ماشینی (هفته ۴۰ تا هفته ۵۱)
  • پروژه علوم داده (هفته ۵۲)

آمار و احتمال

چرا آمار و احتمال مهم است؟

علم داده و یادگیری ماشینی در اصل یک نسخه مدرن از آمار هستند. با یادگیری آمار در ابتدا، زمانی که بحث یادگیری مفاهیم و الگوریتم‌های یادگیری ماشینی پیش می‌آید، زمان بسیار ساده‌تری خواهید داشت! با اینکه ممکن است اینطور به نظر برسد که شما از چند هفته اول چیزی ملموس به دست نیاورده‌اید، اما در هفته‌های بعدی ارزش آن را درک خواهد کرد.

هفته اول: آمار توصیفی

هفته دوم: احتمال

هفته سوم: ترکیب‌ها و جایگشت‌ها

هفته ۴: توزیع نرمال و توزیع نمونه‌گیری

هفته پنجم: فاصله اطمینان

هفته ششم: آزمون فرضیه (هیپوتیز)

ریاضی

چرا ریاضیات مهم است؟

همانند آمار، بسیاری از مفاهیم علم داده بر اساس مفاهیم بنیادی ریاضی ساخته می‌شوند.

برای درک توابع هزینه باید، دیفرانسیل را بدانید. به منظور درک آزمون فرضیه، شما باید یکپارچگی را درک کنید. و برای مثال بیشتر، جبر خطی برای یادگیری مفاهیم یادگیری عمیق، سیستم‌های توصیه و تجزیه و تحلیل اجزای اصلی ضروری است.

هفته ۷: بردار‌ها و فضا‌ها

هفته ۸: نقطه محصول و ماتریس تبدیل ۱

هفته ۹: ماتریس تبدیل ۲

هفته دهم: مقادیر ویژه و بردارهای ویژه

هفته ۱۱: ‌انتگرال

هفته ۱۲: انتگرال بخش ۲!

زبان SQL

چرا SQL مهم است؟

زبان SQL مسلما مهم‌ترین مهارت برای یادگیری در هر نوع حرفه مرتبط با داده است، چه شما یک دانشمند داده باشید، چه مهندس داده، تحلیلگر داده، تحلیلگر کسب‌وکار و غیره، این زبان اهمیت دارد.

در هسته آن، SQL برای استخراج (یا پرس‌و‌جو) داده‌های خاص از یک پایگاه‌داده استفاده می‌شود، به طوری که شما می‌توانید کارهایی مانند تجزیه و تحلیل داده‌ها، تصویرسازی داده‌ها، مدل‌سازی داده‌ها و غیره را انجام دهید. بنابراین، توسعه مهارت‌های SQL قوی به شما این امکان را می‌دهد که تحلیل‌ها، تجسم‌ها و مدل‌سازی خود را به سطح بعدی ببرید زیرا شما قادر خواهید بود داده‌ها را به روش‌های پیشرفته استخراج و دستکاری کنید.

من مدتی قبل با برنامه‌درسی Mode آشنا شدم و این فوق‌العاده است! بنابراین من اول با استفاده از SQL در Mode آشنا ‌شدم. شما نیز پس از آن می‌توانید موضوعات زیر را بررسی کنید!

هفته ۱۳: SQL پایه

هفته ۱۴: عملگرهای منطقی و مقایسه‌ای

هفته ۱۵: توابع جمع

هفته ۱۶: DISTINCT، CASE WHEN

هفته ۱۷: پیوندها و اتحادها

هفته ۱۸: پرسوجوها و عبارات جدول مشترک

هفته ۱۹: دستکاری‌های رشته‌ای

هفته ۲۰: دستکاری تاریخ-زمان

برای عملگرهای بیشتر به اینجا مراجعه کنید.

هفته ۲۱: توابع ویندوز

برای توابع ویندوز پیشرفته اینجا را ببینید.

پایتون و برنامه‌نویسی

چرا پایتون مهم است؟

من با پایتون شروع کردم، و احتمالا تا آخر عمرم با پایتون خواهم بود. از نظر مشارکت‎‌های منبع باز بسیار جلوتر است و یادگیری آن ساده است. اگر بخواهید می‌توانید باR همراه شوید، اما من هیچ نظر یا توصیه‌ای برای ارائه در مورد R ندارم.

هفته ۲۲: مقدمه‌ای بر پایتون

هفته ۲۳: فهرست، ضرب‌ها، توابع، عبارات شرطی، مقایسه

هفته ۲۴: دیکشنری‌ها، حلقه‌ها، نظرات

هفته ۲۵: خواندن فایل‌های نوشتاری، کلاس‌ها و اهداف

هفته ۲۶: بازگشت

هفته ۲۷: درخت باینری

هفته ۲۸: API ها و Anaconda

پانداس

چرا پانداس مهم است؟

مسلما مهم‌ترین کتابخانه‌ای که باید در پایتون شناخته شود، پانداس است که به طور خاص برای دستکاری و تحلیل داده‌ها مورد استفاده قرار می‌گیرد.

هفته ۲۹: دریافت و شناخت داده‌های خود

هفته ۳۰: فیلتر کردن و مرتب‌سازی

هفته ۳۱: گروه‌بندی

هفته ۳۲: Apply

هفته ۳۳: ادغام

تصویرسازی داده‌ها

چرا تصویرسازی داده مهم است؟

توانایی تجسم داده‌ها و بینش‌ها بسیار مهم است، زیرا ساده‌ترین راه برای برقراری ارتباط اطلاعات پیچیده و بسیاری از اطلاعات در یک زمان است. به عنوان یک دانشمند داده، شما همیشه خودتان و ایده‌های خود را می‌فروشید، چه پروژه جدیدی را آماده کنید و چه دیگران را متقاعد کنید که چرا مدل شما باید تولید شود - تصویرسازی داده یک ابزار عالی برای کمک به شما در این زمینه است.

ده‌ها کتابخانه تجسم داده در آنجا وجود دارد، اما من بر روی دو مورد تمرکز می‌کنم: Matplotlit و Plotly.

هفته ۳۴: تصویرسازی داده با Matplotlib

هفته ۳۵: تصویرسازی داده با Plotly

اکتشاف و آماده‌سازی داده

چرا اکتشاف و آماده‌سازی داده مهم است؟

مدل‌هایی که شما ایجاد می‌کنید تنها می‌توانند به خوبی داده‌هایی باشند که شما در آن وارد می‌کنید. برای درک اینکه وضعیت داده‌های شما در چه شرایطی هستند، برای مثال آیا «خوب» است یا نه، شما باید داده‌ها را بررسی کرده و داده‌ها را آماده کنید. بنابراین، برای چهار هفته آینده، من قصد دارم چندین منبع شگفت‌انگیز را برای شما فراهم کنم تا بتوانید از آن‌ها عبور کرده و درک بهتری از آنچه که اکتشاف و آماده‌سازی داده‌ها مستلزم آن است، به دست آورید.

هفته ۳۶: تحلیل داده‌های اکتشافی (EDA)

تحلیل داده‌های اکتشافی (EDA) می‌تواند دشوار باشد، زیرا هیچ راهی برای انجام آن وجود ندارد - اما این چیزی است که آن را هیجان‌انگیز نگه می‌دارد. به طور کلی، شما می‌خواهید:

  • آمار توصیفی کمی (گرایش مرکزی) استخراج کنید.
  • تجزیه و تحلیل تک متغیره (توزیع و پخش) انجام دهید.
  • تجزیه و تحلیل چند متغیره (پلات های پراکنده، ماتریس همبستگی، نمره توان پیش‌بینی و غیره …) انجام دهید.
  • داده‌های گم‌شده و داده‌های پرت را بررسی کنید.

به این راهنمای EDA برای یک مبتدی نگاه کنید.

هفته ۳۷: آماده‌سازی داده‌ها: جایگزینی ویژگی‌ها و نرمال‌سازی

هفته ۳۸: انتخاب ویژگی و مهندسی ویژگی

هفته ۳۹: مجموعه داده‌های نامتعادل

یادگیری ماشینی

چرا یادگیری ماشینی مهم است؟

هر چیزی که یاد گرفته‌اید منجر به این مرحله شده‌است! نه تنها یادگیری ماشینی جالب و هیجان‌انگیز است، بلکه مهارتی است که همه دانشمندان داده دارند. درست است که مدل‌سازی بخش کوچکی از زمان یک دانشمند داده را تشکیل می‌دهد، اما از اهمیت آن کم نمی‌شود.

بعدا در حرفه شما ممکن است متوجه شوید که من برخی از الگوریتم های یادگیری ماشینی مانند K Nearest همسایه‌ها، Gradient Boost، و CatBoost را کنار گذاشتم. این کاملا عمدی است - اگر بتوانید مفاهیم یادگیری ماشینی زیر را درک کنید، مهارت‌هایی برای یادگیری هر الگوریتم یادگیری ماشینی دیگری در آینده خواهید داشت.

هفته ۴۰: مقدمه‌ای بر یادگیری ماشینی

هفته ۴۱: رگرسیون خطی

هفته ۴۲: رگرسیون منطقی

هفته ۴۳: Regularization

هفته ۴۴: درخت تصمیم‌گیری

هفته ۴۵: Naïve Bayes

هفته ۴۶: ماشین‌های بردار پشتیبان

هفته ۴۷: خوشه‌بندی

هفته ۴۸: تجزیه و تحلیل اجزای اصلی

هفته ۴۹: Bootstrap Sampling, Bagging, و Boosting

هفته ۵۰: جنگل‌های تصادفی و سایر درخت Boosted

هفته 51: معیارهای ارزیابی مدل

هفته ۵۲: پروژه علوم داده

اگر با مطالب بالا احساس راحتی می‌کنید، قطعا آماده شروع پروژه علوم داده خود هستید! فقط در این صورت، من سه ایده ارائه کرده‌ام که می‌توانید از آن‌ها به عنوان موارد الهام‌بخش برای شروع استفاده کنید. اما کاری را انجام دهید که دوست دارید.

ایده ۱: مطالعه موردی SQL

به این کیس متصل شوید.

هدف از این مورد تعیین علت کاهش مشارکت کاربر برای یک شبکه اجتماعی به نام Yammer است. قبل از ورود به داده‌ها، شما باید مروری بر آنچه که Yammer انجام می‌دهد را در اینجا بخوانید. چهار جدول وجود دارد که باید با آن‌ها کار کنید.

ارتباط با مورد بالا، جزئیات بیشتری در رابطه با مشکل، داده، و سوالاتی که باید پاسخ داده شوند به شما خواهد داد.

اگر راهنمایی می‌خواهید، در اینجا بررسی کنید که من چطور به این مطالعه موردی نزدیک شدم.

مهارت‌هایی که رشد خواهید کرد:

  • زبان SQL
  • تجزیه و تحلیل داده‌ها
  • تجسم داده‌ها اگر بخواهید دیدگاه‌هایتان را تجسم کنید.

ایده ۲: جستجوی وب Trustpilot

یادگیری نحوه انتشار داده برای یادگیری ساده و بسیار مفید است، به خصوص زمانی که بحث جمع‌آوری داده برای پروژه‌های شخصی باشد. جستجوی یک وب سایت برای بررسی نظرات مشتری، مانند Trustpilot، برای یک شرکت ارزشمند است زیرا به آن‌ها اجازه می‌دهد تا بررسی روندها (بهتر یا بدتر شدن) را درک کنند و ببینند که مشتریان از طریق NLP چه می‌گویند.

ابتدا با نحوه سازماندهی Trustpilot آشنا ‌شدم و تصمیم ‌گرفتم که کدام نوع کسب و کارها را تجزیه و تحلیل کنم. بعد نگاهی به این بررسی که چطور باید نظرات Trustpilot را استخراج کنم، انداختم.

مهارت‌هایی که رشد خواهد کرد:

  • نگارش اسکریپت‌های پیتون
  • تنظیم داده‌ها
  • کتابخانه‌های BeautifulSoup / Selenium (کتابخانه های استخراج داده از وب)
  • تجزیه و تحلیل داده‌ها

این کار را بیشتر انجام دهید و از NLP برای استخراج بینش‌هایی از نظرات استفاده کنید.

ایده ۳: مسابقه یادگیری ماشینی تایتانیک

به نظر من، هیچ راهی بهتر از این وجود ندارد که نشان دهید برای یک کار علمی داده آماده هستید تا این که کد خود را از طریق رقابت‌ها به نمایش بگذارید. کاگل میزبان رقابت‌های مختلفی است که شامل ساخت مدلی برای بهینه‌سازی یک معیار خاص است که یکی از آن‌ها رقابت یادگیری ماشینی تایتانیک است.

اگر می‌خواهید کمی الهام و راهنمایی به دست آورید، این راهنمای گام‌به‌گام را در یکی از راه‌حل‌ها بررسی کنید.

مهارت‌هایی که رشد خواهند کرد:

  • اکتشاف و پاکسازی داده‌ها با پانداس
  • مهندسی ویژگی
  • مدل‌سازی یادگیری ماشینی

سخن پایانی

امیدوارم این مقاله برای شما مفید بوده باشد! اگر موفق به انجام این کار شدید، باید درک قوی از اصول آمار، ریاضیات، SQL، پایتون / پاندا، و چندین الگوریتم یادگیری ماشین داشته باشید!

امیدوارم این راهنما الهام‌بخش شما برای ادامه یادگیری نیز باشد - چیزهای زیادی وجود دارند که شما می‌توانید به کشف آن‌ها ادامه دهید. مانند مدل‌های پیشرفته‌تر، آموزش عمیق، طراحی تجربی، مدل‌سازی بیزی، معماری ابری و لیست ادامه دارد.

در صورتی که تمایل دارید مقالات لینک داده شده در این مقاله ترجمه شود و در اختیار شما عزیزان قرار بگیرد، در کامنت‌ها ما را مطلع نمایید.

این متن با استفاده از ربات مترجم مقاله علوم دیتا ساینس ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به‌صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.