من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
برنامه آموزشی کامل ۵۲ هفتهای برای تبدیل شدن به یک دانشمند داده

منتشرشده در: towardsdatascience به تاریخ ۲۳ دسامبر 202۰
لینک منبع: A Complete 52 Week Curriculum to Become a Data Scientist in 2021
«هر کسی میخواهد غذا بخورد، اما تعداد کمی تمایل به شکار دارند.»
مقدمه
اگر میخواهید یک دانشمند داده باشید اما هنوز اقدامی برای آن نکردهاید، اکنون زمان آن است.
سال گذشته، من متعهد شدم که هر هفته به مدت ۵۲ هفته چیز جدیدی درباره علوم داده یاد بگیرم، و فکر میکنم این یکی از بهترین تصمیماتی بود که تا به حال گرفتم. تعجب میکنید اگر بدانید در عرض یک سال تا چه حد میتوانید رشد کنید. و بنابراین، من یک برنامه آموزشی کامل ۵۲ هفتهای را به شما ارائه میکنم که میتوانید در سال جدید به عنوان یک راهحل جدید انجام دهید! آن یک برنامه زمانبر است و کمی سنگین خواهد بود، اما ارزشش را خواهد داشت.
بلافاصله، متوجه خواهید شد که این راهنما با یادگیری ماشین شروع نمیشود، و من دلایل خوبی برای آن دارم. قبل از اینکه وارد بحث اصلی شویم، چند نکته را یادآوری میکنیم:
این تمام چیزهایی که شما باید بدانید تا یک دانشمند دادهای کاملا مجهز باشید را پوشش نخواهد داد. این خودآموزی، مواردی را پوشش خواهند داد که من باور دارم اساسیترین مهارتهای یک دانشمند داده است.
فرض بر این است که شما حساب دیفرانسیل را از زمانی که همه ما آن را در دبیرستان یاد گرفتیم، میدانید.
این برنامه آموزشی شامل هیچ چیز مربوط به یادگیری عمیق نخواهد بود. یادگیری عمیق به خودی خود سزاوار ۵۲ هفته زمان اختصاصی است - اگر بخواهم آن را به زور داخل این برنامه بگنجانم، این کار به ضرر شما تمام خواهد شد!
بنابراین اجازه دهید شروع کنیم!
ساختار دوره
- آمار و احتمال (هفته ۱ تا هفته ۶)
- ریاضی (هفته ۷ تا ۱۲)
- زبان SQL (هفته ۱۳ تا هفته ۲۱)
- پایتون و برنامهنویسی (هفته ۲۲ تا هفته ۲۸)
- پانداس (هفته ۲۹ تا هفته ۳۳)
- تصویرسازی دادهها (هفته ۳۴ تا هفته ۳۵)
- اکتشاف و آمادهسازی داده (هفته ۳۶ تا هفته ۳۹)
- یادگیری ماشینی (هفته ۴۰ تا هفته ۵۱)
- پروژه علوم داده (هفته ۵۲)
آمار و احتمال
چرا آمار و احتمال مهم است؟
علم داده و یادگیری ماشینی در اصل یک نسخه مدرن از آمار هستند. با یادگیری آمار در ابتدا، زمانی که بحث یادگیری مفاهیم و الگوریتمهای یادگیری ماشینی پیش میآید، زمان بسیار سادهتری خواهید داشت! با اینکه ممکن است اینطور به نظر برسد که شما از چند هفته اول چیزی ملموس به دست نیاوردهاید، اما در هفتههای بعدی ارزش آن را درک خواهد کرد.
هفته اول: آمار توصیفی
هفته دوم: احتمال
- احتمال نظری
- فضاهای نمونه
- مجموعه عملگرها
- قانون جمع
- قانون ضرب برای رویدادهای مستقل
- قانون ضرب برای رویدادهای وابسته
- احتمال شرطی و استقلال
هفته سوم: ترکیبها و جایگشتها
هفته ۴: توزیع نرمال و توزیع نمونهگیری
- توزیع نرمال / عادی و قانون تجربی
- مقدمهای بر توزیع نمونهگیری
- توزیع نمونهگیری از نسبت نمونه
- توزیع نمونهگیری از میانگین نمونه
هفته پنجم: فاصله اطمینان
هفته ششم: آزمون فرضیه (هیپوتیز)
- مقدمهای بر آزمون فرضیه
- احتمالات خطا و توان
- آزمونهای مربوط به نسبت جمعیت
- آزمونهای مربوط به میانگین جمعیت
- ویدیوهای بیشتر
ریاضی
چرا ریاضیات مهم است؟
همانند آمار، بسیاری از مفاهیم علم داده بر اساس مفاهیم بنیادی ریاضی ساخته میشوند.
برای درک توابع هزینه باید، دیفرانسیل را بدانید. به منظور درک آزمون فرضیه، شما باید یکپارچگی را درک کنید. و برای مثال بیشتر، جبر خطی برای یادگیری مفاهیم یادگیری عمیق، سیستمهای توصیه و تجزیه و تحلیل اجزای اصلی ضروری است.
هفته ۷: بردارها و فضاها
هفته ۸: نقطه محصول و ماتریس تبدیل ۱
هفته ۹: ماتریس تبدیل ۲
هفته دهم: مقادیر ویژه و بردارهای ویژه
- مقادیر ویژه و بردارهای ویژه
- هر چیزی که در چند هفته گذشته نتوانستید تمام کنید!
هفته ۱۱: انتگرال
- تقریب با مجموع باقیمانده
- انتگرال متناهی با مجموع باقیمانده
- قضیه اساسی توابع حساب دیفرانسیل و انتگرال
- ویژگیهای انتگرالهای متناهی
هفته ۱۲: انتگرال بخش ۲!
- قضیه اساسی حساب دیفرانسیل و انتگرال متناهی
- قانون توان معکوس
- انتگرال نامتناهی توابع مشترک
- انتگرال متناهی از توابع مشترک
زبان SQL
چرا SQL مهم است؟
زبان SQL مسلما مهمترین مهارت برای یادگیری در هر نوع حرفه مرتبط با داده است، چه شما یک دانشمند داده باشید، چه مهندس داده، تحلیلگر داده، تحلیلگر کسبوکار و غیره، این زبان اهمیت دارد.
در هسته آن، SQL برای استخراج (یا پرسوجو) دادههای خاص از یک پایگاهداده استفاده میشود، به طوری که شما میتوانید کارهایی مانند تجزیه و تحلیل دادهها، تصویرسازی دادهها، مدلسازی دادهها و غیره را انجام دهید. بنابراین، توسعه مهارتهای SQL قوی به شما این امکان را میدهد که تحلیلها، تجسمها و مدلسازی خود را به سطح بعدی ببرید زیرا شما قادر خواهید بود دادهها را به روشهای پیشرفته استخراج و دستکاری کنید.
من مدتی قبل با برنامهدرسی Mode آشنا شدم و این فوقالعاده است! بنابراین من اول با استفاده از SQL در Mode آشنا شدم. شما نیز پس از آن میتوانید موضوعات زیر را بررسی کنید!
هفته ۱۳: SQL پایه
هفته ۱۴: عملگرهای منطقی و مقایسهای
هفته ۱۵: توابع جمع
هفته ۱۶: DISTINCT، CASE WHEN
هفته ۱۷: پیوندها و اتحادها
هفته ۱۸: پرسوجوها و عبارات جدول مشترک
هفته ۱۹: دستکاریهای رشتهای
- توابع رشتهای در SQL (LEFT / Right، TRIM، strPOS، SUBSTR، CONcat، UPPER / LOWER و غیره …)
هفته ۲۰: دستکاری تاریخ-زمان
برای عملگرهای بیشتر به اینجا مراجعه کنید.
هفته ۲۱: توابع ویندوز
- توابع ویندوز (ROW_NUMBER(), RANK(), DENSE_RANK(), LAG, LEAD, SUM, COUNT, AVG)
برای توابع ویندوز پیشرفته اینجا را ببینید.
پایتون و برنامهنویسی
چرا پایتون مهم است؟
من با پایتون شروع کردم، و احتمالا تا آخر عمرم با پایتون خواهم بود. از نظر مشارکتهای منبع باز بسیار جلوتر است و یادگیری آن ساده است. اگر بخواهید میتوانید باR همراه شوید، اما من هیچ نظر یا توصیهای برای ارائه در مورد R ندارم.
هفته ۲۲: مقدمهای بر پایتون
هفته ۲۳: فهرست، ضربها، توابع، عبارات شرطی، مقایسه
هفته ۲۴: دیکشنریها، حلقهها، نظرات
هفته ۲۵: خواندن فایلهای نوشتاری، کلاسها و اهداف
هفته ۲۶: بازگشت
هفته ۲۷: درخت باینری
هفته ۲۸: API ها و Anaconda
پانداس
چرا پانداس مهم است؟
مسلما مهمترین کتابخانهای که باید در پایتون شناخته شود، پانداس است که به طور خاص برای دستکاری و تحلیل دادهها مورد استفاده قرار میگیرد.
هفته ۲۹: دریافت و شناخت دادههای خود
هفته ۳۰: فیلتر کردن و مرتبسازی
هفته ۳۱: گروهبندی
هفته ۳۲: Apply
هفته ۳۳: ادغام
تصویرسازی دادهها
چرا تصویرسازی داده مهم است؟
توانایی تجسم دادهها و بینشها بسیار مهم است، زیرا سادهترین راه برای برقراری ارتباط اطلاعات پیچیده و بسیاری از اطلاعات در یک زمان است. به عنوان یک دانشمند داده، شما همیشه خودتان و ایدههای خود را میفروشید، چه پروژه جدیدی را آماده کنید و چه دیگران را متقاعد کنید که چرا مدل شما باید تولید شود - تصویرسازی داده یک ابزار عالی برای کمک به شما در این زمینه است.
دهها کتابخانه تجسم داده در آنجا وجود دارد، اما من بر روی دو مورد تمرکز میکنم: Matplotlit و Plotly.
هفته ۳۴: تصویرسازی داده با Matplotlib
هفته ۳۵: تصویرسازی داده با Plotly
اکتشاف و آمادهسازی داده
چرا اکتشاف و آمادهسازی داده مهم است؟
مدلهایی که شما ایجاد میکنید تنها میتوانند به خوبی دادههایی باشند که شما در آن وارد میکنید. برای درک اینکه وضعیت دادههای شما در چه شرایطی هستند، برای مثال آیا «خوب» است یا نه، شما باید دادهها را بررسی کرده و دادهها را آماده کنید. بنابراین، برای چهار هفته آینده، من قصد دارم چندین منبع شگفتانگیز را برای شما فراهم کنم تا بتوانید از آنها عبور کرده و درک بهتری از آنچه که اکتشاف و آمادهسازی دادهها مستلزم آن است، به دست آورید.
هفته ۳۶: تحلیل دادههای اکتشافی (EDA)
تحلیل دادههای اکتشافی (EDA) میتواند دشوار باشد، زیرا هیچ راهی برای انجام آن وجود ندارد - اما این چیزی است که آن را هیجانانگیز نگه میدارد. به طور کلی، شما میخواهید:
- آمار توصیفی کمی (گرایش مرکزی) استخراج کنید.
- تجزیه و تحلیل تک متغیره (توزیع و پخش) انجام دهید.
- تجزیه و تحلیل چند متغیره (پلات های پراکنده، ماتریس همبستگی، نمره توان پیشبینی و غیره …) انجام دهید.
- دادههای گمشده و دادههای پرت را بررسی کنید.
به این راهنمای EDA برای یک مبتدی نگاه کنید.
هفته ۳۷: آمادهسازی دادهها: جایگزینی ویژگیها و نرمالسازی
- جایگزینی ویژگیها چیست؟
- ۶ راه برای جایگزینی دادههای گمشده
- نرمالسازی در برابر استانداردسازی
- مثال اجرای هنجارسازی در مقابل استانداردسازی
هفته ۳۸: انتخاب ویژگی و مهندسی ویژگی
هفته ۳۹: مجموعه دادههای نامتعادل
یادگیری ماشینی
چرا یادگیری ماشینی مهم است؟
هر چیزی که یاد گرفتهاید منجر به این مرحله شدهاست! نه تنها یادگیری ماشینی جالب و هیجانانگیز است، بلکه مهارتی است که همه دانشمندان داده دارند. درست است که مدلسازی بخش کوچکی از زمان یک دانشمند داده را تشکیل میدهد، اما از اهمیت آن کم نمیشود.
بعدا در حرفه شما ممکن است متوجه شوید که من برخی از الگوریتم های یادگیری ماشینی مانند K Nearest همسایهها، Gradient Boost، و CatBoost را کنار گذاشتم. این کاملا عمدی است - اگر بتوانید مفاهیم یادگیری ماشینی زیر را درک کنید، مهارتهایی برای یادگیری هر الگوریتم یادگیری ماشینی دیگری در آینده خواهید داشت.
هفته ۴۰: مقدمهای بر یادگیری ماشینی
هفته ۴۱: رگرسیون خطی
هفته ۴۲: رگرسیون منطقی
- مقدمهای بر رگرسیون منطقی
- بخش ۱: ضرایب
- بخش ۲: احتمال ماکزیمم (Maximum likelihood)
- بخش ۳: مربع R و مقدار P
هفته ۴۳: Regularization
هفته ۴۴: درخت تصمیمگیری
هفته ۴۵: Naïve Bayes
- توضیح ریاضی Naïve Bayes
- واراینس-بایاس/ Naïve Bayes (StatQuest)
هفته ۴۶: ماشینهای بردار پشتیبان
هفته ۴۷: خوشهبندی
هفته ۴۸: تجزیه و تحلیل اجزای اصلی
- تحلیل مولفه اصلی (PCA) گامبهگام
- یک توضیح مفصل دیگر توسط لوئیس سرانو (من به شدت پیشنهاد میکنم که شما هر دو را تماشا کنید)
- توضیح ریاضی PCA
هفته ۴۹: Bootstrap Sampling, Bagging, و Boosting
هفته ۵۰: جنگلهای تصادفی و سایر درخت Boosted
- جنگلهای تصادفی، بخش ۱
- جنگلهای تصادفی، بخش ۲
- مورد XGBoost- رگرسیون
- مورد XGBoost-طبقهبندی
- مورد XGBoost - جزئیات ریاضی
- مورد XGBoost در پایتون
هفته 51: معیارهای ارزیابی مدل
هفته ۵۲: پروژه علوم داده
اگر با مطالب بالا احساس راحتی میکنید، قطعا آماده شروع پروژه علوم داده خود هستید! فقط در این صورت، من سه ایده ارائه کردهام که میتوانید از آنها به عنوان موارد الهامبخش برای شروع استفاده کنید. اما کاری را انجام دهید که دوست دارید.
ایده ۱: مطالعه موردی SQL
هدف از این مورد تعیین علت کاهش مشارکت کاربر برای یک شبکه اجتماعی به نام Yammer است. قبل از ورود به دادهها، شما باید مروری بر آنچه که Yammer انجام میدهد را در اینجا بخوانید. چهار جدول وجود دارد که باید با آنها کار کنید.
ارتباط با مورد بالا، جزئیات بیشتری در رابطه با مشکل، داده، و سوالاتی که باید پاسخ داده شوند به شما خواهد داد.
اگر راهنمایی میخواهید، در اینجا بررسی کنید که من چطور به این مطالعه موردی نزدیک شدم.
مهارتهایی که رشد خواهید کرد:
- زبان SQL
- تجزیه و تحلیل دادهها
- تجسم دادهها اگر بخواهید دیدگاههایتان را تجسم کنید.
ایده ۲: جستجوی وب Trustpilot
یادگیری نحوه انتشار داده برای یادگیری ساده و بسیار مفید است، به خصوص زمانی که بحث جمعآوری داده برای پروژههای شخصی باشد. جستجوی یک وب سایت برای بررسی نظرات مشتری، مانند Trustpilot، برای یک شرکت ارزشمند است زیرا به آنها اجازه میدهد تا بررسی روندها (بهتر یا بدتر شدن) را درک کنند و ببینند که مشتریان از طریق NLP چه میگویند.
ابتدا با نحوه سازماندهی Trustpilot آشنا شدم و تصمیم گرفتم که کدام نوع کسب و کارها را تجزیه و تحلیل کنم. بعد نگاهی به این بررسی که چطور باید نظرات Trustpilot را استخراج کنم، انداختم.
مهارتهایی که رشد خواهد کرد:
- نگارش اسکریپتهای پیتون
- تنظیم دادهها
- کتابخانههای BeautifulSoup / Selenium (کتابخانه های استخراج داده از وب)
- تجزیه و تحلیل دادهها
این کار را بیشتر انجام دهید و از NLP برای استخراج بینشهایی از نظرات استفاده کنید.
ایده ۳: مسابقه یادگیری ماشینی تایتانیک
به نظر من، هیچ راهی بهتر از این وجود ندارد که نشان دهید برای یک کار علمی داده آماده هستید تا این که کد خود را از طریق رقابتها به نمایش بگذارید. کاگل میزبان رقابتهای مختلفی است که شامل ساخت مدلی برای بهینهسازی یک معیار خاص است که یکی از آنها رقابت یادگیری ماشینی تایتانیک است.
اگر میخواهید کمی الهام و راهنمایی به دست آورید، این راهنمای گامبهگام را در یکی از راهحلها بررسی کنید.
مهارتهایی که رشد خواهند کرد:
- اکتشاف و پاکسازی دادهها با پانداس
- مهندسی ویژگی
- مدلسازی یادگیری ماشینی
سخن پایانی
امیدوارم این مقاله برای شما مفید بوده باشد! اگر موفق به انجام این کار شدید، باید درک قوی از اصول آمار، ریاضیات، SQL، پایتون / پاندا، و چندین الگوریتم یادگیری ماشین داشته باشید!
امیدوارم این راهنما الهامبخش شما برای ادامه یادگیری نیز باشد - چیزهای زیادی وجود دارند که شما میتوانید به کشف آنها ادامه دهید. مانند مدلهای پیشرفتهتر، آموزش عمیق، طراحی تجربی، مدلسازی بیزی، معماری ابری و لیست ادامه دارد.
در صورتی که تمایل دارید مقالات لینک داده شده در این مقاله ترجمه شود و در اختیار شما عزیزان قرار بگیرد، در کامنتها ما را مطلع نمایید.
این متن با استفاده از ربات مترجم مقاله علوم دیتا ساینس ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند بهصورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
شبکه عصبی کانولوشن چیست؟ آموزش مبتدی برای یادگیری ماشینی و یادگیری عمیق
مطلبی دیگر از این انتشارات
ارزیابی خسارات مبتنی بر یادگیری ماشین برای امدادرسانی به آسیبدیدگان
مطلبی دیگر از این انتشارات
ترفند جادویی کلاسیک میتواند محاسبات کوانتومی را ممکن سازد