سید رفیع موسوی نیا
سید رفیع موسوی نیا
خواندن ۶ دقیقه·۳ سال پیش

کوتاه ترین راه تبدیل شدن به یک دانشمند داده جونیور

سلام

این اولین پست من در ویرگول هست.

من حدود 9 ماه فقط دنبال یه رودمپ(roadmap)خوب برای علم داده می گشتم و ممکنه هرکسی باشه بگه آخه این چه کاریه؟یه کورس شروع کن بعد تا تهشو بگیر دیگه!

نمیتونم بگم استدلال این افراد غلطه ولی من ترجیح میدم وقتی 30 ساعت برای بریدن یک درخت وقت دارم،به جای اینکه یه راست برم درختو قطع کنم یه چند ساعت حداقل تبرمو تیز کنم!

توی این مدت به کوتاه ترین رودمپ ممکن برای تبدیل شدن به یک دیتاساینتیست جونیور شدن رو پیدا کردم.

نکته دیگه ای که حائز اهمیته اینه که ممکنه بگین جونیور شدن که کاری نداره!

این حرف از پایه غلطه!چون اکثر کورس هایی که وجود دارن هم شما رو تا سطح جونیور میبرن و برای مید یا سنیور شدن باید وارد بازار کاربشین و در کنارش هر روز چیزی به علمتون اضافه کنین.


نکته ی آخر مقدمه م هم اینه که من در اینجا یه سری سایت ایرانی معرفی کردم ولی قصد تبلیغ هیچ کدوم رو ندارم و صرفا به محتوای این سایت ها بیشتر حال کردم و از یه جا به بعد هم بیشتر سایت های خارجی رو معرفی کردم.



اول از همه باید بگم دیتاساینس(data science) چیه اصن؟

اکثر جاها میگن که دیتاساینس ترکیبی از ریاضیات و آمار،علوم کامپیوتر و بیزینس است که تقریبا هم درسته!

اما لفظ (data science) در حقیقت از دو کلمه ی داده کاوی(data mining) و علم کامپیوتر(computer science) تشکیل شده یعنی شما باید یک داده کاو باشین که کد زدن بلده!پس اگه پایتون بلد نیستین همین الان پاشین برین یاد بگیرین!

توجه(اگر زبانتون خوبه که خوش بحالتون! ولی اگه زبانتون تعریفی نیست از الان زبان خوندن رو هم کنارش شروع کنین)

پس:

گام اول:پایتون خالص(pure python) و داده کاوی تئوری (زمان تخمینی: دو هفته الی یک ماه)

1.1:پایتون

منظور از پایتون خالص چیه؟

منظور اون پایتونیه که شما فارق از هدفتون از اون زبون(وب،امنیت،هوش مصنوعی،علم داده،...) باید بلد باشین که شامل موارد زیر میشه:

  1. متغیر ها و عملگر ها
  2. شرط ها
  3. حلقه ها
  4. توابع
  5. لیست ها،تاپل ها،مجموعه ها و دیکشنری ها
  6. رشته ها
  7. کار با فایل
  8. شیئ گرایی و ارث بری
  9. تفکر الگوریتمیک


برای 8 مورد اول من آموزش ویژن آکادمی رو پیشنهاد میدم تو یوتوب که خودمم با اون یاد گرفتم و کلا تو سه ساعت همه پیور پایتون مقدماتی رو میبنده حالا پایتون پیشرفته رو فعلا لازم نیست یاد بگیرین!وقتی جونیور شدین آروم آروم یاد میگیرین و کلا تو مسیر جونیور شدن سعی نکنید رو یه مبحث خیلی گیر کنین فقط رد بشید و برید البته نه اینکه خوب یاد نگیرین!مطالب مهمو خوب درک کنین ولی مثلا لازم نیست برین کلی از مباحث پیشرفته پایتون رو فعلا یاد بگیرین.فعلا هم به کتابخونه های پایتون کاری نداشته باشین.

لینک ویژن آکادمی:

https://youtu.be/hSt3_2T6DMU

اما برای مرحله 9 من دو تا پیشنهاد دارم:

  1. کتاب الگوریتم و فلوچارت(خود من با کتاب شهریار رسولی پیش رفتم)
  2. دوره مبانی برنامه نویسی و تفکر الگوریتمیک کوئرا(با این دوره خیلی مخم قوی شد ولی واقعا سوالاش سخته)

لینک دوره کوئرا:

https://quera.org/college/land/college/2572/%D8%A2%D9%85%D9%88%D8%B2%D8%B4-%D9%85%D8%B3%D8%A6%D9%84%D9%87%E2%80%8C%D9%85%D8%AD%D9%88%D8%B1-%D9%85%D8%A8%D8%A7%D9%86%DB%8C-%D8%A8%D8%B1%D9%86%D8%A7%D9%85%D9%87-%D9%86%D9%88%DB%8C%D8%B3%DB%8C-%D9%88-%D8%AA%D9%81%DA%A9%D8%B1-%D8%A7%D9%84%DA%AF%D9%88%D8%B1%DB%8C%D8%AA%D9%85%DB%8C/

2.1 : داده کاوی تئوری

منظور از داده کاوی تئوری چیه؟

داده کاوی به خودی خود و بدون کامپیوتر هم معنا داره و ترکیبی از آمار،جبر خطی،الگوریتم،بیزینس و.. هست اما ترکیب خیلی خفنی با کامپیوتر تشکیل میده واسه همین اکثرا فکر میکنن زیر مجموعه ی کامپیوتره.

در اینجا من از شما میخوام که با مفاهیم داده کاوی آشنا بشین و پا به پای پایتون بخونیدش و به عنوان منبع هم سایت چیستیو رو معرفی می کنم که استاد خودم دکتر مسعود کاویانی عزیز نویسنده ی این سایت هستن و واقعا کارشون حرف نداره و هر آنچه که شما از داده کاوی بدون کد نویسی میخواین بهتون میده.

تو سایت چیستیو چهار دوره(داده کاوی،بیگ دیتا،مهندسی و معماری نرم افزار و پایگاه داده) وجود داره که همشون در کل برای علم داده لازمن ولی برای سطح فعلی ما با همون دوره ی اول یعنی دوره ی "داده کاوی و یادگیری ماشین" کار داریم و سعی کنید در کنار پایتون هر روز یا هر هفته(بسته به سطحتون!) یکی از اون 13 ترم رو بخونید.ایشون با نثر کاملا ساده و روان و غنی تمامی مطالب رو به شما تفهیم کردند.

لینک دوره ی داده کاوی و یادگیری ماشین چیستیو:

https://chistio.ir/



گام دوم:پروژه!!!!!(زمان تخمینی:)

الانه که ازم تست الکل بگیرین!!!

-آخه مرد مومن! ما که با کتابخونه ها آشنا نشدیم بعد بریم پروژه بزنیم؟

-بابا من که نگفتم برین کار کنین حتی نگفتم خودتو پروژه بزنین منه بدبخت فقط میگم برین چیزایی که یادگرفتینو توی پروژه ها ببینین.

شما به صورت تئوری با یک فرآیند داده کاوی آشنا شدین حالا وقتشه ببینین در عمل چجوریه اگه برین یه کورس نامپای و پانداس و مت پلات لیب و... بگذرونین مدرس محترم یه طومار از کد های مربوطه میده که خیلیاشون بکار نمیاد ولی شمایی که داری یاد میگیری وسط کار مخت رد میده چون تعداد کد هاش واقعا زیاده پس چیکار میکنین؟

اولا یه گیتهاب واسه خودتون میسازین.

دوما یه کرش کورس حدود دو ساعته از سه کتابخونه ی اصلی یعنی (pandas,numpy,matplotlib) رو میگذرونین تا با کد های اصلیش آشنا بشین(لازم نیست برین واسه هر کدوم یه کورس طولانی بگذرونین فقط قرار سینتکسشون دستتون بیاد!) اینم لینکش:(زمان تخمینی : 1هفته)

https://www.aparat.com/v/ayXvi

یه کتابخونه ی دیگه م که جدیدا کنار اینا جاخوش کرده اسمش سیبورنه(seaborn)که من واسش منبع فارسی رایگان خوب پیدا نکردم ولی عیبی نداره شما مت پلات لیب رو که یاد بگیرین سیبورن رو در حین پروژه یاد میگیرین.


یه سایت هست به اسم فنولوژی که توش یه بنده خدایی پروژه های معروف علم داده رو میاد تو حول و حوش یکی دو ساعت انجام میده شما اونو ببینین و هر پروژه رو حداقل یه هفته روش وقت بذارین ینی اول ویدیوش رو ببینین پا به پاش کد ها رو وارد کنین و بعدش چند روز بشینین اون کدی که زدینو تحلیل کنین اینم لینک پروژه هاش:(زمان تخمینی: 2 ماه)

  1. پروژه تایتانیک: https://fanology.ir/ai-projects/data-scientist-in-titanic
  2. پروژه پیش بینی قیمت مسکن: https://fanology.ir/ai-projects/ai-real-estate-agent
  3. پروژه دیابت: https://fanology.ir/ai-projects/ai-in-diabetes-diagnosis
  4. پروژه کالیفرنیا: https://youtu.be/Qs_KryguG8w
  5. پروژه گل زنبق: https://www.w3resource.com//machine-learning/scikit-learn/iris/index.php
  6. پروژه MNIST:

https://fanology.ir/ai-projects/digit-classification-with-mnist

7.پروژه ریزش مشتریان: https://fanology.ir/churn-prediction-using-machine-learning


5 6 تا (یا حتی شایدم کمتر) پروژه که ببینین روند پروژه میاد دستتون و سینتکس ها اصلی رو حفظ میشین بقیهی سینتکس ها رو هم با چیت شیت(cheat sheet) ها میتونین زیر دستتون داشته باشین که بهترین چیت شیت ها تو سایت دیتا کمپ(datacamp) هستن:

چیت شیت نامپای:

http://datacamp-community-prod.s3.amazonaws.com/ba1fe95a-8b70-4d2f-95b0-bc954e9071b0

چیت شیت پانداس:

http://datacamp-community-prod.s3.amazonaws.com/f04456d7-8e61-482f-9cc9-da6f7f25fc9b

خزش دیتا با پانداس:

http://datacamp-community-prod.s3.amazonaws.com/d4efb29b-f9c6-4f1c-8c98-6f568d88b48f

چیت شیت کراس:

http://datacamp-community-prod.s3.amazonaws.com/af9bb467-170d-41c9-a0bd-26e675384c4e

چیت شیت مت پلات لیب:

http://datacamp-community-prod.s3.amazonaws.com/e1a8f39d-71ad-4d13-9a6b-618fe1b8c9e9

چیت شیت سایکیت لرن:

http://datacamp-community-prod.s3.amazonaws.com/eb807da5-dce5-4b97-a54d-74e89f14266b

چیت شیت سیبورن:

http://datacamp-community-prod.s3.amazonaws.com/263130e2-2c92-4348-a356-9ed9b5034247

چیت شیت اسپاسی:

http://datacamp-community-prod.s3.amazonaws.com/b5685b85-c4de-4987-926d-b999d0f5a8b6

چیت شیت سای پای:

http://datacamp-community-prod.s3.amazonaws.com/dfdb6d58-e044-4b38-bab3-5de0b825909b



حالا با دونستن مفاهیم و روند یک پروژه و همچنین در اختیار داشتن چیت شیت ها اولین پروژه ی مستقل خودتون رو آغاز می کنین ولی قبلش پیشنهاد میشه که دوره های رایگان سایت کگل رو بگذرونید تا تسلطتون از اینی که هست هم بالاتر بره و چون دوره هاش بر روی پروژه هستن خیالتون راحت باشه که از پروژه دور نمیشین و حتی چنتا پروژه هم تو این دوره ها میزنین علاوه بر اون بهتون به رایگان سرتیفیکیت هم میده که میتونه به رزومتونم کمک کنه.فقط فیلتره!(زمان تخمینی: 2ماه و نیم)

دوره پایتون:

https://www.kaggle.com/learn/python


دوره پانداس:

https://www.kaggle.com/learn/pandas


دوره مصورسازی:

https://www.kaggle.com/learn/data-visualization


دوره پاکسازی داده ها:

https://www.kaggle.com/learn/intro-to-machine-learning


دوره یادگیری ماشین مقدماتی:

https://www.kaggle.com/learn/intro-to-machine-learning


دوره یادگیری ماشین متوسط:

https://www.kaggle.com/learn/intermediate-machine-learning


دوره مهندسی ویژگی:

https://www.kaggle.com/learn/feature-engineering


دوره ی سری زمانی:

https://www.kaggle.com/learn/time-series


دوره ی یادگیری عمیق مقدماتی:

https://www.kaggle.com/learn/intro-to-deep-learning


دوره ی بینایی کامپیوتر:

https://www.kaggle.com/learn/computer-vision


الان ممکنه بگین یا خود خداااا!چه همه!!!! نترسین دوره های کگل چهار ساعت بیشتر نیستن و ینی با روزی نیم ساعت یه هفته ای هر کورسش تمومه.که با این اوصاف دو ماه بیشتر وقت عزیزتون رو نمیگیره.




حالا نوبتیم باشه نوبت پروژه اس که خودتون دست به کار بشین! دیگه اینجای کار شما یه جعبه ابزار تئوری و یه جعبه ابزار عملی خوب در اختیار دارین که میتونین باهاش پروژه های زیادی رو انجام بدین ولی من اینجا پیشنهاد میدم که رو این سه تا دیتاست تحلیل انجام بدین:(زمان تخمینی: 1 ماه و نیم)

  1. مجموعه داده‌ی سرقت بیتکوین با استفاده از باج افزار
  2. مجموعه داده تشخیص وضعیت‌های مختلف انسان با استفاده از سنسورهای حرکتی
  3. مجموعه داده‌ی Abalone (پیش‌بینی سن صدف‌های دریایی)



گام سوم:یادگیری را ول نکنید!

حالا شما از پس پروژه ها به خوبی بر میاین ولی مطالعه و کورس دیدن و پروژه زدن رو فراموش نکنین حالا میتونین قبل از ورود به بازار کار به عنوان استخدامی کار خودتون رو به عنوان فریلنسر شروع کنید ولی در کل...

اگه از این ویرگول استقبال بشه یا اگه حوصله م یاری کنه شاید یه ویرگول هم برای مید لول گذاشتم و یکی هم برای کار کردن و تقویت کانکشن و رزومه.

کل این روند که گفتم حدود هفت ماه وقت میگیره که برای دیتاساینتیست شدن جونیور مدت زمان بسیار کمی محسوب میشه.


پ.ن:برای زبان میتونین زبان تخصصی کامپیوتر رو بخونین و برای 4 مهارت اصلی بهتون دوره ی تافل 120 اسکورایز رو معرفی می کنم.





علم دادهدیتاساینسدانشمند دادهدیتاستکگل
منطقی از نوع فازیش
شاید از این پست‌ها خوشتان بیاید