Everyone is talented
چطور Data Science رو شروع کنیم ؟ (Road Map CMD6)
شغلهای حوزه تکنولوژی با توجه به تاثیر شگرفی که در زندگی ما گذاشته، برای افراد بسیار زیادی جذاب به نظر میرسد، بهخصوص برای افرادی که قصد ورود به وارد بازار کار دارند، البته Data Science به دلیل ترند بودن خواهان بیشتری دارد. اگر با دیتا و کارکردن با آن لذت میبرید و به آمار و احتمال علاقهمند هستید، Data Science میتواند در لیست شغلهای مورد علاقه شما قرار بگیرد اما بهتر است، ویژگیهای فردی خودتون رو بهتر بشناسید و کمی با خودتون رو راست باشید و برای انتخاب درستتر، قسمت ابتدایی سری اول مجموعه مقالات RoadMap CMD رو بخونید تا مثل بیشتر افراد شاغل وقتی مشغول کار هستید، عذاب نکشید. ?
این مقاله به کمک: علی شاهد حق قدم (Principal Data Scientist at Freedom Financial Network)، علی موسوی(AI Resident at Google Brain)، کیوان ابراهیمی (Senior Data Scientist at View Inc)، مجید ابوالقاسمی(Data Scientist at Digikala.com) و امیر واهب(Data Scientist & Machine Learning Engineer at SabaIdea) نوشته شده و از زحماتشون متشکرم.
دیتا ساینس ؟ Data Science ؟ دانشمند داده ؟ ?
در حال حاضر در ایران بیشتر فعالیت دانشمندان داده (Data Scientists) استخراج و کار با دادههایی است که از یک وب سایت یا اپلیکیشن استخراج میشود، درحالی که داده میتواند از سنسورها، سیستمهای صنعتی، پژوهشهای اجتماعی یا … استخراج شود، همچنین میتواند عددی یا غیرعددی باشد. شرکتی که کیوان ابراهیمی مشغول به کار هست، بیشتر بروی دیتاهایی که از سیستمهای صنعتی جمعآوری میشود، کار میکنند.
دیتا ساینس (Data Science) باعث بصیرت افزایی از دادهها میشود ?، یعنی با کشف روابط و معانی بین آنها اطلاعات مفید و قابل فهمی استخراج میکند که در نهایت به تحلیل و تصمیمگیری درست منجر میشود.
دیتا ساینس (Data Science)، یک ترکیب چند رشتهای است، از جمله رشتههای آمار و احتمال و آنالیز عددی، که با جمع آوری دادهها، پیش پردازش دادهها، آماده سازی دادهها، تحلیل ویژگیها، ماشین لرنینگ و کار با الگوریتمها، منجر به کشف روابط و معانی بین دادهها میشود.
آنچه از Data Science تصور میشود کار با الگوریتم و ماشین لرنینگ است درحالی که بیشتر زمان یک Data Scientist صرف جمع آوری و پردازش دادهها میشود به همین دلیل مهم است که عاشق دیتا و کار با آن باشید.
درحال حاضر Data Science مورد تهدید هست یا بیشتر یه فرصت بهحساب میاد ؟
باتوجه به وفور دادهها، فرصتهای شغلی بسیاری در این حوزه وجود دارد که ممکن است باعث سر در گمی شود. ممکن است پروژههای ترند جذاب بهنظر برسند اما بعد ورود، از پروژه خسته و دل و دماغ کار کردن نداشته باشید.
باوجود دورههای کوتاه مدتی که وعده متخصص شدن در کوتاه مدت را میدهند، انتظار شما را بالا میبرند درحالی که Data Science از چند رشته تشکیل شده و نیاز به یادگیری پیوسته در طولانی مدت داره و صرفا به دانستن الگوریتمهای ماشین لرنینگ و قدرت برنامه نویسی ختم نمیشود، به همین دلیل نیازمند مطالعه و تلاش مداوم هست.
برای هر کسب و کاری، رقبایی وجود دارد که باعث میشود مدیران کسب و کارها تصمیمهایی برپایه دادههای دقیق بگیرند، از این رو نیاز به Data Science در کسب و کارها به شدت احساس میشود اما انتظارهای غیر واقعی شرکتها، اعتماد به این حوزه را کم رنگتر میکند.
دیتا ساینس (Data Science) یکی از موضوعات ترند جامعه تکنولوژی بهحساب میآید و به سرعت درحال بروز رسانی و پیشروی است بههمین دلیل نیازمند مطالعه و یادگیری مداوم است. (از مقالاتی که در کنفرانسها ارائه میشه، غافل نشید)
دانشگاه پایههای اصلی است ؟ ????
صحبتی که درحال حاضر دربارهی دانشگاه و خواندن رشته تحصیلی مرتبط مطرحه، به مهم نبودن مدرک تحصیلی اشاره میکند. این موضوع در صحبتهای بیشتر افرادی که در دنیای تکنولوژی فعال و معروف هستند، وجود دارد و همواره به گفتههای این افراد استناد میشود؛ همچنین در فیلمهایی که موضوع استارتآپ و تکنولوژی در آنها مطرح است.( مثل سریال سیلیکون ولی )
https://twitter.com/elonmusk/status/1224043531951583233
نمیتوان گفت مرتبط بودن رشته تحصیلی مهم نیست اما ضروری هم نیست. درصورتی که رشته تحصیلی مرتبط داشته باشید، پیشنیازهایی مانند آمار و احتمال، جبر خطی، تئوری تخمین و اکتشاف (Estimation and detection theory)، مهارت حل مسئله، ساختمان داده و الگوریتم، پروسههای اتفاقی و برنامه نویسی رو درصورتی که در دانشگاه بهخوبی گذرانده باشید مسیر پیشرو، مسیر آسانتری هست اما درصورت مرتبط نبودن رشته تحصیلی هم میتوانید با تلاش بیشتر کاستیها را جبران کنید.
دیتا ساینتیست چه مهارتهایی باید داشته باشد ؟
یکی از مهارتهایی که کمتر مورد توجه است، فرایند مطرح کردن سوال و پاسخ دادن به سوال با استفاده از ابزارهاست اما مهمتر از اینها، توضیح ساده و قابل فهم پاسخ سوال به سایر افراد هست.
از جمله مهارتهایی که دیتا ساینتیست باید داشته باشه:
- قدرت برنامه نویسی(آشنایی با یکی از زبانهای Python و R )
- آشنایی با الگوریتمها و تئوریهای ماشین لرنینگ
- آشنایی با پایگاههای داده
- تسلط نسبی بر آمار و احتمال
- آشنایی با ابزارهایی مانند: numpy ,pandas ,tensorflow، keras ,scikit-learn ,matplotlib
- آشنایی با ابزارهای بیگ دیتا مانند spark و hadoop
- مهارت حل مسئله
- مصور سازی دادهها
ویژگیهای فردی یک دیتا ساینتیست
به دلیل مهم بودن خروجی دادهها و تاثیری که در تصمیم گیریهای مدیران در کسب و کار دارد، نیازمند دقت فراوان، جزئی نگری و داشتن یک تصویر کلی از مسئله هست. ممکنه برای بدست آوردن پاسخ یک مسئله، مدت زمان زیادی، روی یک مسئله تمرکز کنید به همین دلیل صبر و پشتکار میطلبه و حل اون مسئله نیاز به خلاقیت و جسارت دارد؛ همچنین پس از حل مسئله به اولین جواب نیز اکتفا نکنید. شاید هم باید عاشق دیتا باشید که در کنار اون حس کنجکاوی و اکتشاف برانگیخته شود.
برای شروع چه مهارتهایی یاد بگیریم؟
- برا یادگیری Python میتونید در دورههای مقدماتی و پیشرفته جادی یا دوره Coursera, Udemy یا edx شرکت کنید. همچنین این مقاله از جادی، برای شروع Python هم مطالعه کنید.
دورهها و بوت کمپهای متعددی برای یادگیری مهارتهای دیتا ساینس وجود داره که در بین آنها میتوان به این بوت کمپها اشاره کرد.
دورههای آنلاین دانشگاههای Stanford و MIT در یوتیوب هم مفید هستند.
اگر امکان پرداخت هزینهی دورههای Kaggle براتون وجود داره، حتما شرکت کنید.
همواره مطالعه کنید و بروز باشید.
- مقالات arxiv منبع خوبی هست اما توجه کنید که هنوز این مقالات ریویو نشدن.
- مقالاتی که در کنفرانسهای معتبر ارائه میشه میتونه کمک کنه مثل کنفرانس ICEFR و ICML.
- مقالاتی که در Medium منتشر میشه.
- مقالات towards.
- مقالات analyticsvidhya.
- همچنین میتونید از سرویس scholar.google.com استفاده کنید تا مقالات بروز براتون ارسال بشه.
در این کانال یوتیوب هم چندتا از دورههای دانشگاه MIT منتشر میشه.
کانال یوتیوب Deep Mind هم که از شرکتهای زیر مجموعه گوگل هست، ویدئوهای آموزشی منتشر میکنه.
سایت analyticsvidhya یک مقاله دربارهی مسیر یادگیری Data Science در سال ۲۰۱۹ منتشر کرده و دربارهی مهارتهایی که باید یادبگیرید توضیح داده اما Road map گرافیکی که در کنار این مقاله منتشر شده، مسیر یادگیری رو پله پله ترسیم کرده و خیلی مفید هست.
در این Repository توضیح کامل و خیلی جامعی در مورد Data Science داده شده، از پادکست، کتاب، اکانت توییتر گرفته تا کانال تلگرام و یوتیوب و مجله، اما بهتره تصمیم نهاییتون رو بگیرید و شروع کنید و پله پله پیشرفت کنید. فراموش نکنید که از انجام پروژه غافل نشید و خیلی هم غرق در آموزش و ویدئو دیدن نشید، چون بخشی از یادگیری از انجام پروژه حاصل میشه.
توصیه علی: مثل هر کار دیگه، اگر قصد دارید در دیتا ساینس پیشرفت کنید باید وقت بذارید. راه میان بر نداره، هر کی گفت داره،یا کلاهبرداره یا نمی دونه چی داره میگه.
این مطلب ششمین مطلب از سری مطالب Road Map CMD است که هریک دربارهی یک حرفه است. این مطالب برای کمک به افرادی است که شغلی را دوست دارند اما نمیدانند چگونه مسیر را شروع کنند.
مطلبی دیگر از این انتشارات
یادگیری عمیق با کراس - بخش اول (مقدمه)
مطلبی دیگر از این انتشارات
سیستم های پیشنهاد دهنده برای ویرگول؟
مطلبی دیگر از این انتشارات
یادگیری ماشین (بخش اول) - معرفی