مهرداد مقصودی
مهرداد مقصودی
خواندن ۸ دقیقه·۵ سال پیش

چگونه یادگیری علم داده را شروع کنیم؟

مقدمه:

علم داده یکی از داغ‌ترین و پر بحث‌ترین مباحث این روزهاست، علمی‌ که در آن تحلیل داده‌های ساخت‌یافته و غیر‌ساخت‌یافته با هدف کسب دانش و بینش دنبال می‌شود و وب‌سایت HBR آن‌را "جذاب‌ترین شغل قرن بیست و یکم " می داند. اهمیت و جذابیت این علم باعث شده است که هر روزه بر یادگیرندگان این علم افزوده شود اما چالشی که علاقه‌مندان به این علم با آن درگیر هستند مسیر درست یادگیری این علم می‌باشد. منابع و وب‌سایت های بسیاری به ارائه مسیر یادگیری علم داده پرداخته اند که معمولا منابع یادگیری معرفی شده در آنها، کتاب‌ها و دوره‌های موسسات و دانشگاه‌های مطرح دنیا می باشد که تهیه و شرکت در آن‌ها همواره با چالش‌هایی همچون فارسی نبودن، غیر رایگان بودن و تحریم کشور ایران روبه‌رو است. در این نوشتار قصد معرفی مسیری ساده، کم‌هزینه، مجرب و قابل دسترس برای یادگیری علم داده را داریم.

  • گام اول: آمار و احتمال

یکی از مبنایی ترین و مهم ترین لوازم یادگیری علم داده ، آمار می باشد. علاقه‌مندان به یادگیری علم داده نیازمند آشنایی با شاخص‌های توصیفی آمار ،روش‌های نمونه برداری، کوواریانس و ضریب همبستگی، توزیع‌های آماری، تئوری بیزین و... می باشند که معمولا در همه‌ی منابع فارسی آموزش آمار و احتمال مهندسی یافت می‌شوند. اگر با این مفاهیم آشنا نیستید و یا قصد مرور این مفاهیم را دارید، فصل دوم کتاب " مفاهیم و تکنیک‌های داده‌کاوی" نوشته دکتر مهدی اسماعیلی منبع مناسبی برای یادگیری می باشد. فایل این کتاب در اینترنت بصورت رایگان انتشار یافته است و قابل دانلود می‌باشد.


  • گام دوم: یادگیری ماشین

الف.آشنائی: کتاب "داده‌کاوی کاربردی" که توسط دکتر صنیعی آباده و دیگر همکارانش تدوین شده و توسط انتشارات نیاز دانش به چاپ رسیده است، با قلمی بسیار آسان و شیوا به آموزش مفاهیم داده‌کاوی و یادگیری ماشین پرداخته است. این کتاب علاوه بر آموزش مفاهیم به آموزش نرم افزار داده کاوی Rapid Miner نیز پرداخته است که در این مرحله نیازی به خواندن این مطالب نمی باشد و مطالعه 200 صفحه ابتدایی این کتاب درک مناسبی از مفاهیم یادگیری ماشین به شما ارائه می‌دهد.

ب.تسلط: بعد از مطالعه کتاب "داده کاوی کاربردی" نوبت به عمق بخشی و تسلط به مبانی یادگیری ماشین می‌رسد که کتاب " مفاهیم و تکنیک‌های داده کاوی" که در گام اول به آن اشاره شد منبع بسیار خوب و جامعی می باشد.

  • گام سوم: زبان برنامه نویسی

یکی از ملزومات اساسی و افق‌آفرین علم داده تسلط بر زبان‌های برنامه نویسی مورد نیاز این علم است. آموختن زبان برنامه‌نویسی در علم داده به مثابه مجهز شدن به ابزار نامحدودی برای انجام کارهای متعدد در این علم می باشد. نمودار زیر بیست توانمندی پرتقاضا برای دانشمندان علم داده را به تصویر می‌کشد.این نمودار از تحلیل محتوای آگهی‌های استخدام سایت‌های معتبر استخدام استخراج و توسط وب‌سایت معتبر towards data science منتشر شده است. همانطور که می بینیم دو زبان برنامه‌نویسی Python و R مهم‌ترین توانمندی برنامه‌نویسی متخصصان علم داده می‌باشد.

که البته با استناد به نظرسنجی زیر که در سایت kdnuggets منتشر شده است، زبان برنامه‌نویسی پایتون علاوه بر اهمیت بیشتر نسبت به زبان R، از سرعت رشد بالاتری نیز در علم داده برخوردار است و به جهت یادگیری از اولویت بالاتری برخوردار می‌باشد و به همین جهت در این نوشتار به معرفی منابع آموزشی زبان پایتون اکتفا می‌نمائیم.

زبان Python:

الف:آشنائی: برای آشنائی با این زبان برنامه نویسی دوره تصویری آنلاین و رایگان " پایتون مقدماتی " که توسط آقای جادی میرمیرائی و در سایت gotoclass.ir منتشر شده است منبع بسیار خوبی است.

ب:تسلط: برای تسلط و آشنائی حرفه‌ای با زبان برنامه نویسی پایتون دوره " برنامه‌نویسی با پایتون (پیشرفته)" که باز هم توسط جادی میرمیرانی ارائه و در سایت مکتبخونه منتشر شده است توصیه می‌گردد. اهمیت این دوره بیشتر به جهت مطرح شدن مباحثی پیرامون نحوه کار با پایگاه‌های داده و API است.

یادگیری ماشین در پایتون:

بعد از آشنائی و یادگیری زبان برنامه نویسی پایتون باید به کتابخانه‌های مهم علم داده در این زبان تسلط یافت. این کتابخانه‌ها مجموعه ای از کدهای از پیش نوشته شده و آماده می باشند که ابزارها و روش‌هایی را برای کاربردهای مختلف در اختیار ما می‌گذارند و به قول معروف ما را از " اختراع دوباره چرخ" باز می دارند. مهم‌ترین کتابخانه های علم داده در پایتون در شکل زیر ذکر شده اند. این نمودار از بررسی سایت Github تهیه و توسط سایت ActiveWizards منتشر شده است.

Top 20 Python libraries for data science in 2018
Top 20 Python libraries for data science in 2018

برای آشنائی با کاربرد کتابخانه‌های علم داده در پایتون دوره "یادگیری ماشین با پایتون" که توسط جناب آقای مهندس مظلومی‌راد ارائه و در سایت فرادرس منتشر شده است، منبع بسیار خوبی می باشد. در این دوره با کتابخانه‌های NumPy ، Pandas ، matplotlib ، seaborn ، SciPy و scikit learn آشنا خواهید شد.

  • گام چهارم: هوش تجاری

هوش‌تجاری یکی از مهم‌ترین ، پرکاربردترین و جذاب‌ترین حوزه‌های علم داده می‌باشد که دانش‌آموختگان مهندسی صنایع و مدیریت به علت آشنائی با مفاهیم مدیریتی و کسب‌و‌کار نقش‌آفرینان اصلی آن هستند. کاربرد هوش تجاری استفاده هدفمند از اطلاعات برای استخراج داشبوردها و تحلیل ‌های تصمیم ساز مدیریتی می باشد.

بر اساس نمودار زیر که توسط موسسه گارتنر منتشر شده است رهبران اصلی این حوزه دو نرم افزار قدرتمند Power BI و Tableau می باشند که با توجه به روند چند سال گذشته، این دو نرم‌افزار تا سالیان سال نقش پررنگی را در حوزه هوش تجاری خواهند داشت و یادگیری این دو نرم افزار برای متخصصان علم داده الزامی می‌باشد. این دو نرم افزار علاوه بر مصورسازی داده‌ها با استفاده از نمودارهای متنوع ، در محیط خود امکان استفاده از زبان برنامه‌نویسی پایتون را نیز مهیا ساخته اند.

پاور بی‌آی (Power BI):

نرم افزار Power BI محصولی از شرکت ماکروسافت است. این نرم افزار توانسته در مدت کوتاهی که از معرفی آن گذشته به رشد قابل توجهی دست پیدا کند و امکانات کاربردی و قدرتمندی را در اختیار تحلیل‌گران قرار دهد.

الف:آشنائی: بهترین منبع برای یادگیری این نرم افزار آموزش‌های جناب آقای پوریا بغدادی است که از طریق سایت pooryab قابل دریافت می باشد. این دوره تا حد بسیاری نیازمندی علاقه‌مندان به یادگیری این نرم‌افزار را مهیا می سازد.

ب:تسلط: برای تسلط بر این نرم افزار بهر‌ه گیری از دوره تصویری " Microsoft Power BI - A Complete Introduction" که توسط Packtpub منتشر شده است بسیار مفید می باشد. این دوره بطور رایگان از طریق سایت Git.ir قابل دریافت می باشد.

Microsoft Power BI - A Complete Introduction
Microsoft Power BI - A Complete Introduction

تبلوو (Tableau) :

نرم افزار Tableau یکی از قدرتمندترین نرم افزارهای هوش تجاری می باشد که از جهت رابط کاربری و سرعت پردازش مورد تحسین همگان است. یادگیری این نرم افزار بعلت رابط کاربری مناسب آن، بسیار ساده می‌باشد.

الف:آشنائی: " آموزش ویدئویی نرم افزار هوش تجاری Tableau تحلیل داده ها و اخذ تصمیمات" که با بیان جناب مهندس عباس فرمانی تهیه و توسط سایت فرادرس منتشر شده است منبع بسیار خوبی برای آشنائی با این نرم افزار کاربردی و فوق العاده می باشد.

ب:تسلط: برای تسلط بر نرم افزار Tableau بهره گیری از دوره تصویری شرکت Lynda با عنوان " Tableau Essential Training" بسیار اثرگذار خواهد بود. این دوره در قالب 94 ویدئوی کوتاه به آموزش صفر تا صد نرم‌افزار Tableau پرداخته است. این دوره بصورت رایگان و از طریق سایت p30download قابل دریافت می‌-باشد.


  • گام پنجم: نرم افزارهای داده کاوی

یادگیری نرم افزارهای داده کاوی و یادگیری ماشین باعث تسهیل و تسریع استفاده از الگوریتم‌ها و راهکارهای علم داده در جهت اهداف می شود. بر اساس گزارش موسسه گارتنر که در شکل زیر قابل مشاهده است، دو نرم افزار RapidMiner و Knime مهم‌ترین و قدرتمندترین نرم‌افزارهای داده کاوی می باشند. این دو نرم افزار با در اختیار گذاشتن ابزارهای آماده سازی ، مدل سازی، ارزیابی، مصورسازی و... داده توجه متخصصان این حوزه را به خود جلب کرده اند، در ادامه به معرفی منابع آموزش این دو نرم افزار پر کاربرد می پردازیم.

رپید ماینر (RapidMiner):

بی‌شک یکی از قدرتمندترین ابزارهای داده کاوی نرم افزار RapiMiner می باشد برای آشنائی با این نرم افزار مراجعه به کتاب ارزشمند "داده کاوی کاربردی" که در ابتدای این نوشتار معرفی گردید، بسیار اثربخش خواهد بود، برای تسلط بر این نرم افزار مراجعه به آموزش ویدئویی " آموزش جامع Rapid Miner" که توسط جناب آقای فخاریان ارائه و توسط وب سایت گروه داده کاوی فرابر (farabar.net) بصورت رایگان منتشر شده است، بسیار مفید واقع خواهد شد.

نایم (Knime):

نرم‌افزار Knime که در سال های اخیر جهش قابل توجهی را در ارائه امکانات داشته است یکی دیگر از نرم افزارهای بسیار مهم داده‌کاوی می‌باشد. برای آشنائی با این نرم افزار مشاهده دوره تصوری و رایگان " آموزش جامع Knime" با ارائه جناب فخاریان بسیار مناسب می باشد. این آموزش نیز از طریق وب سایت گروه داده کاوی فرابر (farabar.net) بصورت رایگان قابل دریافت می باشد. برای تسلط بر این نرم افزار مشاهده دوره تصویری "OReilly Introduction to Data Analytics with KNIME" توصیه می گردد. این دوره از طریق وب سایت p30download بصورت رایگان قابل دریافت می باشد.


سخن آخر:

همانطور که در این نوشتار کوتاه به آن پرداخته شد، دیتاساینس حوزه جدید، جذاب و اثرگذاری است که یادگیری آن مانند یادگیری هر علم دیگری نیازمند صرف مسیری طولانی می باشد ، مسیری که ارائه همه آن در این مطلب کوتاه امکان پذیر نمی باشد. هدف اصلی در این نوشتار بیان برخی رئوس ورود به علم داده بوده و یقینا علاقه مندان به این دانش پس از طی تمام و یا قسمتی از مسیر پیشنهادی این نوشتار ، با مباحث و موضوعات و رئوس جدیدی از جمله پایگاه‌های داده،یادگیری عمیق، کلان داده،، متن کاوی، وب‌کاوی و... روبه‌رو می شوند که نیازمند مراجع و منابع آموزشی جدید می باشند ، بخش زیادی از این منابع از طریق وب سایت‌های tutsgalaxy , git و freetuts بصورت رایگان در دسترس می باشند.

موفق باشید
----------------------------------------------------

پی‌نوشت: پی‌نوشت این مطلب مربوط به افرادی میشه که عادت به خودآموزی ندارند و قاعدتا این متن که بر محور خودآموزی علم‌داده نوشته شده براشون کاربرد زیادی نداره. این افراد معمولا ترجیح میدن برای شروع یادگیری، در دوره‌ای حضوری شرکت کنند. به این افراد دوره بلندمدت علم داده موسسه توسعه رو معرفی می‌کنیم. این دوره توسط دکتر زره‌ساز که از فارغ‌التحصیلان دانشگاه میشیگان هستش برگزار میشه و شامل یادگیری مباحث زیادی هم‌چون آمار و احتمال، یادگیری زبان برنامه‌نویسی پایتون و R، مباحث رگرسیون،وب‌کاوی، پایگاه داده و... میشه. برای کسب اطلاع بیش‌تر و ثبت نام در دوره می‌تونید به لینک زیر مراجعه کنید:

https://tihe.ac.ir/preregistration-data-science/

یادگیری هوش تجاریآموزش علم دادهیادگیری دیتاساینسمسیر تبدیل شدن به دیتاساینسیادگیری ماشین
دانش‌آموخته مهندسی صنایع و مدیریت ، علاقه‌مند به علم داده | ارتباط با من در تلگرام : @Maghsoudi91
شاید از این پست‌ها خوشتان بیاید