مقدمه:
علم داده یکی از داغترین و پر بحثترین مباحث این روزهاست، علمی که در آن تحلیل دادههای ساختیافته و غیرساختیافته با هدف کسب دانش و بینش دنبال میشود و وبسایت HBR آنرا "جذابترین شغل قرن بیست و یکم " می داند. اهمیت و جذابیت این علم باعث شده است که هر روزه بر یادگیرندگان این علم افزوده شود اما چالشی که علاقهمندان به این علم با آن درگیر هستند مسیر درست یادگیری این علم میباشد. منابع و وبسایت های بسیاری به ارائه مسیر یادگیری علم داده پرداخته اند که معمولا منابع یادگیری معرفی شده در آنها، کتابها و دورههای موسسات و دانشگاههای مطرح دنیا می باشد که تهیه و شرکت در آنها همواره با چالشهایی همچون فارسی نبودن، غیر رایگان بودن و تحریم کشور ایران روبهرو است. در این نوشتار قصد معرفی مسیری ساده، کمهزینه، مجرب و قابل دسترس برای یادگیری علم داده را داریم.
یکی از مبنایی ترین و مهم ترین لوازم یادگیری علم داده ، آمار می باشد. علاقهمندان به یادگیری علم داده نیازمند آشنایی با شاخصهای توصیفی آمار ،روشهای نمونه برداری، کوواریانس و ضریب همبستگی، توزیعهای آماری، تئوری بیزین و... می باشند که معمولا در همهی منابع فارسی آموزش آمار و احتمال مهندسی یافت میشوند. اگر با این مفاهیم آشنا نیستید و یا قصد مرور این مفاهیم را دارید، فصل دوم کتاب " مفاهیم و تکنیکهای دادهکاوی" نوشته دکتر مهدی اسماعیلی منبع مناسبی برای یادگیری می باشد. فایل این کتاب در اینترنت بصورت رایگان انتشار یافته است و قابل دانلود میباشد.
الف.آشنائی: کتاب "دادهکاوی کاربردی" که توسط دکتر صنیعی آباده و دیگر همکارانش تدوین شده و توسط انتشارات نیاز دانش به چاپ رسیده است، با قلمی بسیار آسان و شیوا به آموزش مفاهیم دادهکاوی و یادگیری ماشین پرداخته است. این کتاب علاوه بر آموزش مفاهیم به آموزش نرم افزار داده کاوی Rapid Miner نیز پرداخته است که در این مرحله نیازی به خواندن این مطالب نمی باشد و مطالعه 200 صفحه ابتدایی این کتاب درک مناسبی از مفاهیم یادگیری ماشین به شما ارائه میدهد.
ب.تسلط: بعد از مطالعه کتاب "داده کاوی کاربردی" نوبت به عمق بخشی و تسلط به مبانی یادگیری ماشین میرسد که کتاب " مفاهیم و تکنیکهای داده کاوی" که در گام اول به آن اشاره شد منبع بسیار خوب و جامعی می باشد.
یکی از ملزومات اساسی و افقآفرین علم داده تسلط بر زبانهای برنامه نویسی مورد نیاز این علم است. آموختن زبان برنامهنویسی در علم داده به مثابه مجهز شدن به ابزار نامحدودی برای انجام کارهای متعدد در این علم می باشد. نمودار زیر بیست توانمندی پرتقاضا برای دانشمندان علم داده را به تصویر میکشد.این نمودار از تحلیل محتوای آگهیهای استخدام سایتهای معتبر استخدام استخراج و توسط وبسایت معتبر towards data science منتشر شده است. همانطور که می بینیم دو زبان برنامهنویسی Python و R مهمترین توانمندی برنامهنویسی متخصصان علم داده میباشد.
که البته با استناد به نظرسنجی زیر که در سایت kdnuggets منتشر شده است، زبان برنامهنویسی پایتون علاوه بر اهمیت بیشتر نسبت به زبان R، از سرعت رشد بالاتری نیز در علم داده برخوردار است و به جهت یادگیری از اولویت بالاتری برخوردار میباشد و به همین جهت در این نوشتار به معرفی منابع آموزشی زبان پایتون اکتفا مینمائیم.
زبان Python:
الف:آشنائی: برای آشنائی با این زبان برنامه نویسی دوره تصویری آنلاین و رایگان " پایتون مقدماتی " که توسط آقای جادی میرمیرائی و در سایت gotoclass.ir منتشر شده است منبع بسیار خوبی است.
ب:تسلط: برای تسلط و آشنائی حرفهای با زبان برنامه نویسی پایتون دوره " برنامهنویسی با پایتون (پیشرفته)" که باز هم توسط جادی میرمیرانی ارائه و در سایت مکتبخونه منتشر شده است توصیه میگردد. اهمیت این دوره بیشتر به جهت مطرح شدن مباحثی پیرامون نحوه کار با پایگاههای داده و API است.
یادگیری ماشین در پایتون:
بعد از آشنائی و یادگیری زبان برنامه نویسی پایتون باید به کتابخانههای مهم علم داده در این زبان تسلط یافت. این کتابخانهها مجموعه ای از کدهای از پیش نوشته شده و آماده می باشند که ابزارها و روشهایی را برای کاربردهای مختلف در اختیار ما میگذارند و به قول معروف ما را از " اختراع دوباره چرخ" باز می دارند. مهمترین کتابخانه های علم داده در پایتون در شکل زیر ذکر شده اند. این نمودار از بررسی سایت Github تهیه و توسط سایت ActiveWizards منتشر شده است.
برای آشنائی با کاربرد کتابخانههای علم داده در پایتون دوره "یادگیری ماشین با پایتون" که توسط جناب آقای مهندس مظلومیراد ارائه و در سایت فرادرس منتشر شده است، منبع بسیار خوبی می باشد. در این دوره با کتابخانههای NumPy ، Pandas ، matplotlib ، seaborn ، SciPy و scikit learn آشنا خواهید شد.
هوشتجاری یکی از مهمترین ، پرکاربردترین و جذابترین حوزههای علم داده میباشد که دانشآموختگان مهندسی صنایع و مدیریت به علت آشنائی با مفاهیم مدیریتی و کسبوکار نقشآفرینان اصلی آن هستند. کاربرد هوش تجاری استفاده هدفمند از اطلاعات برای استخراج داشبوردها و تحلیل های تصمیم ساز مدیریتی می باشد.
بر اساس نمودار زیر که توسط موسسه گارتنر منتشر شده است رهبران اصلی این حوزه دو نرم افزار قدرتمند Power BI و Tableau می باشند که با توجه به روند چند سال گذشته، این دو نرمافزار تا سالیان سال نقش پررنگی را در حوزه هوش تجاری خواهند داشت و یادگیری این دو نرم افزار برای متخصصان علم داده الزامی میباشد. این دو نرم افزار علاوه بر مصورسازی دادهها با استفاده از نمودارهای متنوع ، در محیط خود امکان استفاده از زبان برنامهنویسی پایتون را نیز مهیا ساخته اند.
پاور بیآی (Power BI):
نرم افزار Power BI محصولی از شرکت ماکروسافت است. این نرم افزار توانسته در مدت کوتاهی که از معرفی آن گذشته به رشد قابل توجهی دست پیدا کند و امکانات کاربردی و قدرتمندی را در اختیار تحلیلگران قرار دهد.
الف:آشنائی: بهترین منبع برای یادگیری این نرم افزار آموزشهای جناب آقای پوریا بغدادی است که از طریق سایت pooryab قابل دریافت می باشد. این دوره تا حد بسیاری نیازمندی علاقهمندان به یادگیری این نرمافزار را مهیا می سازد.
ب:تسلط: برای تسلط بر این نرم افزار بهره گیری از دوره تصویری " Microsoft Power BI - A Complete Introduction" که توسط Packtpub منتشر شده است بسیار مفید می باشد. این دوره بطور رایگان از طریق سایت Git.ir قابل دریافت می باشد.
تبلوو (Tableau) :
نرم افزار Tableau یکی از قدرتمندترین نرم افزارهای هوش تجاری می باشد که از جهت رابط کاربری و سرعت پردازش مورد تحسین همگان است. یادگیری این نرم افزار بعلت رابط کاربری مناسب آن، بسیار ساده میباشد.
الف:آشنائی: " آموزش ویدئویی نرم افزار هوش تجاری Tableau تحلیل داده ها و اخذ تصمیمات" که با بیان جناب مهندس عباس فرمانی تهیه و توسط سایت فرادرس منتشر شده است منبع بسیار خوبی برای آشنائی با این نرم افزار کاربردی و فوق العاده می باشد.
ب:تسلط: برای تسلط بر نرم افزار Tableau بهره گیری از دوره تصویری شرکت Lynda با عنوان " Tableau Essential Training" بسیار اثرگذار خواهد بود. این دوره در قالب 94 ویدئوی کوتاه به آموزش صفر تا صد نرمافزار Tableau پرداخته است. این دوره بصورت رایگان و از طریق سایت p30download قابل دریافت می-باشد.
یادگیری نرم افزارهای داده کاوی و یادگیری ماشین باعث تسهیل و تسریع استفاده از الگوریتمها و راهکارهای علم داده در جهت اهداف می شود. بر اساس گزارش موسسه گارتنر که در شکل زیر قابل مشاهده است، دو نرم افزار RapidMiner و Knime مهمترین و قدرتمندترین نرمافزارهای داده کاوی می باشند. این دو نرم افزار با در اختیار گذاشتن ابزارهای آماده سازی ، مدل سازی، ارزیابی، مصورسازی و... داده توجه متخصصان این حوزه را به خود جلب کرده اند، در ادامه به معرفی منابع آموزش این دو نرم افزار پر کاربرد می پردازیم.
رپید ماینر (RapidMiner):
بیشک یکی از قدرتمندترین ابزارهای داده کاوی نرم افزار RapiMiner می باشد برای آشنائی با این نرم افزار مراجعه به کتاب ارزشمند "داده کاوی کاربردی" که در ابتدای این نوشتار معرفی گردید، بسیار اثربخش خواهد بود، برای تسلط بر این نرم افزار مراجعه به آموزش ویدئویی " آموزش جامع Rapid Miner" که توسط جناب آقای فخاریان ارائه و توسط وب سایت گروه داده کاوی فرابر (farabar.net) بصورت رایگان منتشر شده است، بسیار مفید واقع خواهد شد.
نایم (Knime):
نرمافزار Knime که در سال های اخیر جهش قابل توجهی را در ارائه امکانات داشته است یکی دیگر از نرم افزارهای بسیار مهم دادهکاوی میباشد. برای آشنائی با این نرم افزار مشاهده دوره تصوری و رایگان " آموزش جامع Knime" با ارائه جناب فخاریان بسیار مناسب می باشد. این آموزش نیز از طریق وب سایت گروه داده کاوی فرابر (farabar.net) بصورت رایگان قابل دریافت می باشد. برای تسلط بر این نرم افزار مشاهده دوره تصویری "OReilly Introduction to Data Analytics with KNIME" توصیه می گردد. این دوره از طریق وب سایت p30download بصورت رایگان قابل دریافت می باشد.
سخن آخر:
همانطور که در این نوشتار کوتاه به آن پرداخته شد، دیتاساینس حوزه جدید، جذاب و اثرگذاری است که یادگیری آن مانند یادگیری هر علم دیگری نیازمند صرف مسیری طولانی می باشد ، مسیری که ارائه همه آن در این مطلب کوتاه امکان پذیر نمی باشد. هدف اصلی در این نوشتار بیان برخی رئوس ورود به علم داده بوده و یقینا علاقه مندان به این دانش پس از طی تمام و یا قسمتی از مسیر پیشنهادی این نوشتار ، با مباحث و موضوعات و رئوس جدیدی از جمله پایگاههای داده،یادگیری عمیق، کلان داده،، متن کاوی، وبکاوی و... روبهرو می شوند که نیازمند مراجع و منابع آموزشی جدید می باشند ، بخش زیادی از این منابع از طریق وب سایتهای tutsgalaxy , git و freetuts بصورت رایگان در دسترس می باشند.
موفق باشید
----------------------------------------------------
پینوشت: پینوشت این مطلب مربوط به افرادی میشه که عادت به خودآموزی ندارند و قاعدتا این متن که بر محور خودآموزی علمداده نوشته شده براشون کاربرد زیادی نداره. این افراد معمولا ترجیح میدن برای شروع یادگیری، در دورهای حضوری شرکت کنند. به این افراد دوره بلندمدت علم داده موسسه توسعه رو معرفی میکنیم. این دوره توسط دکتر زرهساز که از فارغالتحصیلان دانشگاه میشیگان هستش برگزار میشه و شامل یادگیری مباحث زیادی همچون آمار و احتمال، یادگیری زبان برنامهنویسی پایتون و R، مباحث رگرسیون،وبکاوی، پایگاه داده و... میشه. برای کسب اطلاع بیشتر و ثبت نام در دوره میتونید به لینک زیر مراجعه کنید: