Senior Data Scientist at SabaIdea (Filimo, Aparat, Cinematicket) | Founder Of: chistio.ir
چگونه داده کاو شوم(نقشه راه داده کاوی با پایتون)، شروع کار با پایتون
در این سلسله پست قصد داریم به معرفی یک نقشه راه جهت تبدیل شدن به دانشمند علوم داده و داده کاوی، با زبان برنامه نویسی پایتون بپردازیم. در ابتدا فرض میکنیم شما پایه های زبان برنامه نویسی پایتون را بلد هستید. اگر این طور نیست، میتوانید به سایت learnpython.org مراجعه کنید و یک مقدمه خوب برای آموزش این زبان را یاد بگیرید.
وقتی پایتون را یادگرفتید، بایستی به سراغ چند کتابخانه اصلی برای کار با داده ها برویم. البته قبل از آن بهتر است از Anaconda استفاده کنید. در واقع برای نصب پایتون بر روی کامپیوتر خود، Anaconda را نصب کنید، زیرا که هم پایتون و هم کتابخانه های بسیار زیاد دیگری از پایتون(که برای متخصصان علوم داده مناسب میباشد) را برای شما نصب خواهد کرد.
امروز به سراغ ۳کتابخانه اصلی و پایه خواهیم رفت که بهتر است برای شروع با آن ها آشنا باشید:
- کتابخانه Numpy: که مخصوص کار با آرایه ها و ماتریس های مختلف است. این کتابخانه قادر است با سرعت بیشتر و بالاتر نسبت به آرایه های پایتون، با آرایه ها کار کند. همچنین عملیات مختلف پایه را بر روی آرایه ها با سرعت بالاتری انجام میدهد.
- کتابخانه Pandas: این کتابخانه جهت کار با داده ها و Datasetهای مختلف است. همان طور که میدانید دادهها بهتر است برای پردازش در RAM قرار بگیرند. این کتابخانه میتواند به صورت بهینه و با سرعت بالا این کار را انجام دهد. همچنین عملیات پیش پردازش داده ها نیز میتواند با استفاده از این کتابخانه انجام شود. کتابخانه Pandas، همچنین در تحلیل داده های سری زمانی(Time Series) کمک بسیار زیادی میکند.
- کتابخانه Matplotlib: بدون شک یکی از مراحل اصلی انجام عملیات داده کاوی، نمایش دادههاست. حال این نمایش میتواند برای کاربر نهایی باشد یا خود دانشمند علوم داده، جهت درک بهتر چینش دادهها. با استفاده از Matplotlib به سادگی میتوان دادهها را رسم کرد. این کتابخانه نمودارهای مختلف و متنوعی را جهت کاربردهای مختلف در اختیار کابران قرار میدهد.
این ۳کتابخانه به همراه کتابخانه Scipy که در واقع یک اکوسیستم از کتابخانههای کاربردی ریاضی است، پایه بسیاری از عملیات و کتابخانههای بعدی هستند.
مطلبی دیگر از این انتشارات
بسته psych در R Language
مطلبی دیگر از این انتشارات
رگرسیون چیست؟
مطلبی دیگر از این انتشارات
نکاتی در مورد یادگیریهای تنبل و کوشا در طبقهبندی داده