چگونه داده کاو شوم(نقشه راه داده کاوی با پایتون)، شروع کار با پایتون

در این سلسله پست قصد داریم به معرفی یک نقشه راه جهت تبدیل شدن به دانشمند علوم داده و داده کاوی، با زبان برنامه نویسی پایتون بپردازیم. در ابتدا فرض می‌کنیم شما پایه های زبان برنامه نویسی پایتون را بلد هستید. اگر این طور نیست، میتوانید به سایت learnpython.org مراجعه کنید و یک مقدمه خوب برای آموزش این زبان را یاد بگیرید.

وقتی پایتون را یادگرفتید، بایستی به سراغ چند کتابخانه اصلی برای کار با داده ها برویم. البته قبل از آن بهتر است از Anaconda استفاده کنید. در واقع برای نصب پایتون بر روی کامپیوتر خود، Anaconda را نصب کنید، زیرا که هم پایتون و هم کتابخانه های بسیار زیاد دیگری از پایتون(که برای متخصصان علوم داده مناسب می‌باشد) را برای شما نصب خواهد کرد.

امروز به سراغ ۳کتابخانه اصلی و پایه خواهیم رفت که بهتر است برای شروع با آن ها آشنا باشید:

  1. کتابخانه Numpy: که مخصوص کار با آرایه ها و ماتریس های مختلف است. این کتابخانه قادر است با سرعت بیشتر و بالاتر نسبت به آرایه های پایتون، با آرایه ها کار کند. همچنین عملیات مختلف پایه را بر روی آرایه ها با سرعت بالاتری انجام می‌دهد.
  2. کتابخانه Pandas: این کتابخانه جهت کار با داده ها و Datasetهای مختلف است. همان طور که می‌دانید داده‌ها بهتر است برای پردازش در RAM قرار بگیرند. این کتابخانه می‌تواند به صورت بهینه و با سرعت بالا این کار را انجام دهد. همچنین عملیات پیش پردازش داده ها نیز می‌تواند با استفاده از این کتابخانه انجام شود. کتابخانه Pandas، همچنین در تحلیل داده های سری زمانی(Time Series) کمک بسیار زیادی می‌کند.
  3. کتابخانه Matplotlib: بدون شک یکی از مراحل اصلی انجام عملیات داده کاوی، نمایش داده‌هاست. حال این نمایش می‌تواند برای کاربر نهایی باشد یا خود دانشمند علوم داده، جهت درک بهتر چینش داده‌ها. با استفاده از Matplotlib به سادگی می‌توان داده‌ها را رسم کرد. این کتابخانه نمودارهای مختلف و متنوعی را جهت کاربردهای مختلف در اختیار کابران قرار می‌دهد.

این ۳کتابخانه به همراه کتابخانه Scipy که در واقع یک اکوسیستم از کتابخانه‌های کاربردی ریاضی است، پایه بسیاری از عملیات و کتابخانه‌های بعدی هستند.