ابزاری که به شما کمک میکند درک بسیار خوبی از داده ها به دست آورید.
مصورسازی داده فرآیند به تصویر کشیدن دادهها و اطلاعات با استفاده از نمودار ها و گرافهاست به نحوی که بیننده قادر به درک سریعتر و بهتر اطلاعات نهفته در دادهها بشود. کتابخانههای زیادی در پایتون وجود دارد که به ما کمک می کند تا این کار را انجام دهیم. یکی از مشهورترین کتابخانهها، Matplotlib است که تقریباً میتواند هر نوع شکلی را ترسیم کند. تنها مشکل کتابخانه این است که تسلط بر آن برای مبتدیان بسیار سخت است. در این مقاله، هفت کتابخانه مصورسازی داده که به جای matplotlib میتوان استفاده کرد، معرفی خواهد شد.
1. Seaborn
کتابخانه Seaborn روی matplotlib ساخته میشود و قابلیتهای پیشرفته بسیاری در رابطه با مصورسازی داده ارائه میکند که با استفاده از آنها میتوانید نمودارهای زیبایی را فقط با نوشتن چند خط کد ساده ایجاد کنید. کتابخانه Seaborn را جهت رسم انواع نمودارها مانند نمودارهای جعبه ای (box plots) ، نمودار ویلونی (violin plots)، نمودارهای توزیعی (dist plots)، نمودارهای مشترک ((Joint plots، نمودارهای جفتی (Pair plots)، نقشههای حرارتی (heatmaps) و غیره می توان مورد استفاده قرار داد.
ویژگی های کلیدی:
· می توان از آن برای تعیین رابطه بین دو متغیر استفاده کرد.
· تمایز میان تحلیل توزیعهای تک متغیر یا دو متغیر
· رسم مدل رگرسیون خطی برای متغیر وابسته
· تهیه نمودارهای شبکهای (multi-grid plotting)
فرمان مورد استفاده برای دانلود این کتابخانه: pip install seaborn
یک کد ساده برای نمایش روندها و توزیع دادهها در دیتاست با استفاده از نمودارهای جفتی seaborn:
2. Plotly
کتابخانه Plotly یک کتابخانه پیشرفته تحلیل پایتون است که به ساخت داشبوردها و نمودارهای تعاملی کمک می کند. نمودارهای ساخته شده با استفاده از Plotly ، نمودارهای تعاملی هستند، بدین معنی که شما به راحتی می توانید در هر نقطه خاص از نمودار، مقدار پیدا کنید. به طور کلی تولید داشبورد و استقرار آنها در سرور با استفاده از این کتابخانه بسیار آسان است. این برنامه از پایتون، R و زبان برنامه نویسی Julia پشتیبانی می کند.
با استفاده از Plotly می توانید طیف گسترده ای از نمودارها را ایجاد کنید:
1. نمودارهای پایه (Basic charts)
2. نمودارهای آماری (Statistical charts)
3. نمودارهای علمی (Scientific charts)
4. نمودارهای مالی (Financial charts)
5. نقشه ها (Maps)
6. Subplots
7. Transforms
8. Jupyter Widgets Interaction
کد یک نمودار پراکندگی ساده با استفاده از Plotly برگرفته از منابع معتبر:
3. Geoplotlib
این کتابخانه برای ترسیم دادههای جغرافیایی و تهیه نقشه در پایتون مورد استفاده قرار میگیرد. با استفاده از این کتابخانه میتوانید نقشههای متنوعی از جمله نقشههای حرارتی (Heatmaps)، نقشههای تراکم نقطه (dot-density maps)، نقشههای جغرافیایی و غیره را ترسیم کنید.
فرمان مورد استفاده برای دانلود این کتابخانه: pip install geoplotlib
4. Gleam
کتابخانه Gleam از پکیج R’s Shiny الهام گرفته شده است. به شما امکان می دهد نمودارهای خود را فقط با استفاده از کد پایتون به وب اپلیکیشن تبدیل کنید. برای افرادی که دانش HTML و CSS ندارند مفید است. کتابخانه Gleam در واقع یک کتابخانه مصورسازی نیست؛ اما با هر کتابخانه مصورسازی میتواند کار می کند.
5. ggplot
این کتابخانه متفاوت از matplotlib عمل می کند. به شما امکان می دهد چندین جزء را به صورت لایه لایه اضافه کنید تا در انتها یک نمودار کامل ایجاد شود. به عنوان مثال، در ابتدا می توانید یک محور ایجاد کنید، سپس نقاط و سایر اجزا مانند خط روند (trend line) را اضافه کنید.
توصیه میشود همیشه قبل از استفاده از ggplot ، داده های خود را در یک data frame ذخیره کنید تا نتایج ساده تر و مفیدتری بدست آورید.
فرمان مورد استفاده برای دانلود این کتابخانه: pip install ggplot
6. Bokeh
کتایخانه Bokeh توسط Continuum Analytics برای ایجاد تصویری مناسب در وب و مرورگرها ایجاد شده است. این کتابخانه امکان مصور سازی دادهها به صورت interactive را فراهم می آورد و باعث میشود بتوانید اطلاعات بیشتری را منتقل کنید.
آموزشهایی که به شما در شروع کار با این کتابخانه کمک میکند:
1. Interactive Data Visualization With Bokeh- Real Python ( مصورسازی دادههای تعاملی با بوکه - پایتون واقعی)
2. Python Data Visualization With Python (مصورسازی دادههای پایتون - Traversry Media (Youtube))
7. Missingno
علم داده به معنای یافتن اطلاعات مفید از دادهها و قابل مشاهده ساختن آنها برای همه است. بهترین راه برای این کار مصورسازی دادهها است. این بسته می تواند برای همه دانشمندان داده، بسیار مفید باشد. به شما کمک می کند تا تمام مقادیر از دست رفته را پیدا کنید و آنها را فقط با استفاده از یک خط کد به صورت تصویری زیبا نمایش دهید. این برنامه، نمودارهای میلهای، چارتها، نقشههای حرارتی، dendrograms و موارد دیگر را پشتیبانی می کند.
فرمان مورد استفاده برای دانلود این برنامه: pip install missingno
با استفاده از این بسته میتوان همه مقادیر صفر (null) را در دیتاست معروف titanic نمایش دهیم. کد آن در زیر آمده است:
مصورسازی دیتای از دست رفته (missing data) با استفاده از missingno در titanic dataset