مرکز تحقیقات هوش مصنوعی پارت
مرکز تحقیقات هوش مصنوعی پارت
خواندن ۱۰ دقیقه·۳ سال پیش

دفترچه راهنمای کتابخانه Matplotlib در پایتون؛ آموزش کامل مصور‌سازی داده‌ها


کتابخانه Matplotlib  پرکاربردترین ابزار پایتون در حوزه مصور‌سازی داده ها است. این کتابخانه در محیط‌های مختلف از جمله سرورهای کاربردی، ‌ابزارهای رابط کاربری گرافیکی، Jupyter notebook، iPython و iPython shell پشتیبانی می‌شود.

معماری کتابخانه Matplotlib

کتابخانه Matplotlib دارای ۳ لایه است که عبارتند از: لایه backend ، لایه artist  و لایه scripting. لایه سمت سرور سه کلاس رابط دارد: ۱. figure canvas که فضایی که نمودار در آن رسم خواهد شد را تعریف می‌کند، ۲. renderer که مسئول رسم نمودار در figure canvas است و ۳. event که با ورودی‌های کاربر مثل کلیک‌ها سروکار دارد. لایهartist  برای رسم نمودار روی صفحه از renderer استفاده می‌کند. بنابراین، هر چیزی که در نمودار رسم‌شده توسط کتابخانه Matplotlib  مشاهده می‌کنید، در حقیقت، مصداقی از یک لایهartist  است. یعنی هر عنوان، برچسب، علامت و حتی خود نمودار یک لایهartist  مجزا هستند. لایه scripting یک رابط سبک‌تر است که برای استفاده روزانه مناسب می‌باشد. در این مقاله، همه مثال‌ها با استفاده از لایه scripting به شما نشان داده می‌شوند و همچنین از محیط Jupyter notebook استفاده خواهم کرد.

اگر هدفتان از خواندن این مقاله یادگیری کار با کتابخانهMatplotlib  است، پیشنهاد می‌کنم که حتماً خودتان کدها را اجرا کنید تا طرزکار آن را ببینید.

آماده‌سازی داده‌ها

معمولاً در همه پروژه‌ها‌ پیش از به تصویر کشیدن داده‌ها یا شروع تحلیل، فرآیند آماده‌سازی داده‌ها صورت می‌گیرد. زیرا داده‌ها هیچ‌وقت در قالب و شکلی که ما می‌خواهیم، نیستند. دیتاستی که در این مقاله آموزشی از آن استفاده خواهیم کرد حاوی اطلاعاتی در خصوص مهاجرت به کانادا است. ابتدا باید پکیج‌های ضروری و دیتاست را وارد محیط کاری خود کنیم.

import numpy as np

import pandas as pd

df = pd.read_excel('https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx',

sheet_name='Canada by Citizenship',

skiprows=range(۲۰),

skipfooter=۲)

df.head()

من ۲۰ سطر اول و ۲ سطر آخر دیتاست را رد می‌کنم، چون این سطرها حاوی متن هستند، نه داده‌هایی که ما نیاز داریم. این دیتاست، بسیار بزرگ است و به همین دلیل، نمی‌توانم از صفحه حاوی داده‌ها عکس بگیرم و برای شما نمایش دهم. در زیر می‌توانید نام ستون‌های دیتاست را ملاحظه فرمایید:

در این مقاله مربوط به کتابخانه Matplotlib قرار نیست همه این ستون‌ها را استفاده کنیم. بنابراین، باید ستون‌های بلااستفاده را حذف کنیم تا دیتاست کوچک‌تر و کار با آن راحت‌تر شود.

df.columns

#Output:

Index([ 'Type', 'Coverage', 'OdName', 'AREA', 'AreaName', 'REG',

'RegName', 'DEV', 'DevName', ۱۹۸۰, ۱۹۸۱, ۱۹۸۲,

۱۹۸۳, ۱۹۸۴, ۱۹۸۵, ۱۹۸۶, ۱۹۸۷, ۱۹۸۸,

۱۹۸۹, ۱۹۹۰, ۱۹۹۱, ۱۹۹۲, ۱۹۹۳, ۱۹۹۴,

۱۹۹۵, ۱۹۹۶, ۱۹۹۷, ۱۹۹۸, ۱۹۹۹, ۲۰۰۰,

۲۰۰۱, ۲۰۰۲, ۲۰۰۳, ۲۰۰۴, ۲۰۰۵, ۲۰۰۶,

۲۰۰۷, ۲۰۰۸, ۲۰۰۹, ۲۰۱۰, ۲۰۱۱, ۲۰۱۲,

۲۰۱۳],

dtype='object')


df.drop(['AREA','REG','DEV','Type','Coverage'], axis=۱, inplace=True)

df.head()

به نام ستون‌ها دقت کنید، ستون OdName حاوی نام کشورها، AreaName نام قاره‌ای که کشور مذکور در آن قرار دارد و RegName نیز نام منطقه‌ای که کشور مربوطه در آن واقع شده، می‌باشند. اما من می‌خواهم نام ستون‌ها را تغییر دهم تا گویاتر و قابل‌فهم باشند.

df.rename(columns={'OdName':'Country', 'AreaName':'Continent', 'RegName':'Region'}, inplace=True)

df.columns

#Output:

Index([ 'Country', 'Continent', 'Region', 'DevName', ۱۹۸۰,

۱۹۸۱, ۱۹۸۲, ۱۹۸۳, ۱۹۸۴, ۱۹۸۵,

۱۹۸۶, ۱۹۸۷, ۱۹۸۸, ۱۹۸۹, ۱۹۹۰,

۱۹۹۱, ۱۹۹۲, ۱۹۹۳, ۱۹۹۴, ۱۹۹۵,

۱۹۹۶, ۱۹۹۷, ۱۹۹۸, ۱۹۹۹, ۲۰۰۰,

۲۰۰۱, ۲۰۰۲, ۲۰۰۳, ۲۰۰۴, ۲۰۰۵,

۲۰۰۶, ۲۰۰۷, ۲۰۰۸, ۲۰۰۹, ۲۰۱۰,

۲۰۱۱, ۲۰۱۲, ۲۰۱۳],

dtype='object')

به این ترتیب، نام ستون‌های دیتاست به Country به معنی کشور، Continent به معنی قاره، Region به معنی منطقه و DevName که بیان‌گر توسعه‌یافته یا درحال‌توسعه بودن کشور است، تغییر پیدا کردند. ستون‌هایی که نام آن‌ها نشان‌دهنده یک سال خاص است، حاوی شمار مهاجرانی که هستند که در آن سال وارد کانادا شده‌اند. حالا می‌خواهم یک ستون جدید به نام total اضافه کنم که به ما بگوید چه تعداد مهاجر بین سال ۱۹۸۰ تا ۲۰۱۳ به کانادا آمده‌اند.

df['Total'] = df.sum(axis=۱)

همان‌طور که مشاهده می‌کنید، یک ستون جدید به نام Total به انتهای دیتاست افزوده شده است.

حالا باید بررسی کنیم و ببینیم آیا سلول خالی یا سلولی حاوی مقدار null در ستون‌ها وجود دارد؟

df.isnull().sum()

خروجی این خط از کد تعداد مقادیر  در همه ستون‌ها را صفر نشان می‌دهد. من دوست دارم همیشه ستون شاخص به جای یک سری عدد بی‌معنی، ستونی باشد که مقادیر آن معنادارند. بنابراین، ستون  را به عنوان شاخص تعیین می‌کنم.

این دیتاست از همان ابتدا تمیز و مرتب بود، بنابراین، عملیات پاک‌سازی داده‌ها را در همین‌جا به پایان می‌رسانیم. البته اگر عملیات دیگری نیاز باشد، در طی مسیر آن را انجام خواهیم داد.

df = df.set_index('Country')

خروجی این خط از کد تعداد مقادیر  در همه ستون‌ها را صفر نشان می‌دهد. من دوست دارم همیشه ستون شاخص به جای یک سری عدد بی‌معنی، ستونی باشد که مقادیر آن معنادارند. بنابراین، ستون  را به عنوان شاخص تعیین می‌کنم.

این دیتاست از همان ابتدا تمیز و مرتب بود، بنابراین، عملیات پاک‌سازی داده‌ها را در همین‌جا به پایان می‌رسانیم. البته اگر عملیات دیگری نیاز باشد، در طی مسیر آن را انجام خواهیم داد.

df = df.set_index('Country')

تمرین‌های رسم نمودار در کتابخانه Matplotlib

در این مقاله، رسم انواع نمودارها از جمله نمودار خطی، نمودار ناحیه‌ای، نمودار دایره‌ای، نمودار پراکنش، نمودار میله‌ای و هیستوگرام را تمرین خواهیم کرد.

%matplotlib inline

import matplotlib.pyplot as plt

import matplotlib as mpl

اگر از همان ابتدا سبک نمودار خود را انتخاب کنید، دیگر لازم نخواهد بود روی جنبه‌های هنری آن زمان زیادی بگذارید. در زیر لیست گزینه‌های موجود را مشاهده می‌فرمایید:

plt.style.available

#Output:

mpl.style.use(['ggplot'])

'classic',

'dark_background',

'fast',

'fivethirtyeight',

'ggplot',

'grayscale',

'seaborn-bright',

'seaborn-colorblind',

'seaborn-dark-palette',

'seaborn-dark',

'seaborn-darkgrid',

'seaborn-deep',

'seaborn-muted',

'seaborn-notebook',

'seaborn-paper',

'seaborn-pastel',

'seaborn-poster',

'seaborn-talk',

'seaborn-ticks',

'seaborn-white',

'seaborn-whitegrid',

'seaborn',

'Solarize_Light2',

'tableau-colorblind10',

'_classic_test']

من در این‌جا گزینه ggplot را برای نمودارم انتخاب می‌کنم. شما می‌توانید گزینه‌های دیگر را نیز امتحان کرده و سبک موردعلاقه خود را برگزینید.

نمودار خطی

به نظر من به تصویر کشیدن تمایل کشورهای مختلف به مهاجرت به کانادا جالب خواهد بود. به این منظور، ابتدا یک لیست از سال‌هایی که در دیتاست داریم (یعنی۱۹۸۰ تا ۲۰۱۴) ایجاد می‌کنم.

years = list(map(int, range(۱۹۸۰, ۲۰۱۴)))

برای این نمودار کشور سوئیس را انتخاب کردم و می‌خواهم داده‌های مربوط به آن را روی نمودار نمایش دهم. پس باید داده‌های مهاجرت مردم سوئیس به کانادا را در هر سال تهیه کنم.

df.loc['Switzerland', years]

در تصویر بالا بخشی از داده‌های مربوطه را مشاهده می‌کنید. حال زمان رسم نمودار است. کار بسیار آسانی است. تنها کافی است تابع plot را فراخوانی کنید، داده‌هایی که اماده کرده‌اید را به آن بدهید و در آخر نیز عنوان و برچسب‌های محور x و y را تعیین کنید.

df.loc['Switzerland', years].plot()

plt.title('Immigration from Switzerland')

plt.ylabel('Number of immigrants')

plt.xlabel('Years')

plt.show()

حال اگر بخواهیم روند مهاجرت چند کشور به کانادا را طی این سال‌ها مشاهده و با هم مقایسه کنیم، باز هم کار سختی نخواهد بود. تنها کافیست در لیست داده‌ها به جای یک کشور، نام کشورهای مدنظر را همراه با سال بیاوریم. در این‌جا من می‌خواهم سه کشور هند، پاکستان و بنگلادش را با هم مقایسه کنم.

ind_pak_ban = df.loc[['India', 'Pakistan', 'Bangladesh'], years]

ind_pak_ban.head()

فرمت داده‌ها در این‌جا با مثال قبلی متفاوت است. اگر تابع plot را روی همین دیتافریم اعمال کنیم، روی محور xها تعداد مهاجران هر کشور و روی محور yها، سال را خواهیم داشت. پس باید فرمت دیتاست را تغییر دهیم:

ind_pak_ban.T

در این تصویر تنها بخشی از دیتاست را مشاهده می‌کنید، اما می‌توانید ببینید که فرمت آن چگونه تغییر کرده است. حال با فراخوانی تابع plot، سال روی محور xها و شمار مهاجران هر کشور روی محور yها رسم خواهد شد.

در این مثال لازم نبود نام نمودار را ذکر کنیم، زیرا پیش‌فرض این تابع، نمودار خطی است.

ind_pak_ban.T.plot()

نمودار دایره‌ای

در این مثال می‌خواهم شمار مهاجران هر قاره را روی نمودار دایره‌ای به تصویر بکشم. ما داده‌ها را برای هر کشور داریم، پس اگر کشورها را براساس قاره‌ای که در آن واقع شده‌اند گروه‌بندی کنیم و تعداد مهاجران هر گروه را به دست آوریم، در واقع شمار مهاجران هر قاره را خواهیم داشت.

cont = df.groupby('Continent', axis=۰).sum()

بسیار خب، به این ترتیب دیتاستی داریم که شمار مهاجران هر قاره را به ما نشان می‌دهد. این دیتاست بسیار بزرگ است و در این صفحه جای نمی‌گیرد، اما شما می‌توانید این دیتاست را فراخوانی و چاپ کنید تا ببینید داده‌ها در آن به چه صورت هستند. حالا بیایید نمودار آن را رسم کنیم.

cont['Total'].plot(kind='pie', figsize=(۷,۷),

autopct='%۱.۱f%%',

shadow=True)

#plt.title('Immigration By Continenets')

plt.axis('equal')

plt.show()

اگر به این کد دقت کنید، می‌بینید که تابع ما دارای پارامتری به نام «kind» است. غیر از نمودار خطی، باید نوع سایر نمودارها را با این پارامتر تعیین کنید. همچنین پارامتر جدیدی به نام «figsize» در تابع تعریف کرده‌ام که ابعاد نمودار را تعیین می‌کند.

این نمودار دایره‌ای واضح و قابل‌فهم است، اما با اندکی تلاش می‌توان آن را بهتر و زیباتر کرد. به این منظور می‌خواهم رنگ‌ها و زاویه شروع نمودار را خودم تعیین کنم.

colors = ['lightgreen', 'lightblue', 'pink', 'purple', 'grey', 'gold']

explode=[۰.۱, ۰, ۰, ۰, ۰.۱, ۰.۱]

cont['Total'].plot(kind='pie', figsize=(۱۷, ۱۰),

autopct = '%۱.۱f%%', startangle=۹۰,

shadow=True, labels=None, pctdistance=۱.۱۲, colors=colors, explode = explode)

plt.axis('equal')

plt.legend(labels=cont.index, loc='upper right', fontsize=۱۴)

plt.show()

نمودار جعبه‌ای

در این مثال ابتدا نمودار جعبه‌ای برای شمار مهاجران چینی رسم می‌کنیم.

china = df.loc[['China'], years].T

این از داده‌های موردنیاز‌مان؛ حالا برویم سراغ رسم نمودار جعبه‌ای:

china.plot(kind='box', figsize=(۸, ۶))

plt.title('Box plot of Chinese Immigratns')

plt.ylabel('Number of Immigrnts')

plt.show()

اگر به دنبال نکات و تکنیک‌های بیشتری در خصوص نمودارهای جعبه‌ای می‌گردید، می‌توانید به این لینک مراجعه فرمایید.

امکان رسم چندین نمودار جعبه‌ای در یک نمودار هم وجود دارد. در این‌جا با استفاده از دیتافریم قبلی یعنی «ind_pak_ban»، نمودار جعبه‌ای هر سه کشور هند، پاکستان و بنگلادش را روی یک نمودار رسم می‌کنم.

ind_pak_ban.T.plot(kind='box', figsize=(۸, ۷))

plt.title('Box plots of India, Pakistan and Bangladesh Immigrants')

plt.ylabel('Number of Immigrants')

نمودار پراکنش

رسم یک نمودار پراکنش بهترین راه برای شناسایی رابطه میان متغیرهاست. نمودار پراکنش را رسم کنید تا روند مهاجرت به کانادا طی سال‌های ۱۹۸۰ تا ۲۰۱۳ را مشاهده کنید.

برای رسم این نمودار یک دیتافریم جدید ایجاد می‌کنم که حاوی تعداد کل مهاجرانی است که در هر سال به کانادا مهاجرت کرده‌اند و متغیر years در آن به عنوان شاخص درنظر گرفته شده است.

totalPerYear = pd.DataFrame(df[years].sum(axis=۰))

totalPerYear.head()

ما باید نوع متغیر years را به عدد صحیح یا int تبدیل کنیم. در ادامه قصد دارم اندکی دیتاست را دستکاری کنم تا درک آن آسان‌تر شود.

totalPerYear.index = map(int, totalPerYear.index)

totalPerYear.reset_index(inplace=True)

totalPerYear.head()

در نمودار پراکنش باید محور xها و yها را مشخص کنیم.

totalPerYear.plot(kind='scatter', x = 'year', y='total', figsize=(۱۰, ۶), color='darkred')

plt.title('Total Immigration from 1980 - 2013')

plt.xlabel('Year')

plt.ylabel('Number of Immigrants')

plt.show()

به نظر می‌رسد بین دو متغیر سال و تعداد مهاجران یک رابطه خطی وجود دارد و روند مهاجرت از سال ۱۹۸۰ تا ۲۰۱۳ روندی صعودی داشته است.

نمودار ناحیه‌ای

نمودار ناحیه‌ای در حقیقت سطح زیر منحنی خطی را نمایش می‌دهد. برای رسم این نمودار می‌خوام از دیتافریمی استفاده کنم که حاوی داده‌های مربوط به ۴ کشور هند، چین، پاکستان و فرانسه است.

top = df.loc[['India', 'China', 'Pakistan', 'France'], years]

top = top.T

دیتاست ما آماده است، حالا نوبت رسم نمودار است.

colors = ['black', 'green', 'blue', 'red']

top.plot(kind='area', stacked=False,

figsize=(۲۰, ۱۰), colors=colors)

plt.title('Immigration trend from Europe')

plt.ylabel('Number of Immigrants')

plt.xlabel('Years')

plt.show()

در کتابخانه Matplotlib اگر می‌خواهید نمودار هر کشور به صورت جداگانه رسم شود، یادتان باشد که مقدار پارامتر «stacked» را حتماً برابر False قرار دهید، در غیر این صورت نمودار شما به شکل زیر خواهد شد:

وقتی مقداری برای stacked تعیین نشود، ناحیه متغیرها به صورت مجزا نمایش داده نمی‌شود، بلکه روی متغیر قبلی رسم می‌شود.

هیستوگرام

نمودار هیستوگرام توزیع یک متغیر را نشان می‌دهد. به مثال زیر توجه کنید:

df[۲۰۰۵].plot(kind='hist', figsize=(۸,۵))

plt.title('Histogram of Immigration from 195 Countries in 2010')

# add a title to the histogram

plt.ylabel('Number of Countries')

# add y-label

plt.xlabel('Number of Immigrants')

# add x-label

plt.show()

روی این نمودار هیستوگرام ۲۰۰۵ داده را به تصویر کشیده‌ام. از این نمودار پیداست که کانادا از اکثر کشورها بین ۰ تا ۵۰۰۰ مهاجر داشته است. و تنها تعداد محدودی کشور بوده‌اند که ۲۰۰۰۰ یا ۴۰۰۰۰ هزار مهاجر به کانادا داشته‌اند.

حالا بیایید با استفاده از دیتافریم top که برای نمودار پراکنش تعریف کرده بودیم، توزیع مهاجران هر کشور را نیز رسم کنیم.

top.plot.hist()

plt.title('Histogram of Immigration from Some Populous Countries')

plt.ylabel('Number of Years')

plt.xlabel('Number of Immigrants')

plt.show()

در نمودار هیستوگرام قبلی دیدیم که کشورهای کمی بودند که ۲۰۰۰۰ یا ۴۰۰۰۰ هزار مهاجر به کانادا داشتند. به‌نظر می‌رسد که چین و هند در میان این کشورها قرار دارند. در این نمودار، حاشیه میان «ستون‌ها» واضح نیست. پس بیایید نمودار بهتری رسم کنیم.

تعیین تعداد ستون‌ها و مشخص کردن حاشیه ستون‌ها در کتابخانه Matplotlib

در این نمودار ۱۵ ستون رسم خواهم کرد. همچنین، یک پارامتر جدید به نام alpha به مدل اضافه می‌کنم که شفافیت رنگ‌ها را تعیین می‌کند. در نمودارهایی مثل این نمودار که ستون‌ها روی هم قرار می‌گیرند، با تغییر میزان شفافیت می‌توان شکل همه توزیع‌ها را مشاهده کرد.

count, bin_edges = np.histogram(top, ۱۵)

top.plot(kind = 'hist', figsize=(۱۴, ۶), bins=۱۵, alpha=۰.۶,

xticks=bin_edges, color=colors)

من رنگ ستون‌ها را دقیق مشخص نکردم، به همین دلیل، رنگ‌ها در این نمودار با نمودار قبلی متفاوت است. اما در این نمودار به لطف کاهش شفافیت رنگ‌ها، می‌توانید هر توزیع را به وضوح ببینید.

همان‌طور که در نمودار ناحیه‌ای دیدید، با تعریف مقدار True پارامتر stacked  می‌توان از روی هم قرار گرفتن نمودارها جلوگیری کرد.

top.plot(kind='hist',

figsize=(۱۲, ۶),

bins=۱۵,

xticks=bin_edges,

color=colors,

stacked=True,

)

plt.title('Histogram of Immigration from Some Populous Countries')

plt.ylabel('Number of Years')

plt.xlabel('Number of Immigrants')

plt.show()

نمودار میله‌ای

برای رسم نمودار میله‌ای، از داده‌ها کشور فرانسه استفاده می‌کنم و تعداد مهاجران فرانسوی هر سال را روی نمودار می‌آورم.

france = df.loc['France', years]

france.plot(kind='bar', figsize = (۱۰, ۶))

plt.xlabel('Year')

plt.ylabel('Number of immigrants')

plt.title('Immigrants From France')

plt.show()

می‌توانید اطلاعات بیشتری نیز به نمودار اضافه کنید. در این نمودار از سال ۱۹۹۷ به بعد و برای یک دهه کامل، شاهد روند صعودی هستیم که ذکر کردن آن خالی از لطف نخواهد بود. این کار را می‌توان به کمک تابع annotate انجام داد.

france.plot(kind='bar', figsize = (۱۰, ۶))

plt.xlabel('Year')

plt.ylabel('Number of immigrants')

plt.title('Immigrants From France')

plt.annotate('Increasing Trend',

xy = (۱۹, ۴۵۰۰),

rotation= ۲۳,

va = 'bottom',

ha = 'left')

plt.annotate('',

xy=(۲۹, ۵۵۰۰),

xytext=(۱۷, ۳۸۰۰),

xycoords='data',

arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='black', lw=۱.۵))

plt.show()

گاهی اوقات، اگر میله‌ها به‌صورت افقی قرار بگیرند، نمودار قابل‌فهم‌تر خواهد شد. همچنین، نوشتن اعداد روی میله‌ها نیز به بهبود نمودار کمک خواهد کرد. پس بیایید این دو مورد را نیز روی نمودار اعمال کنیم.

france.plot(kind='barh', figsize=(۱۲, ۱۶), color='steelblue')

plt.xlabel('Year') # add to x-label to the plot

plt.ylabel('Number of immigrants') # add y-label to the plot

plt.title('Immigrants From France') # add title to the plot

for index, value in enumerate(france):

label = format(int(value), ',')

plt.annotate(label, xy=(value-۳۰۰, index-۰.۱), color='white')

plt.show()

در این مقاله به مفاهیم مقدماتی کتابخانه Matplotlib پرداختیم و به این ترتیب، شما دانش کافی برای استفاده از این کتابخانه را به دست آوردید.


جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

منبع: هوشیو

هوش مصنوعیکتابخانه Matplotlibپایتونداده هادیتاست
هوشمندسازی فرآیندهای زندگی https://partdp.ai/
شاید از این پست‌ها خوشتان بیاید