دانشجو ارشد هوش مصنوعی توسعه دهنده (پایتون - جنگو) حوزه تحقیقاتی تخصصی: سیستم پیشنهاد دهنده شغل: توسعه دهنده تیم امنیت ایرانسل شغل دوم: مدرس پایتون
آموزش کتابخانه pandas در پایتون 1
زمانی که کاربر زبان برنامه نویسی پایتون هستید و قصد دارید در زمینه هوش مصنوعی یا علم داده فعالیت کنید. باید حتما بدانید که چگونه می توانید از کتابخانه بسیار خوب pandas چگونه استفاده کنید.
کتابخانه pandas یک کتابخانه open-source با گواهی BSD است که فوق العاده عمل کرد بالایی دارد و همچنین بسیار راحت شما می توانید از آن برای ساختار دادن به داده یا تحلیل داده استفاده کنید.
سه مفهوم در این کتابخانه بسیار مهم هستند:
- Series (1D Array)
- DataFrame (2D Array)
- Panel (3D Array)
تعریف Series: به عنوان یک آرایه یک بعدی و از نوع immutable در نظر گرفته می شود.
تعریف DataFrame: یک آرایه دو بعدی است که دقیقا به مانند جدول های بانک اطلاعاتی رفتار می کند.
تعریف Panel: یک آرایه سه بعدی است که دقیقا به مانند مکعب داده رفتار می کند.
شاید برایتان مفهوم آرایه سه بعدی یا مکعب داده سنگین باشد یا آن را درک نکنید. به همین خاطر می خواهم مختصر در مورد آن در پست مکعب داده صحبت کنم.
برای نصب این کتابخانه کافیست دستور زیر را در ترمینال خود بنویسید:
pip install pandas
برای ساخت یک Series کافیست به شکل زیر عمل کنیم:
pandas.Series( data, index, dtype, copy)
import pandas as pd
s = pd.Series()
print(s)
#Output
# >> Series([], dtype: float64)
در مثال بالا یک آرایه خالی از Series ایجاد کردیم.
مفهوم data: در آرگومان اول شما تنها داده ای با نوع آرایه (Array data) را از شما می پذیرد.
مفهوم index: طول آرایه را مشخص می کند. اگر مشخص نشود بصورت پیشفرض طول آرایه را خودش محاسبه می کند.
مفهوم dtype: نوع داده ای اعضاء داخل آرایه را مشخص می کند که به صورت پیش فرض خودش تمامی آن ها را حدس می زند.
مفهوم copy: یک کپی از داده شما می گیرد. بصورت پیشفرض بر روی False قرار دارد.
در مثال زیر یک آرایه یک بعدی را به Series می دهیم.
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print(s)
در مثال زیر یک آرایه با اندیس مشخص شده از سمت کاربر را نشان داده شده است.
دقت کنید که طول آرایه با طول اندیس ها باید یکی باشد.
data = np.array(['a','b','c','d'])
s = pd.Series(data ,index=[100,101,102,103])
همچنین یک series را می توانید از روی یک دیکشنری نیز می توانید Series را بسازید:
که در این حالت کلید ها به عنوان اندیس مقادیر در نظر گرفته می شوند.
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
در مثال زیر به راحتی می توانید به داده ای دسترسی پیدا کنید:
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s[0])
برای ساختن DataFrame کافیست به شکل زیر عمل کنیم:
pandas.DataFrame( data, index, columns, dtype, copy)
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)
در مثال بالا به راحتی می توانید مشاهده کنید که یک جدول با ستون های Name و Age ساختیم که مقادیر آن ها نیز در لیستی از data قرار گرفته اند.
در مثال زیر با استفاده از یک دیکشنری جدول خود را می سازیم:
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)
در قسمت بعدی چگونگی ساخت یک پنل را بصورت کامل توضیح می دهیم.
مطلبی دیگر از این انتشارات
اوبر چگونه از کلان داده ها برای رشد استفاده می کند
مطلبی دیگر از این انتشارات
چرا بهتر است اخبار روزانه را دنبال نکنید!
مطلبی دیگر از این انتشارات
فضای ویژگی در یادگیری ماشین