بارگذاری مجموعه داده - Pandas 3

باز کردن مجموعه داده ای در پایتون
باز کردن مجموعه داده ای در پایتون

همانطور که می دانید اولین گام برای آغاز هوش مصنوعی، این است که مجموعه داده ای خود یا همان dataset را بارگذاری نماییم. متداول ترین فرمت برای مجموعه داده ای یادگیری ماشین، فایل های CSV یا همان فایل های اکسلی هستند.

در پایتون روش های متعددی برای بارگذاری مجموعه داده ای CSV وجود دارد:

  1. بارگذاری فایل های CSV با کتابخانه استاندارد پایتون
  2. بارگذاری فایل های CSV با کتابخانه Numpy
  3. بارگذاری فایل های CSV با کتابخانه Pandas


در این پست می خواهیم در رابطه با بارگذاری فایل های CSV توسط کتابخانه پاندا صحبت کنیم.

نکته: هنگام بارگذاری مجموعه داده یادگیری ماشین از فایل های CSV، ملاحظات متعددی وجود دارد. شما با مراجعه به یک مقاله کوچک و جالب می توانید با تمامی این استثناء ها آشنا شوید.



می توانید مجموعه داده ای المپیک را دانلود نمایید و از این مجموعه داده ای برای ادامه کار استفاده کنید.

برای بارگذاری مجموعه داده ای می توانید از تابع pandas.read_csv استفاده کنید. این تابع بسیار انعطاف پذیر است و شاید رویکرد توصیه ای من برای بارگذاری مجموعه داده ای یادگیری ماشین باشد. این تابع یک DataFrame بر می گرداند که می توانید بلافاصله شروع به خلاصه سازی و رسم کنید.

import pandas as pd
filename = 'olympic.csv'
with open(filename) as file:
    data = pd.read_csv(file)
    df = pd.DataFrame(data)

در خط اول کتابخانه پاندا را وارد پروژه کردیم. در نظر بگیرید که فایل مجموعه داده ای ما به olympic.csv تغییر نام داده ایم.

در خط دوم نام فایل را داخل یک متغیر قرار دادیم و سپس در خط سوم توسط دستور with فایل را باز کرده ایم.

خیلی وقت ها برخی از دانشجویان سوالات زیر را می پرسند:

زمانی که فایل در خط سوم باز شده است، چه نیاز به خواندن csv است؟
- در جواب به این سوال باید گفت که زمانی که شما یک فایل اکسل را باز می کنید، لزوما محتویات آن را نخوانده اید و برای خواندن مطالب داخل آن نیاز دارید تا محتویات آن را خط به خط بخوانید. در واقع تابع read_csv دقیقاً در حال خواندن سطر به سطر تمامی رکورد ها است و برای نگهداری تمامی رکوردها داخل یک DataFrame کلیه مجموعه داده ای خوانده شده را به تابع DataFrame کتابخانه پاندا داده ایم، که پیش تر در مقالات قبل در موردش صحبت کردیم.
دستور with چیست؟
- این مسئله بر می گردد به مباحث پیشرفته تر پایتون که فراتر از مطالب این پست است. به همین خاطر شما را به مقاله ای هدایت می کنم تا بتوانید دستور with را بهتر درک کنید. مشاهده مقاله

اکنون زمان این رسیده است تا اطلاعاتی مفید از این مجموعه داده استخراج کنیم.

با نوشتن کد زیر به راحتی می توانید تمامی انواع داده ای که در تمامی ویژگی ها یا ستون های یک مجموعه داده ای وجود دارد، پیدا کنید.

types = data.dtypes
print(types)

با نوشتن کد زیر شما می توانید در مقدار اول تاپل تعداد سطر و در مقدار دوم تاپل تعداد ستون را بدست آورید.

print(df.shape)
# or
print("(rows:{}, columns:{})".format(*df.shape)) 

برای نمایش خلاصه ای از کل مجموعه داده دستور زیر را می نویسیم:

print(df.tail())

برای نمایش تعداد سطرهای ابتدایی مجموعه داده ای، دستور زیر را می نویسیم:

print(df.head(20))

برای نمایش اطلاعات آماری از کل مجموعه داده ای می توانید از دستور زیر استفاده نمایید:

print(df.describe())

موارد نمایش داده شده، به ترتیب نمایش دهنده اطلاعات زیر هستند:

  • تعداد
  • میانگین
  • انحراف معیار
  • مقدار کمینه
  • صدک بیست و پنجم
  • صدک پنجاهم
  • صدک هفتاد و پنجم
  • مقدار بیشینه


برای نمایش از سطر nام تا mام دستور زیر را می نویسیم:

print(df[30:60].tail())

برای دسترسی به تمامی سطر ها و به عبارتی پیمایش کردن میان تمامی یا برخی از سطر ها بصورت زیر عمل می کنیم:

for index, row in df.iterrows():
    print(row['Country'])
    print(index)
    print(row)

در خط دوم این قطعه کد، تمامی مقادیر ستون Country را باز می گرداند.

در خط سوم این قطعه کد، تمامی اندیس ها را باز می گرداند.

در خط چهارم این قطعه کد، اطلاعات کامل کل هر سطر را می توانیم مشاهده کنیم.

http://vrgl.ir/NiKWP
http://vrgl.ir/VAURr