خواندن ۳ دقیقه·۳ سال پیش

ایجاد کردن،خواندن و نوشتن

توی این میکرو کورس قراره همه چیز رو در باره pandas یاد بگیریم ،محبوب ترین کتابخونه پایتون برای برای انالیز داده.

در این اموزش نحوه ایجاد داده و همچنین کار کردن روی داده های از قبل موجود رو یاد میگیریم.

شروع

در ابتدا کتابخونه pandas رو اضافه میکنیم:

دو آبجکت اصلی در pandas وجود داره که به اونها دیتافریم(DataFrame) و سری(Series) گفته میشه.

DataFrame

دیتافریم یک جدوله که شامل ورودی های مجزاست که هر کدوم ارزش خاص خودشون و دارن .هر ورودی مربوط به یک ردیف (یا رکورد) و یک ستون است .برای مثال این یتافریم ساده زیر رو در نظر بگیرید:

در دیتافریمی که در بالا ایجاد کردیم ورودی 0 مربوط به ستون yes مقدار 50 رو داره. ورودی های دیتافریم ها به نوع داده عددی محدود نیستن و میتوننن مقدار bool و str هم داشته باشن.

همینطوری که در مثال بالا دیدید ما از () pd.DataFrame برای ایجاد یک دیتافریم استفاده کردیم و از دیکشنری (نوعی دیتا تایپ در پایتون) برای تعریفغ مقادریر جدول استفاده کردیم که کلید های این دیکشنری اسم ستون ها و مقادیر آن ورودی های دیتافریم ما هستن.

دیکشنری مقادیری را به برچسب‌های ستون اختصاص می‌دهد، اما فقط از یک شمارش صعودی از 0 (0، 1، 2، 3، ...) برای برچسب‌های ردیف استفاده می‌کند. گاهی اوقات این مشکلی ندارد، اما اغلب اوقات ما خودمان می خواهیم این برچسب ها را اختصاص دهیم.

لیستی از برچسب‌های ردیفی که در DataFrame استفاده می‌شوند به عنوان Index شناخته می‌شوند. ما می توانیم با استفاده از یک پارامتر شاخص در سازنده خود مقادیری را به آن اختصاص دهیم:

Series

در مقابل، یک سری، دنباله ای از مقادیر داده است. اگر یک DataFrame یک جدول باشد، یک سری یک لیست است.

یک سری، در اصل، یک ستون واحد از یک DataFrame است. بنابراین می‌توانید با استفاده از یک پارامتر شاخص، برچسب‌های ردیف را به همان روش قبلی به سری اختصاص دهید. با این حال، یک سری نام ستون ندارد، فقط یک نام کلی دارد:

سری و DataFrame ارتباط نزدیکی با هم دارند. این مفیده که یک DataFrame را در واقع فقط دسته‌ای از سری «چسبیده به هم» بدانیم. در بخش بعدی این آموزش بیشتر در این مورد خواهیم دید.

خواندن فایل های داده

ایجاد یک DataFrame یا Series با دست بسیار مفید است. اما، بیشتر اوقات، ما در واقع داده های خود را با دست ایجاد نمی کنیم. در عوض، ما با داده‌هایی که از قبل وجود دارد کار خواهیم کرد.

داده ها را می توان در هر یک از اشکال و فرمت های مختلف ذخیره کرد. تا حد زیادی اساسی ترین آنها فایل CSV فروتن است. هنگامی که یک فایل CSV را باز می کنید، چیزی شبیه این دریافت می کنید:

بنابراین یک فایل CSV جدولی از مقادیر است که با کاما از هم جدا شده اند. از این رو نام: 'Comma-Separated Values' یا CSV بهش داده شده .

بیایید اکنون مجموعه داده های اسباب بازی خود را کنار بگذاریم و ببینیم که یک مجموعه داده واقعی زمانی که آن را در DataFrame می خوانیم چگونه به نظر می رسد. ما از تابع ()pd.read_csv برای خواندن داده ها در یک DataFrame استفاده می کنیم. این به این ترتیب است:

ما می توانیم از ویژگی shape برای بررسی بزرگی DataFrame استفاده کنیم:

بنابراین DataFrame جدید ما دارای 130000 رکورد است که در 14 ستون مختلف تقسیم شده اند. این تقریباً 2 میلیون ورودی است!

می‌توانیم محتویات DataFrame حاصل را با استفاده از دستور ()head بررسی کنیم که پنج ردیف اول را می‌گیرد:

تابع ()pd.read_csv دارای بیش از 30 پارامتر اختیاری است که می توانید مشخص کنید. به عنوان مثال، در این مجموعه داده می توانید ببینید که فایل CSV دارای یک فهرست داخلی است که pandas به طور خودکار آن را دریافت نمی کنند. برای اینکه pandas از آن ستون برای ایندکس استفاده کنند (به جای ایجاد یک ستون جدید از ابتدا)، می توانیم یک index_col را مشخص کنیم.