توی این میکرو کورس قراره همه چیز رو در باره pandas یاد بگیریم ،محبوب ترین کتابخونه پایتون برای برای انالیز داده.
در این اموزش نحوه ایجاد داده و همچنین کار کردن روی داده های از قبل موجود رو یاد میگیریم.
در ابتدا کتابخونه pandas رو اضافه میکنیم:
دو آبجکت اصلی در pandas وجود داره که به اونها دیتافریم(DataFrame) و سری(Series) گفته میشه.
دیتافریم یک جدوله که شامل ورودی های مجزاست که هر کدوم ارزش خاص خودشون و دارن .هر ورودی مربوط به یک ردیف (یا رکورد) و یک ستون است .برای مثال این یتافریم ساده زیر رو در نظر بگیرید:
در دیتافریمی که در بالا ایجاد کردیم ورودی 0 مربوط به ستون yes مقدار 50 رو داره. ورودی های دیتافریم ها به نوع داده عددی محدود نیستن و میتوننن مقدار bool و str هم داشته باشن.
همینطوری که در مثال بالا دیدید ما از () pd.DataFrame برای ایجاد یک دیتافریم استفاده کردیم و از دیکشنری (نوعی دیتا تایپ در پایتون) برای تعریفغ مقادریر جدول استفاده کردیم که کلید های این دیکشنری اسم ستون ها و مقادیر آن ورودی های دیتافریم ما هستن.
دیکشنری مقادیری را به برچسبهای ستون اختصاص میدهد، اما فقط از یک شمارش صعودی از 0 (0، 1، 2، 3، ...) برای برچسبهای ردیف استفاده میکند. گاهی اوقات این مشکلی ندارد، اما اغلب اوقات ما خودمان می خواهیم این برچسب ها را اختصاص دهیم.
لیستی از برچسبهای ردیفی که در DataFrame استفاده میشوند به عنوان Index شناخته میشوند. ما می توانیم با استفاده از یک پارامتر شاخص در سازنده خود مقادیری را به آن اختصاص دهیم:
در مقابل، یک سری، دنباله ای از مقادیر داده است. اگر یک DataFrame یک جدول باشد، یک سری یک لیست است.
یک سری، در اصل، یک ستون واحد از یک DataFrame است. بنابراین میتوانید با استفاده از یک پارامتر شاخص، برچسبهای ردیف را به همان روش قبلی به سری اختصاص دهید. با این حال، یک سری نام ستون ندارد، فقط یک نام کلی دارد:
سری و DataFrame ارتباط نزدیکی با هم دارند. این مفیده که یک DataFrame را در واقع فقط دستهای از سری «چسبیده به هم» بدانیم. در بخش بعدی این آموزش بیشتر در این مورد خواهیم دید.
ایجاد یک DataFrame یا Series با دست بسیار مفید است. اما، بیشتر اوقات، ما در واقع داده های خود را با دست ایجاد نمی کنیم. در عوض، ما با دادههایی که از قبل وجود دارد کار خواهیم کرد.
داده ها را می توان در هر یک از اشکال و فرمت های مختلف ذخیره کرد. تا حد زیادی اساسی ترین آنها فایل CSV فروتن است. هنگامی که یک فایل CSV را باز می کنید، چیزی شبیه این دریافت می کنید:
بنابراین یک فایل CSV جدولی از مقادیر است که با کاما از هم جدا شده اند. از این رو نام: 'Comma-Separated Values' یا CSV بهش داده شده .
بیایید اکنون مجموعه داده های اسباب بازی خود را کنار بگذاریم و ببینیم که یک مجموعه داده واقعی زمانی که آن را در DataFrame می خوانیم چگونه به نظر می رسد. ما از تابع ()pd.read_csv برای خواندن داده ها در یک DataFrame استفاده می کنیم. این به این ترتیب است:
ما می توانیم از ویژگی shape برای بررسی بزرگی DataFrame استفاده کنیم:
بنابراین DataFrame جدید ما دارای 130000 رکورد است که در 14 ستون مختلف تقسیم شده اند. این تقریباً 2 میلیون ورودی است!
میتوانیم محتویات DataFrame حاصل را با استفاده از دستور ()head بررسی کنیم که پنج ردیف اول را میگیرد:
تابع ()pd.read_csv دارای بیش از 30 پارامتر اختیاری است که می توانید مشخص کنید. به عنوان مثال، در این مجموعه داده می توانید ببینید که فایل CSV دارای یک فهرست داخلی است که pandas به طور خودکار آن را دریافت نمی کنند. برای اینکه pandas از آن ستون برای ایندکس استفاده کنند (به جای ایجاد یک ستون جدید از ابتدا)، می توانیم یک index_col را مشخص کنیم.
آموزش اصلی رو میتونید از اینجا ببینید.