تحلیل داده با پایتون

تحلیل داده ابزار هایی آماری است که به منظور استخراج اطلاعات مفید از دل داده ها استفاده می شود اطلاعاتی از قبیل میانه، میانگین، واریانس و بصری سازی داده ها و غیره. یکی از کتابخانه های مورد استفاده برای تحلیل داده ها در پایتون کتابخانه panda است. در این پست با استفاده از یک اسکریپت داده ها را از یک فایل اکسل خوانده و تحلیل ساده بر روی ان اعمال می کنیم.

فایل داده:

۱- نام فایل state.csv

۲- ستون ها

* ستون اول state نام ایالت

  • ستون دوم population جمعیت هر ایالت
  • ستون سوم murder rate نرخ قتل
  • ستون چهارم که مخففت نام هر ایالت است.

به اسکریپت زیر توجه کنید:

خ
خ

خط ۴ - داده ها را از فایل state خوانده و درون متغییر data قرار می دهد.

خط ۷- ۱۰ رکورد اول لیست data را در خروجی چاپ می کند

خط ۱۰ - ده رکورد اخر لیست data را در خروجی چاپ می کند.

خط ۱۳- یک ستون جدید به متغییر data به نام populationinMillions اضافه می کند مقدار آن برابر ستون population تقسیم بر میلیون است و در خط ۱۴ پنج رکورد اول لیست dataدر خروجی چاپ می شود در این خروجی جدید می بینیم تعداد ستون ها ۵ مورد شده است

خط ۲۰- میانگین ستون murder rate محاسبه و درون متغییر MurderRate_mean قرار می گیرد و در خط ۲۱ در خروجی چاپ می شود.

خط ۲۴- میانه ستون population محاسبه و در خط ۲۵ چاپ می شود.


منبع

این پست به مرور کامل می شود

برای مطالعه بیشتر می توانید به منبع زیر مراجعه کنید:

https://www.geeksforgeeks.org/exploratory-data-analysis-in-python-set-1/
دریافت کد برنامه 
https://github.com/sedighi-mahdi/pycode/blob/master/panda.py
دریافت فایل داده 
https://github.com/sedighi-mahdi/pycode/blob/master/state.csv