معرفی چند مجموعه داده برای داده کاوی

این متن رو حدود سه سال قبل نوشتم. امروز متوجه شدم یک کتابخانه جدید با عنوان peopleanalyticsdata در پایتون توسط آقای Akshay K نوشته شده است. در این کتابخانه حدود 16 مجموعه داده وجود دارد. نکته جالب این هست که به راحتی می توانید این مجموعه داده ها را در قالب DataFrame تبدیل کنید و به راحتی استفاده کنید.

مجموعه داده PaySim

این مجموعه داده حاوی داده های تراکنشی های مالی با استفاده از موبایل است. این مجموعه داده شبیه سازی شده است و برای فعالیت های دانشمند داده مورد استفاده قرار می گیرد. مهمترین ویژگی های (Features) این مجموعه داده عبارتند از:

زمان تراکنش

نوع تراکنش ها

CASH-IN, CASH-OUT, DEBIT, PAYMENT and TRANSFER.

حجم تراکنش

شماره شناسایی مشتری ایی که تراکنش را شروع کرده است

موجودی قبل از انجام تراکنش

موجودی بعد از انجام تراکنش

شماره شناسایی دریافت کننده تراکنش

موجودی دریافت کننده قبل از انجام تراکنش

موجودی دریافت کننده بعد از انجام تراکنش

تقلب هست یا خیر؟ (ستون برچسب)

نشانگر تقلب: این ستون بیانگر انتقال بیش از حد مجاز است.

برای دسترسی به این مجموعه داده می توانید به آدرس زیر بروید:

https://github.com/EdgarLopezPhD/PaySim

مجموعه داده گل زنبق

مجموعه داده گل زنبق یا مجموعه داده زنبق فیشر یک مجموعه داده چند متغیره است که توسط رانلد فیشر در سال ۱۹۳۶ معرفی شد. این مجموعه داده حاوی 150 مشاهده است. طول و عرض گلبرگ و کاس برگ سه گونه از گل زنبق (setosa و versicolor و virginica) در این مجموعه داده وجود دارد.

این مجموعه داده همچنین مجموعه داده زنبق اندرسون نیز نامیده می شود. برای استفاده از این مجموعه داده می توانید از کدهای زیر استفاده کنید:

در پایتون

  from sklearn.datasets import load_iris

در R

  iris

مجموعه داده twosigmanews

این مجموعه داده مرتبط با داده های بازارهای مالی است. مقادیر موجود براساس مقدار معامله شده و دسترسی به اطلاعات تعیین شده است.

این مجموعه داده شامل 35 ویژگی است. این ویژگی ها در دو نوع عددی و طبقه ای هستند.

  from kaggle.competitions import twosigmanews

تصاویر ماهواره ای و داده های ایستگاه های هواشناسی

با استفاده از کتابخانه rdwd در R می توانید داده های مربوط به ایستگاه های هواشناسی کشور آلمان را داشته باشید. این بسته بیش از دویست هزار مشاهده مربوط به ایستگاه های هواشناسی را فراهم می کند.

همچنین با استفاده از کتابخانه SkyWatchr می توانید تصاویر ماهواره ای و داده های آب و هوا و جوی را دانلود کنید. این کتابخانه از طریق SkyWatch API این کار را انجام می دهد. اطلاعات برخی از شهرهای کشور ما نیز با استفاده از این کتابخانه قابل فراخوانی است. امکان جستجو در مجموعه داده ها براساس طول موج (باند)، پوشش ابر، وضوح، محل و تاریخ فراهم است.