معرفی دیتاست های عمومی و رایگان برای پروژه های علم داده

در مسیر تبدیل شدن به یک دانشمند داده (data scientist) اولین قدم یافتن یک مجموعه داده مناسب برای تجزیه و تحلیل داده هاست. در طول این مسیر شما باید تصمیم بگیرید مجموعه داده در چه حوزه ای نیاز دارید و میخواهید این مجموعه داده چقدر بزرگ و نامرتب باشد. مرحله تمیز کردن داده ها (data cleaning) جزئی جدایی ناپذیر از علم داده است اما ممکن است تصمیم شما برای اولین پروژه ها این باشد که به جای تمیز کردن داده ها، روی تجزیه و تحلیل آن ها تمرکز کنید.

مجموعه داده هایی از انواع مختلف و پیچیدگی های گوناگون وجود دارد که به نظر میرسد برای پروژه های اول خوب کار می کنند. این مجموعه داده ها منابع مختلفی مانند داده های جمعیت شناختی، داده های اقتصادی، داده های متنی، داده های شرکتی و... را پوشش می دهند.

لیست کامل این دیتاست ها یا مجموعه داده ها در دو قسمت آورده شده است:

قسمت اول

قسمت دوم