دادهها از منابع مختلفی به دست میآیند: اندازهگیریهای سنسور، رویدادها، متن، تصاویر و ویدئوها. دنیای اینترنت اشیا (IoT) روزانه حجم عظیمی از اطلاعات تولید میکند.
بخش زیادی از این دادهها ساختارمند نیستند: تصاویر تنها مجموعهای از پیکسلها هستند که هر پیکسل حاوی اطلاعات رنگ RGB (قرمز، سبز، آبی) است. متنها رشتههایی از کلمات و کاراکترها هستند که معمولاً به بخشها و زیربخشها تقسیم میشوند. برای مثال، جریانهای کلیک (Clickstreams) رشتهای از اقدامات کاربران هنگام کار با یک برنامه یا وبسایت است.
یکی از چالشهای اصلی در علم داده، تبدیل دادههای خام به اطلاعات قابل استفاده است. برای درک بهتر مفاهیم آماری، لازم است این دادهها پردازش و به فرم ساختاریافته مانند جدولهای ردیف و ستونی تبدیل شوند، مشابه دادههای خروجی از یک دیتابیس رابطهای یا اطلاعات جمعآوری شده در یک پژوهش.
دادههای ساختیافته به دو نوع اصلی تقسیم میشوند: عددی و دستهبندی شده.
دادههای عددی خود به دو نوع تقسیم میشوند: پیوسته و گسسته.
دادههای پیوسته شامل دادههایی مانند سرعت باد یا مدت زمان هستند که میتوانند هر مقداری بین دو نقطه خاص بگیرند.
دادههای گسسته شامل شمارش وقایع یا تعداد وقوع یک اتفاق هستند.
دادههای دستهبندی شده فقط مقادیر مشخصی از یک دسته را میگیرند؛ مثلاً نوع صفحه نمایش تلویزیون (پلاسما، LCD، LED و غیره) یا نام ایالت (آلاباما، آلاسکا و غیره). دادههای باینری، نوعی خاص از دادههای دستهبندی شده هستند که فقط دو مقدار میگیرند، مثلاً 0 و 1، بله و خیر، یا درست و نادرست.
دادههای ترتیبی نیز نوع دیگری از دادههای دستهبندی شده هستند که یک ترتیب مشخص دارند؛ مثلاً نمرات عددی (1، 2، 3، 4، یا 5).
نوع دادهها تعیین میکند چه نوع نمودار، تحلیل داده یا مدل آماری باید استفاده شود. همچنین در نرمافزارهایی مانند R و Python این دستهبندیها به بهینهسازی عملکرد محاسبات کمک میکنند. از همه مهمتر، نوع داده یک متغیر مشخص میکند که نرمافزار چگونه باید محاسبات مربوط به آن متغیر را انجام دهد.
کتاب "Practical Statistics for Data Scientists" نوشته Peter Bruce, Andrew Bruce, و Peter Gedeck