خواندن ۲ دقیقه·۵ ماه پیش

عناصر داده‌های ساختاریافته

داده‌ها از منابع مختلفی به دست می‌آیند: اندازه‌گیری‌های سنسور، رویدادها، متن، تصاویر و ویدئوها. دنیای اینترنت اشیا (IoT) روزانه حجم عظیمی از اطلاعات تولید می‌کند.

بخش زیادی از این داده‌ها ساختارمند نیستند: تصاویر تنها مجموعه‌ای از پیکسل‌ها هستند که هر پیکسل حاوی اطلاعات رنگ RGB (قرمز، سبز، آبی) است. متن‌ها رشته‌هایی از کلمات و کاراکترها هستند که معمولاً به بخش‌ها و زیربخش‌ها تقسیم می‌شوند. برای مثال، جریان‌های کلیک (Clickstreams) رشته‌ای از اقدامات کاربران هنگام کار با یک برنامه یا وب‌سایت است.

یکی از چالش‌های اصلی در علم داده، تبدیل داده‌های خام به اطلاعات قابل استفاده است. برای درک بهتر مفاهیم آماری، لازم است این داده‌ها پردازش و به فرم ساختاریافته مانند جدول‌های ردیف و ستونی تبدیل شوند، مشابه داده‌های خروجی از یک دیتابیس رابطه‌ای یا اطلاعات جمع‌آوری شده در یک پژوهش.

انواع داده‌های ساختاریافته

داده‌های ساخت‌یافته به دو نوع اصلی تقسیم می‌شوند: عددی و دسته‌بندی شده.

داده‌های عددی خود به دو نوع تقسیم می‌شوند: پیوسته و گسسته.

داده‌های پیوسته شامل داده‌هایی مانند سرعت باد یا مدت زمان هستند که می‌توانند هر مقداری بین دو نقطه خاص بگیرند.

داده‌های گسسته شامل شمارش وقایع یا تعداد وقوع یک اتفاق هستند.

داده‌های دسته‌بندی شده فقط مقادیر مشخصی از یک دسته را می‌گیرند؛ مثلاً نوع صفحه نمایش تلویزیون (پلاسما، LCD، LED و غیره) یا نام ایالت (آلاباما، آلاسکا و غیره). داده‌های باینری، نوعی خاص از داده‌های دسته‌بندی شده هستند که فقط دو مقدار می‌گیرند، مثلاً 0 و 1، بله و خیر، یا درست و نادرست.

داده‌های ترتیبی نیز نوع دیگری از داده‌های دسته‌بندی شده هستند که یک ترتیب مشخص دارند؛ مثلاً نمرات عددی (1، 2، 3، 4، یا 5).

اهمیت نوع داده‌ها

نوع داده‌ها تعیین می‌کند چه نوع نمودار، تحلیل داده یا مدل آماری باید استفاده شود. همچنین در نرم‌افزارهایی مانند R و Python این دسته‌بندی‌ها به بهینه‌سازی عملکرد محاسبات کمک می‌کنند. از همه مهم‌تر، نوع داده یک متغیر مشخص می‌کند که نرم‌افزار چگونه باید محاسبات مربوط به آن متغیر را انجام دهد.

مطالعه بیشتر

مستندات pandas انواع مختلف داده‌ها را توصیف کرده و توضیح می‌دهد که چگونه می‌توان آن‌ها را در زبان Python مدیریت کرد.
دسته‌بندی داده‌ها ممکن است در هر زبان برنامه نویسی متفاوت باشد. سایت R Tutorial دسته‌بندی داده‌ها در R را پوشش می‌دهد.
پایگاه‌های داده در طبقه‌بندی انواع داده‌ها دقیق‌تر هستند و مواردی مانند سطح دقت، فیلدهای با طول ثابت یا متغیر و موارد دیگر را در نظر می‌گیرند.

منابع

کتاب "Practical Statistics for Data Scientists" نوشته Peter Bruce, Andrew Bruce, و Peter Gedeck

آمارstatisticsانواع دادهdata

فاطمه کریمی

Data enthusiast on a mission

شاید از این پست‌ها خوشتان بیاید