در علوم داده، اغلب با یک شیء دادهای مستطیلی کار میکنیم، مانند یک جدول پایگاه داده یا فایل اکسل. دادههای مستطیلی بهطور کلی به ماتریسی دوبعدی اطلاق میشوند که ردیفها نشاندهنده رکوردها (مشاهدات) و ستونها نشاندهنده ویژگیها (متغیرها) هستند. در زبانهای R و Python، دادهها اغلب در قالبی به نام Data Frame ذخیره میشوند.
ممکن است دادهها ابتدا به این شکل نباشند؛ دادههای بدون ساختار (مانند متن) باید پردازش و تبدیل شوند تا به عنوان یک مجموعه ویژگیها در قالب دادههای مستطیلی ارائه شوند. دادههای ذخیرهشده در پایگاههای داده رابطهای هم باید استخراج و در یک جدول قرار بگیرند تا بتوان از آنها در تحلیلهای داده و مدلسازی استفاده کرد.
در اینجا یک مثال از ساخت دادههای مستطیلی با استفاده از پایتون آورده شده است:
import pandas as pd data = { 'Category': ['Music/Movie/Game', 'Music/Movie/Game', 'Automotive', 'Automotive'], 'Currency': ['US', 'US', 'US', 'US'], 'SellerRating': [3249, 3249, 3115, 3115], 'Duration': [5, 5, 7, 7], 'ClosePrice': [0.01, 0.01, 0.01, 0.01], 'Competitive?': [0, 0, 0, 1] } df = pd.DataFrame(data) print(df)
خروجی:
Category Currency SellerRating Duration ClosePrice Competitive? 0 Music/Movie/Game US 3249 5 0.01 1 Music/Movie/Game US 3249 5 0.01 2 Automotive US 3115 7 0.01 3 Automotive US 3115 7 0.01
در این مثال، ما یک DataFrame ساده در پایتون ایجاد کردیم که شامل دادههای دستهبندی شده و دادههای عددی است.
علاوه بر دادههای مستطیلی (rectangular data)، که معمولاً در قالب جداول دیده میشوند، انواع دیگری از دادهها نیز وجود دارند که به عنوان دادههای غیرمستطیلی شناخته میشوند. این دادهها در بسیاری از مسائل تحلیل داده و یادگیری ماشین اهمیت خاصی دارند و معمولاً شامل اطلاعاتی هستند که به صورت پیوسته یا وابسته به زمان یا مکان ارائه میشوند. در ادامه، به برخی از این ساختارهای داده غیرمستطیلی پرداخته میشود:
دادههای سری زمانی به مجموعهای از اندازهگیریهای متوالی از یک متغیر در طول زمان گفته میشود. این نوع دادهها به خصوص در حوزههایی مانند پیشبینی آماری (مانند پیشبینی فروش یا قیمت سهام) اهمیت زیادی دارند. به عنوان مثال، دادههای دما که در طول چند روز ثبت شدهاند، یک نمونه از دادههای سری زمانی است.
ویژگیهای دادههای سری زمانی:
دادههای مکانی به اطلاعاتی گفته میشود که مختصات فضایی (مانند طول و عرض جغرافیایی) به آنها متصل است. این نوع دادهها در تحلیلهای مربوط به نقشهبرداری و مکانیابی استفاده میشوند.
دو نوع نمایش برای دادههای مکانی وجود دارد:
دادههای شبکهای یا گرافی برای نشاندادن ارتباطات بین موجودات مختلف استفاده میشوند. به عنوان مثال، یک گراف از شبکههای اجتماعی، مانند فیسبوک یا لینکدین، ارتباطات بین کاربران را نشان میدهد. هر موجود (مانند افراد یا گرهها) به صورت یک نقطه (گره) و هر ارتباط بین آنها به صورت یک خط (لبه) نمایش داده میشود.
ویژگیهای دادههای گرافی:
دادههای غیرمستطیلی اهمیت زیادی در دنیای دادهمحور امروز دارند زیرا بسیاری از سیستمها، از جمله اینترنت اشیا، دادههای متوالی یا مکانی تولید میکنند. همچنین، تحلیل ارتباطات در شبکهها، مانند شبکههای اجتماعی و فیزیکی، بر اساس دادههای گرافی انجام میشود.
گراف ها در آمار
در علوم کامپیوتر، اصطلاح "گراف" معمولاً به نمایش اتصالات بین اشیا اشاره دارد، اما در آمار، "گراف" به انواع نمودارها و تجسم دادهها اطلاق میشود. این اصطلاح فقط به نمایش دادهها و نه به ساختار داده اشاره دارد.
کتاب "Practical Statistics for Data Scientists" نوشته Peter Bruce, Andrew Bruce, و Peter Gedeck