فاطمه کریمی
فاطمه کریمی
خواندن ۳ دقیقه·۱ ماه پیش

داده‌های مستطیلی (rectangular data)

در علوم داده، اغلب با یک شیء داده‌ای مستطیلی کار می‌کنیم، مانند یک جدول پایگاه داده یا فایل اکسل. داده‌های مستطیلی به‌طور کلی به ماتریسی دو‌بعدی اطلاق می‌شوند که ردیف‌ها نشان‌دهنده رکوردها (مشاهدات) و ستون‌ها نشان‌دهنده ویژگی‌ها (متغیرها) هستند. در زبان‌های R و Python، داده‌ها اغلب در قالبی به نام Data Frame ذخیره می‌شوند.

داده‌های مستطیلی (rectangular data)
داده‌های مستطیلی (rectangular data)

ممکن است داده‌ها ابتدا به این شکل نباشند؛ داده‌های بدون ساختار (مانند متن) باید پردازش و تبدیل شوند تا به عنوان یک مجموعه ویژگی‌ها در قالب داده‌های مستطیلی ارائه شوند. داده‌های ذخیره‌شده در پایگاه‌های داده رابطه‌ای هم باید استخراج و در یک جدول قرار بگیرند تا بتوان از آن‌ها در تحلیل‌های داده و مدل‌سازی استفاده کرد.

کد نمونه در Python برای ایجاد Data Frame

در اینجا یک مثال از ساخت داده‌های مستطیلی با استفاده از پایتون آورده شده است:

import pandas as pd data = { 'Category': ['Music/Movie/Game', 'Music/Movie/Game', 'Automotive', 'Automotive'], 'Currency': ['US', 'US', 'US', 'US'], 'SellerRating': [3249, 3249, 3115, 3115], 'Duration': [5, 5, 7, 7], 'ClosePrice': [0.01, 0.01, 0.01, 0.01], 'Competitive?': [0, 0, 0, 1] } df = pd.DataFrame(data) print(df)

خروجی:

Category Currency SellerRating Duration ClosePrice Competitive? 0 Music/Movie/Game US 3249 5 0.01 1 Music/Movie/Game US 3249 5 0.01 2 Automotive US 3115 7 0.01 3 Automotive US 3115 7 0.01

در این مثال، ما یک DataFrame ساده در پایتون ایجاد کردیم که شامل داده‌های دسته‌بندی شده و داده‌های عددی است.

ساختارهای داده غیرمستطیلی (Nonrectangular Data Structures)

علاوه بر داده‌های مستطیلی (rectangular data)، که معمولاً در قالب جداول دیده می‌شوند، انواع دیگری از داده‌ها نیز وجود دارند که به عنوان داده‌های غیرمستطیلی شناخته می‌شوند. این داده‌ها در بسیاری از مسائل تحلیل داده و یادگیری ماشین اهمیت خاصی دارند و معمولاً شامل اطلاعاتی هستند که به صورت پیوسته یا وابسته به زمان یا مکان ارائه می‌شوند. در ادامه، به برخی از این ساختارهای داده غیرمستطیلی پرداخته می‌شود:

۱. داده‌های سری زمانی (Time Series Data)

داده‌های سری زمانی به مجموعه‌ای از اندازه‌گیری‌های متوالی از یک متغیر در طول زمان گفته می‌شود. این نوع داده‌ها به خصوص در حوزه‌هایی مانند پیش‌بینی آماری (مانند پیش‌بینی فروش یا قیمت سهام) اهمیت زیادی دارند. به عنوان مثال، داده‌های دما که در طول چند روز ثبت شده‌اند، یک نمونه از داده‌های سری زمانی است.

ویژگی‌های داده‌های سری زمانی:

  • داده‌ها به ترتیب زمانی مرتب می‌شوند.
  • تغییرات و الگوهای زمانی قابل بررسی هستند.
  • تحلیل روند و پیش‌بینی آینده بر اساس تاریخچه‌ی داده‌ها امکان‌پذیر است.

۲. داده‌های مکانی (Spatial Data)

داده‌های مکانی به اطلاعاتی گفته می‌شود که مختصات فضایی (مانند طول و عرض جغرافیایی) به آنها متصل است. این نوع داده‌ها در تحلیل‌های مربوط به نقشه‌برداری و مکان‌یابی استفاده می‌شوند.

دو نوع نمایش برای داده‌های مکانی وجود دارد:

  1. نمایش شیءمحور (Object-Based Representation): در این نوع نمایش، داده‌ها به اشیای مختلف مرتبط هستند، مثلاً یک خانه به عنوان شیء و مختصات جغرافیایی آن.
  2. نمایش زمینه‌ای (Field View): در این نوع نمایش، داده‌ها به واحدهای کوچک‌تری از فضا مربوط می‌شوند و برای هر واحد، یک مقدار مرتبط (مثلاً روشنایی پیکسل) تعریف می‌شود.

۳. داده‌های شبکه‌ای یا گراف (Graph Data)

داده‌های شبکه‌ای یا گرافی برای نشان‌دادن ارتباطات بین موجودات مختلف استفاده می‌شوند. به عنوان مثال، یک گراف از شبکه‌های اجتماعی، مانند فیسبوک یا لینکدین، ارتباطات بین کاربران را نشان می‌دهد. هر موجود (مانند افراد یا گره‌ها) به صورت یک نقطه (گره) و هر ارتباط بین آن‌ها به صورت یک خط (لبه) نمایش داده می‌شود.

ویژگی‌های داده‌های گرافی:

  • گره‌ها (Nodes): هر گره نمایانگر یک موجود (مثلاً یک شخص یا یک محل) است.
  • لبه‌ها (Edges): هر لبه نمایانگر ارتباط بین گره‌ها است (مثلاً یک دوستی در شبکه اجتماعی).

اهمیت داده‌های غیرمستطیلی

داده‌های غیرمستطیلی اهمیت زیادی در دنیای داده‌محور امروز دارند زیرا بسیاری از سیستم‌ها، از جمله اینترنت اشیا، داده‌های متوالی یا مکانی تولید می‌کنند. همچنین، تحلیل ارتباطات در شبکه‌ها، مانند شبکه‌های اجتماعی و فیزیکی، بر اساس داده‌های گرافی انجام می‌شود.

گراف ها در آمار

در علوم کامپیوتر، اصطلاح "گراف" معمولاً به نمایش اتصالات بین اشیا اشاره دارد، اما در آمار، "گراف" به انواع نمودارها و تجسم داده‌ها اطلاق می‌شود. این اصطلاح فقط به نمایش داده‌ها و نه به ساختار داده اشاره دارد.

پیشنهادات مطالعه بیشتر:

  1. مستندات Data Frame در R
  2. مستندات pandas در Python

منابع

کتاب "Practical Statistics for Data Scientists" نوشته Peter Bruce, Andrew Bruce, و Peter Gedeck

rectangular datanonrectangular data structuresآمارstatistics
Data enthusiast on a mission
شاید از این پست‌ها خوشتان بیاید