مکعب داده در علم داده چیست؟

فرض کنید چهار جدول دارید

  • جدول 1) مشخصات مشتری ها را نگاه می دارد.
  • جدول 2) مشخصات اقلام (کالاها) را نگاه می دارد.
  • جدول 3) مشخصات کارکنان را نگاه می دارد.
  • جدول 4) شعبه های این فروشگاه را نگاه می دارد.
پایگاه داده های رابطه ای یکی از در دسترس ترین و غنی ترین مخازن اطلاعاتی به شمار می روند و به همین دلیل شکل اساسی داده ها در مطالعه ی داده کاوی محسوب می شوند.

تعریف انبار داده:

یک انبار داده مخزنی از اطلاعات است که از چندین منبع جمع آوری شده است و تحت شِمای یکدستی و معمولا بر روی یک سایت نگهداری و ذخیره می شود. (منبع : Data Mining: concepts and techniques)

فرض کنید فروشگاه لباس ما یک شرکت بین المللی موفق با تعدادی شعبه است. هر شعبه نیز مجموعه بانک اطلاعاتی خود را نگهداری می کند. مدیر این فروشگاه از شما می خواهد تا فروش اقلام و کالاهای هر شعبه در یک فصل را تحلیل کنید.

اگر این فروشگاه دارای یک شعبه بود و تمامی اطلاعاتش در یک بانک نگهداری می شُد کاری بسیار ساده بود. اما در این حالت ما می گوییم انبارهایی از داده داریم.

یک انبار داده معمولا با کمک یک ساختار چند بُعدی با نام مکعب داده مدل سازی می شود. به عبارتی یک مکعب داده، یک دید چند بُعدی را به کاربر ارائه می کند و با پیش محاسبه ی آن می توان دسترسی سریعی به داده های خلاصه شده داشت.
نمونه ای از مکعب داده
نمونه ای از مکعب داده

با تهیه یک ساختار چند بُعدی می توان از رکوردها و پیش محاسبه رکوردها، سیستم های انبار داده می تواند پشتیبان خوبی برای پردازش تحلیلی بر خط باشد. در واقع چنین عملیاتی دیدگاه های متفاوت کاربران را پوشش می دهد.

برای پیاده سازی یک انبار داده در پایتون می توان به راحتی از کتابخانه pandas استفاده کرد که در پست آموزش کتابخانه pandas در پایتون بصورت کامل آموزش داده شده است.


http://vrgl.ir/EoPvc
http://vrgl.ir/VAURr
http://vrgl.ir/NiKWP