محمد فعال علوی
محمد فعال علوی
خواندن ۵ دقیقه·۴ سال پیش

داده کاوی - قسمت چهارم


انباره های داده

فرض کنید شرکت آل الکترونیکس، شرکتی بین المللی و موفق با شعبه‌های متعدد در اطراف جهان باشد. هر شعبه مجموعه منابع اطلاعاتی مختص خود را دارد. مدیر شرکت آل الکترونیکس از شما می‌خواهد تا آنالیزی از فروش شرکت بر اساس هر مورد کالا و هر شعبه در بازه زمانی یک فصل تهیه کنید. به نظر می رسد این کار بسیار مشکل باشد علی‌الخصوص به‌این‌دلیل که داده‌ها با هم مرتبط بوده و در پایگاه‌های داده متعددی که به صورت فیزیکی در نقاط مختلف قرار گرفته‌اند، پراکنده‌اند.

اگر شرکت آل الکترونیکس یک انباره داده داشته‌باشد، این کار بسیار آسان خواهد شد. انباره داده، مخزنی شامل اطلاعات جمع آوری شده از چندین منبع مختلف است که این اطلاعات را تحت یک طرح واحد جمع آوری کرده است. مخازن اطلاعات معمولا در یک سایت واحد قرار می‌گیرند. انباره‌های داده حاصل فرآیند پاک‌سازی داده، یکپارچه‌سازی داده، تغییر شکل داده، بارگذاری داده - Data Loading - و نوسازی دوره‌ای داده - Periodic Data Refreshing - هستند. این فرآیندها در فصول 3 و 4 مورد بحث قرار خواهد گرفت. در تصویر 1-6 چهارچوب نمونه‌ای از ساختار و کاربرد انباره داده برای شرکت آل الکترونیکس نشان داده شده است.


داده‌هایی که در انباره داده وجود دارد، با هدف تسهیل تصمیم سازی بر اساس موضوعات اصلی تقسیم‌بندی می‌شوند. (برای مثال، مشتری، موارد کالا، تامین‌کننده و فعالیت) گردآوری داده‌ها با هدف به دست‌آوردن اطلاعات از چشم اندازهای تاریخی (برای مثال موضوعات مربوط به 6 تا 12 ماه گذشته) انجام شده و این اطلاعات معمولا در ادامه خلاصه‌سازی می‌شوند. برای مثال به جای گردآوری جزئیات هر تراکنش فروش، ممکن است در انباره داده خلاصه‌ای از هر تراکنش بر اساس نوع آن و به تفکیک فروشگاه گردآوری شود. همچنین ممکن است این داده‌ها را در سطح مناطق فروش خلاصه‌سازی کند.

انباره داده معمولا مبتنی بر ساختارهای داده‌های چند بعدی مدل می‌شود. این ساختارها داده مکعب - Data Cube - نامیده می‌شوند. در داده مکعب هر بعد با یک خصوصیت یا مجموعه‌ای از خصوصیت‌ها در ارتباط است. داده مکعب، دیدگاهی چند بعدی از داده تولید کرده و این دیدگاه برای ما امکان انجام محاسبات اولیه و دسترسی سریع به داده خلاصه‌سازی شده را فراهم می‌کند.

مثال 1-3: یک داده مکعب برای شرکت آل الکترونیکس

تصویر 1-7 (الف) داده مکعبی را نشان می‌دهد که هدف آن خلاصه‌سازی داده‌های فروش شرکت آل الکترونیکس است. این مکعب دارای 3 بعد است: آدرس (که مقادیر شهر را در بر دارد مثل شیکاگو، نیویورک، تورنتو و ونکور)، زمان (که مقادیر هر فصل را در بر دارد شامل Q1 ، Q2 ، Q3 و Q4) و موارد (که شامل مقادیر سرگرمی‌های خانگی، رایانه، تلفن و امنیت است) مقادیر مجموع گردآوری شده در هر سلول مکعب شامل حجم فروش (مقادیر بر حسب هزار هستند) می‌شود. برای مثال کل فروش فصل اول یا Q1 برای موارد مرتبط با سیستم‌های امنیتی در شهر ونکور 400.000 دلار است که در سلول (ونکور، Q1 ، امنیت) نشان داده شده است. بر حسب نیاز ممکن است ما مکعب‌های بیشتری برای تجمیع مقادیر مجموع بر روی هر بعد تشکیل دهیم که این مقادیر از مجموعی از گروه‌بندی‌های مختلف در SQL به دست می‌آیند (برای مثال مقادیر کل فروش می‌تواند به تفکیک شهر و فصل، شهر و مورد، فصل و مورد یا به تفکیک هر بعد به تنهایی باشد)

با فراهم‌کردن دیدگاه‌های چندبعدی نسبت به داده و پیش‌پردازش داده‌های خلاصه‌شده، سیستم‌های انباره داده می‌توانند به شکل ذاتی به عنوان پشتیبانی برای OLAP محسوب شوند. عملیات پردازش تحلیلی آنلاین امکان استفاده از دانش پس زمینه را با توجه به دامنه داده مورد مطالعه میسر ساخته و نمایشی از داده در سطوح مختلف انتزاع ارائه می‌دهد. این عملیات دیدگاه‌های مختلف کاربران را در خود جای می‌دهد. به عنوان نمونه‌هایی از عملیات OLAP، شکافتن - Drill-Down - و به بالا حرکت کردن - Roll-Up - را می‌توان نام برد که به کاربر اجازه می‌دهند داده را در درجات مختلف خلاصه‌سازی مشاهده نماید. این مطلب در شکل 1-7 (ب) نشان داده شده است. برای مثال می‌توانیم در داده‌های فروش که بر اساس فصول خلاصه‌سازی شده‌اند با هدف دیدن خلاصه‌سازی بر اساس ماه، عملیات شکافتن را انجام دهیم. به طور مشابه با استفاده از عملیات به بالا حرکت کردن می‌توان از داده‌های خلاصه‌سازی شده فروش بر اساس شهرستان به داده‌های خلاصه شده بر اساس کشور رسید.

هر چند که انباره داده به تجزیه و تحلیل داده کمک می‌کند، اما اغلب ابزارهای بیشتری برای داده کاوی و رسیدن به تحلیل‌های عمیق مورد نیاز است. داده‌کاوی چند بعدی - Multidimwnsional Data Mining - (به آن داده‌کاوی اکتشافی چند بعدی نیز گفته می‌شود) در شکل OLAP گونه خود، کاوش داده در فضای چند بعدی را انجام می‌دهد. بدین معنی که با استفاده از این روش امکان کشف الگوهای جالب از دانش به وجود می‌آید. مروری بر انبار داده و فن‌آوری OLAP در فصل 4 ارائه خواهد شد و موضوعات پیشرفته در مورد محاسبات داده‌های مکعب و داده‌کاوی چندبعدی در فصل 5 مورد بحث قرار خواهد گرفت.


داده کاویانباره دادهمکعب دادهdata warehousedata cube
لیسانس مهندسی صنایع/فوق لیسانس مدیریت کارآفرینی/دانشجوی دوره دیجیتال مارکتینگ/نوپای تولید محتوا
شاید از این پست‌ها خوشتان بیاید