انبار داده، همچنین به عنوان انبار داده سازمانی (EDW) شناخته میشود، یک سیستم مخزن مرکزی است که کسب و کارها از آن برای ذخیره اطلاعات ارزشمند به منظور تجزیه و تحلیل و گزارش استفاده می کنند. این به عنوان یک جزء کلیدی در زمینه هوش تجاری (BI) عمل میکند و سازمانها را قادر میسازد تا بینش و تصمیمگیری آگاهانه بگیرند.
انبار دادهها، دادهها را از منابع مختلف، از جمله پایگاههای داده داخلی و خارجی، از طریق فرآیندی به نام استخراج، تبدیل و بارگذاری (ETL) جمع آوری و ادغام می کند. این به مشاغل اجازه می دهد تا دادههای فعلی و تاریخی را در یک سیستم استاندارد و غیر فرار ترکیب کنند. با متمرکز کردن دادهها، یک انبار داده به عنوان تنها منبع حقیقت (SSOT) برای سازمان عمل میکند و دسترسی آسان کارکنان مجاز به اطلاعات مورد نیاز را فراهم میکند.
انبارهای داده برای تسهیل پردازش تحلیلی آنلاین (OLAP) و پشتیبانی از تجزیه و تحلیل دادههای چند بعدی طراحی شده اند. آنها حجم زیادی از دادههای خلاصه شده را ذخیره میکنند که اغلب به اندازههای بسیاری از پتابایت میرسد. تحلیلگران کسب و کار، مهندسان داده، دانشمندان داده و تصمیم گیرندگان از ابزارهای هوش تجاری، مشتریان SQL و سایر برنامههای تحلیلی برای دسترسی و تجزیه و تحلیل دادههای ذخیره شده در انبار داده استفاده میکنند.
انبارهای داده مزایای بسیاری را برای کسب و کارها فراهم میکنند. برخی از رایج ترین مزایا عبارتند از:
انبار داده به عنوان یک مخزن مرکزی کار می کند که در آن اطلاعات از یک یا چند منبع داده می رسد. داده ها از سیستم تراکنشی و سایر پایگاه های داده رابطه ای به انبار داده جریان می یابد.
داده ها ممکن است:
دادهها پردازش، تبدیل و جذب میشوند تا کاربران بتوانند از طریق ابزارهای هوش تجاری، مشتریان SQL و صفحات گسترده به داده های پردازش شده در انبار داده دسترسی داشته باشند. یک انبار داده اطلاعاتی را که از منابع مختلف به دست می آید را در یک پایگاه داده جامع ادغام می کند.
با ادغام همه این اطلاعات در یک مکان، یک سازمان می تواند مشتریان خود را به طور جامع تری تجزیه و تحلیل کند. این کمک می کند تا اطمینان حاصل شود که تمام اطلاعات موجود را در نظر گرفته است. ذخیره سازی داده ها، داده کاوی را ممکن می سازد. داده کاوی به دنبال الگوهایی در داده ها است که ممکن است منجر به فروش و سود بیشتر شود.
یک انبار داده یک سیستم پیچیده است که دادههای تاریخی و تجمعی را که برای پیشبینی، گزارشدهی و تحلیل دادهها استفاده میشود، ذخیره میکند. این شامل جمعآوری، پاکسازی و تبدیل دادهها از جریانهای داده مختلف و بارگذاری آنها در جداول واقعیت/ابعادی است.
سه رویکرد برای ساخت یک انبار داده وجود دارد: معماری یک لایه، معماری دو لایه و معماری سه لایه. معماری سه لایه که شامل سه لایه است، پراکندهترین معماری برای سیستمهای انبار داده است: لایه پایینی پایگاه داده انبار داده است، جایی که دادههای پاکسازی شده و تبدیل شده بارگذاری میشوند. لایه میانی لایه برنامه است که نمای انتزاعی از پایگاه داده را ارائه میدهد. لایه بالایی لایه مشتری جلویی است که شامل ابزارها و APIهای استخراج داده استفاده شده برای استخراج داده است.
معماری یک لایه یک رویکرد کمتر مورد استفاده است. هدف اصلی داشتن چنین معماری، حذف تکراری بودن با کاهش مقدار دادههای ذخیره شده است. معایب اصلی آن این است که این معماری شامل یک اجزایی نیست که پردازش تحلیلی و تراکنشی را از یکدیگر جدا کند.
معماری دو لایه انبار داده
معماری دو لایه شامل یک فضای مرحله قرارگیری برای تمام منابع داده قبل از لایه انبار داده است. با افزودن فضای مرحله قرارگیری بین منابع و مخزن ذخیره، تضمین میشود که تمام دادههایی که به انبار داده بارگذاری میشوند، پاکسازی و در قالب مناسبی قرار دارند.
رویکرد سه لایه، پراکندهترین معماری استفاده شده برای سیستمهای انبار داده است.
اصولاً، شامل سه لایه است:
لایه پایینی، پایگاه داده انبار داده است که جایی است که دادههای پاکسازی شده و تبدیل شده بارگذاری میشوند.
لایه میانی، لایه برنامه است که نمای انتزاعی از پایگاه داده را ارائه میدهد. آن دادهها را به گونهای ترتیب میدهد که برای تحلیل مناسب باشد. این با استفاده از سرور OLAP انجام میشود که با استفاده از مدل ROLAP یا MOLAP پیادهسازی شده است.
لایه بالایی، جایی است که کاربر به داده دسترسی و با آن تعامل میکند. این لایه نشاندهنده لایه مشتری جلویی است. میتوان از ابزارهای گزارشدهی، پرس و جو، تحلیل یا ابزارهای استخراج داده استفاده کرد.
همچنین چند نمونه از دیگر انواع معماری انبار داده در قسمت زیر آمده است:
این معماری مرسومترین نوع معماری است و دادهها را در دیتابیسهای relational ذخیره میکند. در این دیتابیسها داده به کمک جداول ذخیرهسازی میشود و کلیدها، جداول را به یکدیگر متصل میکنند. از مزایای این نوع انبارداده توانایی پاسخگویی به درخواستهای پیچیده کاربران است. از طرف دیگر، از دادههای بدون ساختار پشتیبانی نمیکند و برای دادههای با حجم بالا سرعت خوبی ندارد.
انبارهای داده بر پایه فضای ابری به طور افزایشی محبوب شدهاند، زیرا مقیاسپذیری و انعطاف پذیری را ارائه می دهند. آنها معمولاً بر روی یک پلتفرم ابری مانند خدمات وب آمازون میزبانی می شوند. این معماری به سازمان ها این امکان را می دهد که بسته به نیاز خود مقیاس خود را افزایش یا کاهش دهند و فقط برای منابعی که استفاده می کنند هزینه پرداخت کنند.
انبارهای داده ترکیبی عناصر معماری رابطهای و بر پایه فضای ابری را ترکیب می کنند. آنها معمولاً شامل ذخیره دادههای با دسترسی مکرر در یک انبار داده داخلی رابطهای هستند، در حالی که دادههایی که کمتر به آنها دسترسی دارند در یک انبار داده بر پایه فضای ابری ذخیره میشوند. این معماری به سازمانها اجازه می دهد تا عملکرد و مقرون به صرفه بودن را متعادل کنند.
معماری دریاچه داده شامل ذخیرهسازی دادهها در یک ساختار مسطح، بدون طرح واره از پیش تعریف شده است. این معماری برای ذخیره داده های بدون ساختار، مانند داده های پست های رسانه های اجتماعی بهینه شده است. دریاچه های داده را می توان به عنوان منبع داده برای انبارهای داده استفاده کرد و به سازمان ها اجازه می دهد حجم زیادی از داده های بدون ساختار را ذخیره و تجزیه و تحلیل کنند. اینکار پیچیدگی پیادهسازی را برای مهندسان داده کاهش میدهد.
انبارهای داده فدرال شامل ذخیره داده ها در مکان های فیزیکی متعدد و ارائه یک نمای یکپارچه از داده ها از طریق یک لایه انبار داده مجازی است. این معماری به سازمان ها اجازه می دهد تا داده ها را از منابع متعدد، بدون نیاز به جابجایی فیزیکی داده ها، یکپارچه کنند. همچنین نیازی به همسان بودن تمام دادهها وجود ندارد.
همچنین انبار دادهها میتوانند تعداد لایههای مختلفی با کاربردهای متفاوت داشته باشند که در ادامه به بررسی آنها میپردازیم.
معماری دقیق یک انبار داده از یکی به دیگری متفاوت خواهد بود. انبارهای داده می توانند ساختارهای یک، دو یا سه لایه باشند. با این حال، شاید رایج ترین آنها ساختار معماری سه لایه است که به شرح زیر است:
ابزارهای ذخیره سازی داده های زیادی در بازار موجود است. در اینجا برخی از برجسته ترین آنها آورده شده است:
ابزار MarkLogic یک راه حل مفید برای ذخیره سازی داده است که با استفاده از مجموعه ای از ویژگیهای سازمانی، یکپارچه سازی داده ها را آسان تر و سریعتر می کند. این ابزار به انجام عملیات جستجوی بسیار پیچیده کمک می کند. می تواند انواع مختلفی از داده ها مانند اسناد، روابط و ابرداده ها را پرس و جو کند.
۲. ابزار Oracle:
ابزار oracle پایگاه داده پیشرو در صنعت است. این طیف گسترده ای از راه حل های انبار داده را برای هر دو محل و در فضای ابری ارائه می دهد. با افزایش کارایی عملیاتی به بهینه سازی تجربیات مشتری کمک می کند.
3. آمازون RedShift:
ابزار Amazon Redshift، یک ابزار ساده و مقرون به صرفه برای تجزیه و تحلیل انواع داده ها با استفاده از SQL استاندارد و ابزارهای BI موجود است. همچنین امکان اجرای پرس و جوهای پیچیده را در برابر پتابایت داده های ساخت یافته با استفاده از تکنیک بهینه سازی پرس و جو میدهد.
اجزای انبار داده
چهار جزء انبارهای داده عبارتند از:
ابزارهای دسترسی end user:
این به پنج گروه مختلف مانند 1. گزارش داده 2. ابزار پرس و جو 3. ابزار توسعه برنامه 4. ابزار EIS، 5. ابزار OLAP و ابزارهای داده کاوی طبقه بندی می شود.
در اینجا برخی از رایجترین نمونههای دنیای واقعی انبارهای داده که امروزه مورد استفاده قرار میگیرند آورده شده است:
در دهه های اخیر، صنعت مراقبت های بهداشتی به طور فزاینده ای به تجزیه و تحلیل داده ها برای بهبود مراقبت از بیمار، مدیریت کارآمد عملیات و رسیدن به اهداف تجاری روی آورده است. در نتیجه، دانشمندان داده، تحلیلگران داده و متخصصان انفورماتیک سلامت برای ذخیره و پردازش مقادیر زیادی از دادههای مربوط به مراقبتهای بهداشتی به انبارهای داده تکیه میکنند. نتایج این تحقیقات نشان میدهد که استفاده از ابزارها به معنای عملکرد کاری در سطح بالینی و مدیریتی، بهبود نسبت هزینه به فایده و کاهش ضریب زمان در عملکرد نیروی کار در خدمات سلامت است. بنابراین، این مطالعه امیدوار است که به پیشرفت تکنولوژیکی هوش محاسباتی در مراقبت های بهداشتی کمک کند. [منبع]
یک صورتحساب بانکی را باز کنید و احتمالاً فهرست بلندبالایی از تراکنشها را خواهید دید: برداشتهای خودپرداز، خرید، پرداخت صورتحساب، و غیره. در حالی که فهرست تراکنشها ممکن است برای یک فرد طولانی باشد، اما برای میلیونها مشتری که هر روز به خدمات بانکی متکی هستند، بسیار طولانیتر است. بانکها بهجای نشستن بر روی این انبوه دادهها، از انبارهای داده برای ذخیره و تجزیه و تحلیل این دادهها برای توسعه بینشهای عملی و بهبود خدمات خود استفاده میکنند.
یکی از نگرانیهای اصلی خردهفروشان میزان خرید کالا و ذخیره کالا است. امروزه، انبارهای داده به خردهفروشان اجازه میدهند تا مقادیر زیادی از اطلاعات مربوط به معاملات و مشتریان را ذخیره کنند تا به آنها در بهبود تصمیم گیری در هنگام خرید موجودی برای فروش به بازار هدف کمک کند. از طرفی خرده فروشان می توانند از انبارهای داده برای ذخیره و تجزیه و تحلیل داده های مشتری، مانند تاریخچه خرید، جمعیت شناسی و ترجیحات استفاده کنند. با تقسیمبندی مشتریان بر اساس این دادهها، خردهفروشان میتوانند کمپینهای بازاریابی هدفمند و توصیههای محصولی را ایجاد کنند که احتمالاً باعث جذب مجدد مشتریان شده و فروش را افزایش میدهند.
در این طرحواره که مختص معماری رابطهای است، یک مدل داده چند بعدی وجود دارد که برای سازماندهی داده ها در پایگاه داده استفاده می شود تا درک و تجزیه و تحلیل آسان باشد. طرحواره های ستاره ای را می توان در انبارهای داده، پایگاه های داده، داده ها و ابزارهای دیگر اعمال کرد. طراحی این طرحواره برای پرس و جو از مجموعه داده های بزرگ بهینه شده است.
طرح واره دانه های برف یک مدل داده چند بعدی است که بسط طرح ستاره ای است. در آن جداول ابعاد به جداول کوچکتر تقسیم می شوند. طرحوارههای دانهی برف معمولاً برای هوش تجاری و گزارشدهی در انبارهای داده OLAP، دادهها و پایگاههای داده رابطهای استفاده میشوند. در طرح دانه های برف، مهندسان جداول را به زیر بعد های منطقی تقسیم می کنند. این امر مدل داده را پیچیده تر می کند، اما کار با آن برای تحلیلگران، به ویژه برای انواع داده های خاص، می تواند آسان تر باشد.
این طرحواره گروهی از جداول واقعی متفاوت است که تعداد کمی جداول ابعادی مشابه دارند. میتوان آن را بهعنوان گروهی از طرحوارههای ستارهای متعدد نشان داد و بنابراین، طرحواره کهکشان نیز نامیده میشود.
منابع: