چکیده
انبار های داده ها در حال حاضر مقادیر زیادی از داده ها را جمع آوری می کنند ، بنابراین داده های کلان به طور قابل توجهی رشد کرده و به یک مجموعه عالی از داده های بزرگ تبدیل شده اند. این مجموعه داده ها غنی و در حال رشد هستند. مدیریت موسسات برای تولید اطلاعات از سوابق داده به ابزارهایی نیاز دارد. این مقاله به بررسی چگونگی پیاده سازی فناوری داده های بزرگ با انبار داده برای پشتیبانی از فرایند پردازش می پردازد.
مقدمه
انباره های داده پایه گذار فن آوری لازم برای ساخت و بهره برداری از برنامه های هوشمندی هستند .برنامه هایی که اطلاعات را برای صاحبان خود جمع آوری نموده و پس از تجزیه و تحلیل با آنها به مشاوره می پردازند.
بیان مسئله
می توان تعاریف مختلفی را برای Data warehouseداشته باشیم:
1- تعریف Ralph Kimball از انباره داده : یک DW نسخه ای از داده های تراکنشی است که به صورت اختصاصی برای پرس و جو ها و گزارش گیری،سازمان دهی شده است.
گرچه به این تعریف دو ایراد وارد است:که اولاً گاهی داده هایی که در یک DW ذخیره می شوند ،غیرتراکنشی هستند . اگرچه معمولاً 95 تا 99 درصد داده ها تراکنشی هستند . ثانیاً خروجی اصلی سیستم های DW ، لیست گیری های فهرست وار (queries) در حجم کم و یا گزارش های اداری در حجم زیاد هستند.
2- اگر تعاریف زیر برقرار باشد:
داده : حقیقت قابل مشاهده ، فایل ضبط شده
اطلاعات : مجموعه سازماندهی شده از داده ها ؛ داده های با ارتباط و هدف
سیستم عملیاتی : محیطی از داده ها و برنامه های لازم برای ادامه فعالیتهای یک سازمان
انبار داده ی اطلاعی :مجموعه ای از داده و برنامه ها، برای "تحلیل" و "تصمیم گیری "، جدا از سیستم عملیاتی
یک انباره داده(DW) معماری جداگانه ای است برای نگهداری داده های حساس تاریخی که این داده ها از انبار داده های عملیاتی به دست آمده اند و به صورتی قابل درک برای عملیات تحلیل سازمان درآمده اند.
3- یک تعریف از : W.H.INMON
یک DW مجموعه ای از اطلاعات یکپارچه که دارای قابلیت آنالیز کردن و استخراج داده ها (query)میباشد
بعضی از خصوصیاتData warehouse ها از این قرارند :
1) یکپارچه بودن
2) متغیر با زمان
3) غیر فرار
4) موضوع گرا (Subject-oriented)
تاریخچه:
بعد از رشد استفاده از TPS (Transaction processing system)ها به عنوان سیستمهای پردازش تراکنش در بخش های عملیاتی سازمان، نیاز جدی به سیستمهای اطلاعاتی که بتوانند عملیات گزارش گیری را علی الخصوص در رده گزارشهای مدیریتی ساماندهی کنند احساس می شد. علی الخصوص بوجود آمدن تعدد فنآوریها، سیستمهایی که به صورت جدا از هم فعالیت می کرد و امکان تهیه گزارشات ترکیبی از اطلاعات سیستمهای مختلف و انجام پرس و جو ها را مشکل و یا غیر ممکن می نمود.
بنابراین حرکت به سمت سیستمهای اطلاعات مدیریت (Management Information System) و بویژه سیستمهای گزارشگیری مدیریتی (MRS: Management Reporting System) آغاز شد. اما مشکل آنجا بود که این سیستمها به شدت به TPS ها وابسته بودند و داده هایشان اغلب یکی بود. این باعث می شد که تغییر یکی باعث انتشار تغییرات در همه سیستمها شود. از سوی دیگر ساختار داده ای مشابه، امکان تهیه گزارشات زمانی و موضوعی را مشکل می ساخت. این شد که مدل جدیدی از تفکر ایجاد شد به نام انباره داده ها.
دلایل استفاده از DW ها :
1) تهیه گزارشات (Reports) و انجام پرس و جو هایی (Query) که نیاز به عملیات ورودی/خروجی(IO) بسیاری هستند: از اهداف سیستمهای پردازش تراکنش (TPS:Transaction Processing System) آن است که گزارشات مورد نیاز بخش های عملیاتی و مدیریتی را تولید کنند. تهیه این گزارشات معمولا سخت و باحجم زیاد IO همراه است و باعث کند شدن خود سیستمها می گردد. بنابراین شرکت های تجاری به دنبال راهی هستند تا در کمترین زمان و با کمترین هزینه به سیستم هایی دست یابند که زمان پردازش تراکنش ها در آن ها قابل قبول باشد . بهترین راهکار استفاده از DW هایی بود که از منابع IO مجزایی برای گزارش گیری و انجام پرس و جو استفاده می کردند.
2) استفاده از مدل های داده ای و یا تکنولوژی های سرور به منظور بالا بردن سرعت عملیات گزارش گیری و پرس و جو ها که سیستم های عادی پردازش تراکنش ها(TPS) برای آن ها مناسب نیست.
3) ایجاد محیطی برای تسهیل و آسان نمودن به دست آوردن گزارش ها و پرس و جو ها و یا ایجاد وسیله ای برای سرعت بخشیدن به عملیات گزارش گیری: اغلب می توان DW ای ساخت که کاربرانی باسطح آگاهی کمتر بتوانند گزارش ها و پرس و جوهای ساده ای را تهیه کنند .
4) برای ایجاد انباری از داده های تصفیه شده ی سیستم های پردازش تراکنش ها(TPS)که می توانند به طور پیوسته گزارش از آن تهیه نمود. این انبار الزاماً احتیاجی به ثابت بودن TPS ها ندارد : DW ها این امکان را به شما می دهند که داده ها را بدون تغییر دادن سیستم های پردازش تراکنش ها ،تصفیه کنند. (clean up) توجه کنید که در برخی از پیاده سازی ها ، DW ها به گونه ای هستند که در آن ها امکان یافتن اصلاحات انجام شده بر روی داده های DW و فرستادن feedback بهTPS ها برای اعلام این تغییرات ، وجود دارد. گاهی اوقات این گونه رفتار کردن با تغییرات داده ها بامعناتر از این است که تغییرات را به طور مستقیم بر روی خود TPS ها اعمال کنیم .
5) برای آن که بر اساس قواعد ، گزارش گیری و پژوهش را بر روی داده هایی که از چندین TPS مختلف می آیند و یا از یک منبع داده ای خارجی می آیند، یا اینکه داده هایی هستند که تنها برای گزارش گیری و انجام تحقیقات باید ذخیره شوند ، تسهیل بخشیم:برای مدت زمان مدیدی ، شرکت هایی که نیاز به گزارش هایی بر پایه ی داده های چندین TPS مختلف ، داشتند ؛ مجبور بودند داده های هر TPS را بیرون کشیده ، سپس آن ها را مرتب نموده و در هم ادغام نمایند تا به داده ی چکیده ای برسند که مناسب گزارش گیری است .در بسیاری از موارد این روش مناسب است. اما در شرکت هایی که با حجم عظیمی از داده هایی مواجه هستند که مرتباً نیاز به مرتب سازی و ادغام دارند ؛ در صورتی که نیاز به گزارش گیری از داده های تصفیه شده ی TPS ها داشته باشیم ؛ DW ها کارایی بیشتری دارند.
6) برای ایجاد مخزنی از داده های TPS ها ، که شامل داده های یک بازه ی زمانی بسیار طولانی هستند وبه همین دلیل کارایی کنترل آن ها توسط خود TPS پایین می آید . :داده های قدیمی تر غالباً از یک TPS خالی می شوند تا زمان پاسخ مورد انتظار دراین سیستم ها ، به راحتی کنترل شود . برای انجام تحقیقات و گزارش ها ممکن است داده های قدیمی و داده های جاری مورد نیاز باشند که در این موارد استفاده از DW به علت مهم نبودن زمان انتظار برای پاسخ ، موثر خواهد بود.
خب Data warehouse چیست؟
انباره داده یک مجموعه از دادههای موضوعگرا (Subject Oriented)، مجتمع(Integrated)،نگهدار زمانهای مختلف(Timevariying) و غیر فرَار (none-volatile) است که پشتیبان فرآیندهای تصمیم سازی مدیریتی است.
در این تعریف به ۴ویژگی در انبار داده اشاره شده است. اجازه بدهید تک تک این تعاریف را مورد بررسی قرار دهیم:
موضوعگرا (Subject Oriented): به این معنا است که انبار دادهای که شما میسازید بایستی در مورد یک موضوع مشخص (یا یک سری موضوع مشخص) باشد. مثلا یک فروشگاه میخواهد رفتار خریداران خود را بررسی کند. پس موضوع در اینجا رفتار خریداران است. برای همین بایستی اطلاعاتی که در مورد رفتار خریداران در نرمافزارهای مختلف سازمان (مثلا CRM یا سیستم حسابداری) موجود است را در یک انبار داده جمع آوری کنید.
مجتمع (Integrated): این ویژگی بسیار واضح است. در واقع انبار داده به صورت تکه تکه در جاهای مختلف نیست و به صورت مجتمع در یک منبع ذخیره شده است. فرض کنید یک سیستم CRM و یک سیستم حسابداری دارید. یک خریدار در سازمان شما، با کد ملی در CRM مشخص میشود و همین شخص با شماره شناسنامه در سیستم حسابداری مشخص میشود. اما بعد از پردازش و بارگزاری دادهها در انبار داده، این شخص فقط بایستی با یک شماره مشخص شود (مثلا یک ID خاص) تا به اشتباه دو نفر مستقل برداشت نشود.
نگهدار زمانهای مختلف(Timevariying): به این معنا که در انبار داده، دادههای قدیمیتر نیز ذخیره میشوند. مثلا اگر اطلاعات فروش ۱ماه اخیر را خواستیم میتوانیم از انبار داده پیدا کنیم. اگر اطلاعات فروش ۱سال پیش را نیز خواستیم بایستی در انبار داده موجود باشد.
غیر فرَار(none-volatile): به این معنا که اگر دادهای در انبار داده ثبت شد، دیگر امکان تغییر آن وجود ندارد. برای مثال در یک پایگاه داده عادی (غیر انبار دادهای) اگر یک شخص آدرس خود را عوض کرد، آدرس جدید جایگزین آدرس قبلی میشود، ولی در انبار داده سابقه آدرسهای شخص ذخیره میشود و تغییرات آدرس یک شخص به صورت جدیدتر در انبار داده ثبت میشود و آدرسهای قبلی نیز در انبار داده جهت بررسی موجود میباشد[2,4].
پس در واقع انبار داده یک مجموعهای از دادههاست که از منابع مختلف تجمیع شده است و دادههایی دارد که آماده پاسخگویی به یک موضوع مشخص میباشد. از این انبارهای داده در داشبوردهای مدیریتی و در فرآیندهای دادهکاوی نیز به صورت گسترده استفاده میشود.
خب حالا به بررسی انواع الگو های نگهداری داده در انبار داده ها میپردازیم:
الگو اول:
الگو دوم:
الگو سوم:
روش کار:
در DW فرایندی داریم به نام ETL: Extract, Transform, Load که در طی آن داده ها از سیستمهای پردازش تراکنش استخراج می شود (E) تغییر فرمت های لازم در آن صورت می گیرد(T) و سپس در قالب داده ای جدید مناسب برای گزارشگیری آماده می شود (L) پس از آن از طریق داده کاوی (Data Mining ) و مکانیزم هایی مانند OLAP پرس و جو ها ایجاد و گزارشات مورد نیاز تهیه می شود.[3]
سیستم های پردازشی به دو دسته تقسیم می شوند:
1. سیستم های پشتیبانی تصمیم گیری (DSS)
2. سیستم های پردازش زنده (Online) اطلاعات (OLTP)
این دو دسته هر یک راه های کاملا متفاوتی را جهت حل مسائل تجاری ارائه می کنند. قبل از آنکه به ارزش انباره های داده پی ببریم لازم است تفاونهای این دو را بشناسیم.
سیستم OLTP چیست؟
پردازش تراکنش های آنلاین با عنوان OLTPشناخته می شود از برنامه های معامله گرا در معماری ۳ لایه پشتیبانی می کند. OLTP تراکنش روزانه یک سازمان را انجام می دهد. هدف اصلی پردازش داده ها است و نه تجزیه و تحلیل داده ها
سیستم هایOLTP در کلیه خدمات بازرگانی دیده می شوند از جمله سیستم های رزرواسیون، دستگاه های فروش ، کنترل انبار، سهام و فروش و ... . این سیستم ها غالبا به زمان پاسخی بین 1 تا 3 ثانیه در 100 در صد اوقات نیاز دارند. تعداد کاربران آنها در ساعات مختلف روز ، هفته و ماه می تواند بشدت متغیر باشد و درتمامی این اوقات به همان زمان پاسخ قبلی نیاز دارند. در این گونه سیستم ها معمولا بجای ارتیاط با بانکهای اطلاعاتی(Database Servers) به سیستم های تعاملی (Transaction Servers) متصل می شوند. البته این گونه ارتباط لازمه دستیابی به سرعت مورد نیاز Clients است.
سیستم DSS چیست؟
سیستم پشتیبانی از تصمیم (Decision Support System) و یا به طور مخفف DSS ، یک سیستم تصمیمگیر تحلیلگر بر اساس مجموعهای از اطلاعات و برنامهها میباشد. این اطلاعات میتواند از دادههای وارد شده توسط انسان (تراکنشهای ذهنی) و یا از دادههای تحلیل شده به وسیله یک نرمافزار (تراکنش های یک برنامه کامپیوتری) باشد. DSS به طور عموم، در جهت کمک به تصمیمگیری انتخاب صحیح یک کار و یا اقدام و در نتیجه بهبود کارایی سیستم استفاده میشود.[1]
خصوصیات عمومی DSS
1. کاربر میتواند، با استفاده از پارامترهای بیرونی كه به DSS تزریق میكند رفتار سیستم را بروز كند.
2. به كمك وب سرويس ميتوانيد ارتباط ساده تري بين فرايندهاي مختلف ايجاد كنيد.
3. از پایگاههای داده ، مدلهای تحلیلی و محاسباتی و سیستم های خبره درحل مسائل استفاده می کند.
4. سیستم DSS دستیابی به انواع مختلف منابع داده با فرمتهای گوناگون را فراهم میکند.
مقایسه سیستم های DSS وOLTP
اطلاعات چند بعدی (OLAP)
در واقع OLAP سیستمی است جهت پردازش دادههای برخط (Online). در واقع OLAP خلاصهشدهی Online Analytical Processing و بیانگر این موضوع است که میتوان دادههایی را که در پایگاهدادههای مختلف وجود دارند را تحلیل کرد. دادهها در انبار داده از منابع گوناگون جمعآوری میشوند. حال OLAP سیستمی است که میتواند بر روی این دادههای چند بُعدی عملیات تحلیلی را انجام دهد.
یکی از کاربردهای اصلی OLAP در ساخت گزارشات و داشبوردهای مدیریتی است. در این نرمافزارها، یک مدیر میخواهد گزارشات متعددی را به سرعت از سیستم دریافت کند. مثلا مدیر فروشگاه میخواهد بفهمد که در فصل اول و دوم، مجموع فروش لوازم الکترونیکی در فروشگاههای غرب کشور چقدر بوده است؟ این کار یک نوع گزارشگیری محسوب میشود و با تکنولوژیهای OLAP، یک مدیر میتواند با سرعت بیشتری به پرسشهای خود دست پیدا کند.
خب OLAP انواع مختلفی دارد و نویسندگان در متون و مقالات مختلف با اسامی و واژههای متنوعی به آن اشاره میکنند. در زیر به چند نمونه از انواع OLAP و توضیح هر یک میپردازیم:
نوع ROLAP: مخففRelational OLAP یاOLAP رابطهای است. این نوع OLAP از پایگاهدادههای رابطهای مانند SQL Server و MySQL جهت پیادهسازی استفاده میکند. اگر یک مکعب داده را در پایگاهدادهی رابطهای مانند SQL Server و با جداول (Tables) پایگاهداده پیادهسازی کنیم، در واقع نمونهای از ROLAP را انجام دادهایم.
نوع MOLAP: مخفف Multidimentional OLAP یا OLAP چند بُعدی است.
نوع HOLAP: مخفف Hybrid OLAP یا OLAP ترکیبی است. در واقع ترکیبی ازMOLAP وROLAP میباشد. در اینجا مقادیری که تجمیع شدهاند.
طراحی سیستم:
میشه گفت ETL فرآیند اصلی در فناوری سنتی انبار داده است که نمی تواند داده های بدون ساختار را اداره کند. [5] در این سیستم ، ما به یک فرآیند انعطاف پذیر ETL نیاز داریم که می تواند چندین مسئله کیفیت داده را کنترل کند ، به عنوان مثال داده های تکراری ، داده های ناسازگار و داده های دور ریز ، سیستم پیشنهادی را می توان در شکل 1 مشاهده کرد. در این سیستم ، ترکیبی بین Hadoop و (Relational database management system) RDBMS وجود دارد. Hadoop می تواند RDBMS را به عنوان ابزار نگهداری / دسته بندی داده ، و همچنین قابلیت مدیریت داده و بستر ارائه داده را نیز افزایش دهد.
معماری سیستم پیشنهادی ارائه شده است. داده های ساختار یافته در طرح ما جمع می شوند ، در حالی که داده های غیر ساختاری داده های غیرقابل پیش بینی هستند و معمولاً قالب قابل شناسایی رایانه ای ندارند. نمونه های داده های بدون ساختار متن آزاد ، تصاویر ، فیلم ها ، صفحات وب ، داده های متا و گزارش های وب سرور است. در سیستم پیشنهادی ما ، داده های بدون ساختار با انجام طبقه بندی و فیلتر کردن پردازش می شوند و سپس در داده های متنی ذخیره می شوند. داده های دسته بندی نشده در داده های خام باقی می مانند. بعد ، از طریق فرایند جستجوی روابط یا الگوها ، داده های موجود در داده های متنی در داده های مرتبط ذخیره می شوند. سپس ، داده های مرتبط که قبلاً پردازش شده اند و می توانند با ساختارهای از پیش تعریف شده سازگار شوند ، در آنها ذخیره می شوند داده های کاوش شده سرانجام ، امکان ادغام بین داده های کاوش شده و داده های کل قابل تجزیه و تحلیل با استفاده از تکنیک های OLAP و هوش تجاری وجود دارد. [6,7]
پیاده سازی و آزمایش
در این بخش در مورد اجرای سیستم مطابق با تجزیه و تحلیل و طراحی سیستم بحث خواهد شد. داده های ساخت یافته از پایگاه های داده PostgreSQL تهیه می شوند ، در حالی که داده های غیر ساختاری از رسانه های اجتماعی مانند فیس بوک ، توییتر و LinkedIn حاصل می شود.
شکل 3 صفحه تجزیه و تحلیل را نشان می دهد. در این نرم افزار ، کاربران می توانند تجزیه و تحلیل جدیدی ایجاد کنند ، بنابراین گزارش را می توان در صورت نیاز سفارشی کرد. در هر تجزیه و تحلیل ، تولید برخی نمودارها یا نمودارها برای پشتیبانی از گزارش تولید شده امکان پذیر است.
نمودار نمونه را می توان در شکل 4مشاهده کرد. کاربر می تواند نوع نمودار را به صورت سفارشی تنظیم کند ، بنابراین گزارش تولید شده برای خواننده معنی دارتر خواهد بود.
خب به پایان مقاله رسیدیم امیدوارم تونسته باشم اطلاعات کمی درباره انبار داده ها به شما منتقل کنم.
ممنون از همراهی شما عزیزان
منابع:
[1] Turban, Efraim, Jay E. Aronson, Ting-Peng. Liang, and R. Sharda (2004) “Decision Support and Business Intelligence Systems”, 10th ed., New Jersey: Pearson Education, Inc.
[2] Youssef, Bassil (2012) “A Data Warehouse Design for A Typical University Information System”, Journal of Comp. Sci. & Research 1(6): 12-17, Dec. 2012.
[3] Dell’Aquila, Carlo, Francesco Di Tria, Ezio Lefons, and Filippo Tangorra. (2007) “An Academic Data Warehouse”, Proceedings of the 7th WSEAS Int. Conf. on Applied Informatics and Communications, Athens, Greece, August 24-26.
[4] Mirabedini, Shirin (2014) “The Role of Data warehousing in Educational Data Analysis”, Journal of Novel Applied Sciences 3(5): 1439-1445.
[5] Salinas, Sonia Ordonez and Alba C.N. Lemus. (2017) “Data Warehouse and Big Data integration” Int. Journal of Comp. Sci. and Inf. Tech. 9(2): 1-17.
[6] S. G. Manikandan and S. Ravi. (2014) “Big Data Analysis Using Apache Hadoop,” in International Conference on IT Convergence and Security (ICITCS) 2014, pp. 1–4.
[7] J. Nandimath, E. Banerjee, A. Patil, P. Kakade, and S. Vaidya. (2013) “Big data analysis using Apache Hadoop,” 2013 IEEE 14th Int. Conf. Inf. Reuse Integr., pp. 700–703, 2013.