چکیده
استفاده روز افزون از سیستم های فعال شده اینترنت (IOT) منجر به مقادیر فراوانی از داده ها با ساختارهای مختلف شده است. اکثر راه حل های کلان داده ها در بالای سیستم اکو هادوپ یا از سیستم فایل توزیع شده (HDFS) استفاده می شوند. با این حال، بررسی های ناکارآمدی در این سیستم در هنگام برخورد با داده ها نشان داده شده اند. برخی از تحقیقات این مسائل را برای نوع خاصی از داده های گراف برطرف می کنند، اما امروزه اطلاعات بیشتری از داده ها قابل دسترس هستند. چنین مسائلی مربوط به عملکردهایی می شوند که منجر به مسائل بزرگی از جمله فضای بزرگ تر مورد نیاز در مراکز داده، و از بین رفتن منابع (مانند مصرف انرژی)، و مشکلات زیست محیطی (مانند انتشار بیشتر کربن) نیز می شود. ما یک ماژول اطلاعاتی را برای سیستم اکو هادوپ ارائه می دهیم. ما همچنین یک روش رمزگذاری توزیع شده را برای الگوریتم های ژنتیک ارائه می دهیم. چارچوب ما این امکان را می دهد تا هادوپ بتواند توزیع داده ها و قرار دادن آنها براساس تجزیه و تحلیل داده های خوشه ای را مدیریت کند. ما قادر هستیم طیف گسترده ای از انواع داده ها را مدیریت کنیم و همچنین قادر هستیم زمان استفاده از منابع پرس وجو را بهینه کنیم. ما آزمایش هایی را که در مجموعه داده-های متعدد انجام شده اند را از طریق LUBM ایجاد می کنیم.
مقدمه
ایجاد علومی از داده ها با چالش های بسیاری مواجه بوده است. یک مسئله اصلی وجود دارد و آن این است که امروزه کلان داده ها، پویا و ناهمگن هستند، و چندین منابع را که اغلب ساختار استانداردی ندارند را جمع آوری می کنند.
اکثر تجزیه و تحلیل داده های مدرن، ابزارهای مدیریت و سرویس را طراحی می کنند و در سیستم فایل توزیع شده هادوپ (HDFS) به عنوان یک انبار داده ای مورد استفاده قرار می دهند؛ گاهی اوقات هم این ابزار تحلیلی از سرویس هایی که توسط اکوسیستم هادوپ پردازش شده اند استفاده می کند. هادوپ از لحاظ هزینه و عملکرد بسیار خوب است.
محدوده کاری
حجم کاری فعلی که در سیستم در حال اجرا میباشد (در آن ناکارآمدی وجود دارد) منجر به فضای بیشتر نیازمندی در مراکز داده و برخی از پیامدهای محیطی و باعث افزایش انتشار کربن در مصرف انرژی میشود [1]. این میتواند به دلیل مصرف انرژی اضافی و عملکرد پایین منابع سختافزاری که شرکتها را تحت تاثیر قرار میدهد باشد. ما به یک مقیاس کارآمد نیاز داریم.
پایگاه داده های گراف
دادههای جاری و برنامههای مدرن به محدودیتهای ذخیره و پردازش با استفاده از پایگاه دادههای سنتی، بویژه مدل ارتباطی منجر میشوند. دقت پایگاه دادههای گراف افزایش پیدا کرده است، و این موضوع تقریبا در اوایل دهه 90 [29]مجددا مورد بررسی قرار گرفت. اهمیت پایگاههای اطلاعاتی معمولا براساس روابط بین دادهها است، و به طور مساوی یا حتی بیشتر از اطلاعات موجودیتها میباشند [30]. پروژهها در زمینههای مختلف به پایگاههای زیر دقت ویژهای دارند (مانند زیستشناسی [31]، وب معنایی [32]، وب کاوی [33] و شیمی [34]).
عملکرد و کارآیی HDFS
از سیستم اکو هادوپ برای پردارش سازمان داده ها و ایجاد برنامه های کاربردی بر روی آن، که بستگی به موارد و سازمان داده ها دارد استفاده می شود. گروهی از IT BI (کسب و کار هوشمند) در کسب و کارها و موسسات چنین سیستم هایی را به منظور رسیدن به اهداف خود پیکربندی می کنند، و سپس روی داده ها و موارد مورد استفاده در آنها تمرکز می کنند.
شاخص های آگاه داده های HDFS
تبدیل گراف
ما در مقدمه منابع و مسائل مدرن داده ها را مورد بحث قرار دادیم. و بیان کردیم که داده های ابر از منابع مختلفS=(S1,S2,…,SZ) ناشی می شود که SN منبع Z و Z ≥ 1 است. این منابع مختلف تولید یا حاوی داده ها با ساختارهای مختلف می باشد،اما گاهی اوقات برای اشخاص مشابه، و برای داده ها و ساختارها مختلف می باشد. D=(DS1,DS2,…,DSZ)، که در آنDSZ یک ساختار داده که از منبع Z ناشی می شود و شامل مجموعه بی پایانDS (ساختار) DSZ ⊂D,|DS|=∞ است.
داده ها با ساختار ∈D در یک گراف G(V,E) به عنوان یک گراف غیرثباتی و با تعداد راس های |V|=m و تعداد لبه های |E|=n تبدیل می شوند. این تغییر و تحول در بخش معماری به طور کلی توضیح داده شده است.
کل معماری
چارچوب خوشه بندی ما (DEGA-Gen) بخشی از داده آگاهی ارائه شده است که در ماژول روی بالاترین داده ذخیره سازی توزیع شده در حال اجرا می باشد و در شکل 4 نشان داده شده است.
این چارچوب باHDFS و سرویس هایی که قابل دسترس هستند ارتباط برقرار می کند تا بتواند خوشه های به-روز شده را به عنوان جریانی از داده ها در HDFS ارائه کند. هدف ما دستیابی به بهینه سازی به همراه قرار دادن داده های مرتبط و کاهش سربار در حرکت داده ها بین میزبان است. انتقال داده ها عمدتا در فرآیندهای تجمعی یا پیوند رخ می دهند.
ساختار توزیع شده گراف های RDF
گام اول چارچوب داده ایHDFS، به یک گراف RDF توزیع شده تبدیل می شود. این روند با استفاده از منابع بازApache Jena و Apache Jena Elephas انجام می شود. داده های ارائه شدهHDFS مجموعه ای از داده ها را چهار برابر افزایش می دهد؛ و دلایل این فرآیند در خوشه بندی براساس ژنتیک توضیح داده می شوند. برخلاف استفاده گسترده از عمل چهارگانه، ما از فیلد اضافی به صورت چهارگوش استفاده کردیم و وابستگی خوشه سه گانه را در گراف چهارگانه نشان دادیم؛ و آن را فیلد نامیدیم (کروموزوم ID). این فرآیند استفاده از ذخیره های چهارگانه را برای بهبود فرآیند فرعی (رمزگذاری و نمایش خوشه بندی توزیع شده) به کار می رود.
آزمایشات و نتایج
ما این آزمایش را به دو بخش تقسیم کردیم: بخش اول طراحی و آزمایش الگوریتم خوشه بندی در ذخیره-سازی گراف به منظور تست نتایج خوشه بندی و بخش دوم در مورد تست ها و مقایسه تاثیر چارچوب بهینه-سازی در HDFS است. تمام نمودارها و مدل های فرآیند با استفاده از جدول پردازش می شوند[66].
تبدیل گراف و خوشه بندی
ما صحت الگوریتم خوشه بندی را تایید کردیم و اطمینان حاصل کردیم که نتایج قابل اعتماد و قابل مقایسه نیز هستند. ما برخی از مجموعه داده های شناخته شده را با دقت انتخاب کردیم و اطمینان دادیم که آنها مجموعه داده هایی هستند که در بررسی های قبلی برای مقایسه مورد استفاده قرار گرفتند. این مجموعه ها عبارتند از:
انجمن کاراته زاخاری: گراف شامل 34 رئوس و 78 لبه است. گره ها نشان دهنده اعضای انجمن دانشگاه کاراته می باشند و ارتباطات بین آنها نشان دهنده الگوهای ارتباطی هستند. این انجمن در سال 1997 جمع آوری شد
نتیجه گیری
در این مقاله، ما داده های آگاه HDFS و سرویس های بالای HDFS را که به صورت بهینه سازی درstate-of-the-srt در حال اجرا می باشد را ارائه کردیم. ما یک پارتیشن بندی داده ها را براساس خوشه به منظور جابجایی مکان فیزیکی داده ها و منطبق شدن با منطقه گراف و در فرآیندهای HDFS ارائه کردیم. این امکان را می دهد که پردازش موازیِ پرس وجوهای دادهHDFS را برای منابع کمتر استفاده کنیم. چارچوب ما قادر بود برخی از تلاش ها را سریع تر انجام دهد و قادر بود به آرامی ذخیره سازی داده های RDF مقیاس پذیر را انجام دهد. با این حال، از منابع کمتر استفاده می کردند. بررسی هایی که در تجزیه و تحلیل نسل بعدی و معماری لامبدا [15]، [16]، [17] و [18] همراه با آپاچی کودو و مجموعه ای از بررسی ها در [21] ثابت شدند عملکرد سریع تری در پردازش حجم کاری OLAP و عملکرد قوی در حجم کاری زمان دارند و بسیار هم مهم می باشند. با این حال، تلاش می کند که داده های هوشمند را در چنین روش هایی تحت تاثیر قرار دهد. برای کارهای آتی، ما قصد داریم برای بهبود بیشتر از کدگذاری توزیع و عملگرهای ژنتیک به منظور کاهش هزینه های محاسباتی پشتیبانی کنیم. همچنین ما قصد داریم آزمایشات را به صورت پویا به منظور سرعت بخشیدن بیشتر به جریان داده ها به روز رسانی کنیم و به منظور استفاده از ابزارها و چارچوب معماری لامبدا و تجزیه و تحلیل نسل بعدی که در بررسی های اخیر ارائه شده آزمایش کنیم.
این مقاله ISI در سال 2017 در نشریه آی تریپل ای و در مجله تراکنش ها روی داده های بزرگ، توسط دانشگاه ممفیس منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله پردازش کلان داده ها و تکنیک های تکاملی خوشه در سایت ای ترجمه مراجعه نمایید.