چکیده
ما ابزارهای یادگیری ماشین مبتنیبر ابر را برای افزایش برنامههای کاربردی دادههای بزرگ پیشنهاد میکنیم، که در آن ایدهی اصلی پیشبینی حجم کار "بعدی" در برابر هدف زیرساخت ابر از طریق یک رویکرد مبتنی بر گروههای نوآورانه است که اثر بخشی طبقهبندیهای مختلف شناخته شده به منظور افزایش طیف دقت طبقه بندی نهایی ترکیب میکند، که درحال حاضر بسیار به زمینهای خاص از دادههای بزرگ مربوط است. به اصطلاح مشکل طبقه بندی حجم کار در جهت بهبود بهره وری و قابلیت اطمینان برنامههای کاربردی دادهی بزرگ مبتنی بر ابر نقش حیاتی ایفا میکند. اجرای عاقلانهی روش ما نهادهای ابر را مستقر میکند که روش طبقهبندی در بالای ماشینهای مجازی، که یک نمایش مناسب برای دادههای بزرگ مبتنی بر ابراست. ارزیابی مقدماتی و تجزیه و تحلیل، به وضوح منافع حاصل از طبقه بندی چارچوب را تایید میکند.
مقدمه
در این مقاله، ابزارهای یادگیری ماشین مبتنیبر ابر، برای افزایش برنامه های کاربردی داده های بزرگ پیشنهاد میکنیم (بهعنوان مثال، [29]، [6]، [17])، که در آن ایده اصلی پیشبینی حجم کار "بعدی" با هدف زیرساخت ابر از طریق گروه های نوآورانه است (بهعنوان مثال، [35]) روش ترکیب اثر طبقه بندیهای مختلف به منظور افزایش طیف دقت طبقه بندی نهایی شناخته شده است، که در حال حاضر به زمینهای خاص از دادههای بزرگ مربوط میشود (بهعنوان مثال، [16]). به اصطلاح مشکل طبقه بندی حجم کار نقش مهمی در جهت بهبود بهره وری و نمایش قابلیت اطمینان برنامه های کاربردی داده های بزرگ مبتنی بر ابر ایفا میکند (بهعنوان مثال، [47]، [48]). اجرای عاقلانهی این روش، نهادهای ابر را به منظور طبقه بندی توزیع شده در بالای ماشین های مجازی مستقر میکند (بهعنوان مثال، [23])، که نشان دهندهی وسیله ای مناسب برای داده های بزرگ مبتنی بر ابر است.
تکنولوژی مجازی سازی در محیط های محاسباتی مدرن مانند محاسبات ابری [8]، [11]، [18]، [7] و مزارع سرور [41]، [19] نقش اساسی دارد. با اجرای تعدادی ماشین مجازی در سخت افزار یکسان، مجازی سازی به ما اجازه میدهد تا استفادهی بهینهای از منابع سخت افزاری دردسترس انجام گیرد. علاوه بر این، مجازی سازی مزایایی همچون امنیت، قابلیت اطمینان، مقیاس پذیری و مدیریت منابع را برای ما به ارمغان میآورد (بهعنوان مثال، [9]، [42]، [10]). مدیریت منابع در محیط مجازی میتواند با طبقه بندی حجم کار کاربرد های مجازی انجام شود (به عنوان مثال، [50]). در نتیجه، خصوصیات حجم کار بهطور گسترده در طول گذشته مورد بررسی قرار گرفته و تحقیقاتی زیادی انجام شده است (بهعنوان مثال، [12]، [4]). اخیرا، برخی از کارها به سمت خصوصیات حجم کار در محیطهای مرکز داده انجام شده است [21]. از سوی دیگر، مدلسازی حجم کار و پیشبینی در محیطهای مجازی سازی شده در [20] [22]، [3] بیان شدهاند، درحالی که حفظ تعادل حجم کار مجازی شده در [24]، [46] نشان داده شده است.
اصول عملیاتی
آموزش و آزمایش مراحل الگوریتم طبقهبندی در شکل 1 توصیف شده است. ایدهی پشت آموزش، استفاده از دنباله اجراهای مختلف، تولید شده توسط برنامه، زمانی که ورودیهای مختلف را برای آموزش مدل حجم کار برنامه میگیرد. از سویدیگر، هنگامی که دنباله اجرای ناشناختهای به یک مدل حجم کار وارد میشود، احتمال دارد که حجم کار از دنبالهی ناشناخته شبیه به مدل تولید شده باشد.
معیار SPEC 2006
CINT2006 [40] معیار CPU متمرکز، بر یک سیستم پردازنده، زیر سیستم حافظه و کامپایلر تاکید میکند. SPEC، CPU2006 را برای ارائه یک مقایسه از عملکرد محاسبه متمرکز طراحی. کرده است. تمام معیارها بهعنوان کد منبع ارائه شده است. دوازده برنامهی گنجانده شده در مجموعه معیارها را میتوان در کلاسهای زیر با توجه به قابلیتها گروهبندی کرد: کلاس کامپایلر، کلاس بازی، کلاس فشردهسازی، کلاس محاسبات علمی، کلاس بهینهسازی.
تنظیم ماشین مجازی
زیرساختهای مجازیسازی مورد استفاده در این کار توسط نرم افزار VirtualBox [43] ارائه شده است نرم افزار VirtualBox برنامه مجازیسازی منبع باز است که مجموعهای غنی از رابطهای برنامه کاربردی فراهم میکند و معیارهای مختلف برنامهی مجازی را ارائه میدهد. مجموعهای کامل از API های موجود در شرح داده شده است. SDK، که با VirtualBox ارائه شده، به اشخاص ثالث اجازه میدهد تا برنامههای کاربردی در تعامل با VirtualBox را توسعه دهند. VirtualBox در سطوح طراحی شده است. در پایین VMM. را توضیح دادهایم. VMM قلب مجازیسازی است، عملکرد ماشینهای مجازی را نظارت میکند و امنیت و عدم وجود درگیری بین ماشین مجازی و میزبان را فراهم میکند. ماژولهای وجود دارد که قابلیتهای اضافی، بهعنوان مثال، سرور RDP (پروتکل از راه دور دسکتاپ) را ارائه میکنند. سطح API بالاتر از این بلوکهای اساسی نمایش داده شده است.
معیارها
با توجه به معیارها، یک سیستم مالکیت با توجه به دیاگرام شکل 3 توسعه دادیم. مالکیت توسط میزبان هدایت میشود؛ تمام دستورات و دادههای بهدست آمده از رابط کاربری COM استفاده میکند. یک رابط وب برای VMM وجود دارد اما آن از آنچه در بالا بیان شد آهستهتر است.
روش تجزیه و تحلیل داده
بهخوبی شناخته شده است که دستورالعمل اولیه از یک کد در حال اجرا نمایندهی رفتار برنامه نیست. در واقع اولین میلیاردها دستورالعمل به جز فایلهای I/O و تخصیص حافظه به عنوان ساختمان داده، قبل از رسیدن به محاسبات واقعی که توسط برنامه انجام میشود راهاندازی شده است. در این کار از تکنیکهای کشف حالت برنامه همانطوریکه در [37] توصیف شده برای پیدا کردن شروع حالت پایدار برنامهها استفاده نمیکنیم. در عوض، کورکورانه 1 میلیارد دستورالعمل را قبل از شروع تجزیه و تحلیل داده اجرا میکنیم.
ادغام DEMPSTER-SHAFER
هدف از نظریه DEMPSTER-SHAFER [36]، ادغام اقدامات مختلف شواهد است. در پایهی تئوری یک مجموعه متناهی از فرضیه های ممکن است، که می گوید
آ) تخصیص اساسی باور
تخصیص اساسی باور (BBA) می تواند به عنوان یک کلیت از یک تابع چگالی احتمال بیان شود. دقیق تر بیان کنیم، تخصیص اساسی باور m یک تابع است که یک مقدار در بازه ی [0، 1] به هر زیر مجموعه A از θ که شرایط زیر را داشته باشد اختصاص می دهد.
شایان ذکر است که از زیر مجموعه A از θ، نه همه ی عناصر A پشتیبانی می کند. زیرا ما تنها می توانیم باور به زیر مجموعه ای از θ ، نه به هر فرضیه اختصاص دهیم.
تجزیه و تحلیل تجربی مقدماتی
همانگونه که تاکنون مشخص شده است، با استفاده از ادغام Dempster-Shafer دادهها، میتوانیم یک طبقه بندی با کیفیت بالا با استفاده از طبقه بندی های با کیفیت پایین بسازیم. درحالحاضر، نشان میدهیم که این طبقه بندی با کیفیت بالا را میتوان برای پیدا کردن دستهای از حجم کار نا شناخته بهکار برد. با آزمایش یک توالی اجرای ناشناخته با طبقه بندی آموزش دیده با حجم کار W، میتوان نشانهای از دنباله اجرای نامعلوم را که به حجم کار w اختصاص داده شده بهدست آورد. اگر یک دنباله اجرا با حجم کار W با طبقهبندی با کیفیت بالا، با طبقه بند آموزش دیده با حجم کار W تست شود، خروجی نزدیک به یک خواهد بود. اگر دنباله اجرا با حجم کار مشابه با W با همان طبقهبندی تست شود، خروجی نزدیک به یک خواهد بود و الی آخر. این ویژگی میتواند برای اختصاص یک حجم کار دستههای دنباله اجرای ناشناخته استفاده شود. آزمایش شرح داده شده در این بخش به بررسی استفاده از فاصله میان معیار از نقطه نظر حجم کار میپردازد. شکل 10 یک نمای گرافیکی از فاصله میان حجم کار را نشان میدهد.
نتیجه گیری و کارهای آتی
در این مقاله با طبقه بندی برنامه در یک محیط مجازی سروکار داریم، بهعنوان نمونه، بهبود کارآیی و قابلیت اطمینان برنامه های کاربردی دادههای بزرگ مبتنی بر ابر. نشان دادیم که، با استفاده از طبقهبندی با کیفیت پایینتر، میتوانیم یک طبقه بندی با کیفیت بالاتر با استفاده از الگوریتم های همجوشی داده ها بسازیم. ممکن است چندین کاربرد از این نوع طبقه بندی، از پروفایل کاربر تا تشخیص نرم افزارهای مخرب وجود داشته باشد،. پیشرفت واضحی از کار در این مقاله برای استفاده از دیگر معیارها به منظور در برگرفتن دیگر فعالیت های حجم کار توصیف شده است. همچنین، برای بهبود بیشتر ویژگیهای چارچوب با یکپارچه سازی راهحل برای مقابله با جنبه های بزرگ پردازش گسترده دادهها برنامهریزی کردهایم، در حجم بالای کار هنوز هم ممکن است، تکنیک های فشرده سازی دادهها (بهعنوان مثال، [15])، روش قطعه شدن (بهعنوان مثال، [13])، روش حفظ حریم خصوصی (بهعنوان مثال، [14])، تعریف شده باشد، بهویژه، ممکن است با بسیاری از مسائل تشخیص نرم افزارهای مخرب همراه شده باشد.
این مقاله در سال 2015 در نشریه آی تریپل ای و در سمپوزیوم بین المللی محاسبات خوشه ای و شبکه، توسط گروه DIA منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله ابزارهای یادگیری برای نرم افزارهای پیشرفته داده های بزرگ در سایت ای ترجمه مراجعه نمایید.