ویرگول
ورودثبت نام
ای ترجمه
ای ترجمه
خواندن ۷ دقیقه·۲ سال پیش

ابزارهای یادگیری برای نرم ‌افزارهای پیشرفته داده های بزرگ (مقاله ترجمه شده)

چکیده

ما ابزارهای یادگیری ماشین مبتنی‌بر ابر را برای افزایش برنامه‌های کاربردی داده‌های بزرگ پیشنهاد می‌کنیم، که در آن ایده‌ی اصلی پیش‌بینی حجم کار "بعدی" در برابر هدف زیرساخت ابر از طریق یک رویکرد مبتنی بر گروه‌های نوآورانه است که اثر بخشی طبقه‌بندی‌های مختلف شناخته شده به ‌منظور افزایش طیف دقت طبقه ‌بندی نهایی ترکیب می‌کند، که درحال‌ حاضر بسیار به زمینه‌ای خاص از داده‌های بزرگ مربوط است. به ‌اصطلاح مشکل طبقه‌ بندی حجم کار در جهت بهبود بهره‌ وری و قابلیت اطمینان برنامه‌های کاربردی داده‌ی بزرگ مبتنی بر ابر نقش حیاتی ایفا می‌کند. اجرای عاقلانه‌ی روش ما نهادهای ابر را مستقر می‌کند که روش طبقه‌بندی در بالای ماشین‌های مجازی، که یک نمایش مناسب برای داده‌های بزرگ مبتنی بر ابراست. ارزیابی مقدماتی و تجزیه و تحلیل، به‌ وضوح منافع حاصل از طبقه ‌بندی چارچوب را تایید می‌کند.

مقدمه

در این مقاله، ابزارهای یادگیری ماشین مبتنی‌بر ابر، برای افزایش برنامه‌ های کاربردی داده ‌های بزرگ پیشنهاد می‌کنیم (به‌عنوان مثال، [29]، [6]، [17])، که در آن ایده اصلی پیش‌بینی حجم کار "بعدی" با هدف زیرساخت ابر از طریق گروه ‌های نوآورانه است (به‌عنوان مثال، [35]) روش ترکیب اثر طبقه ‌بندی‌های مختلف به منظور افزایش طیف دقت طبقه ‌بندی نهایی شناخته شده است، که در حال حاضر به زمینه‌ای خاص از داده‌های بزرگ مربوط می‌شود (به‌عنوان مثال، [16]). به ‌اصطلاح مشکل طبقه ‌بندی حجم کار نقش مهمی در جهت بهبود بهره‌ وری و نمایش قابلیت اطمینان برنامه‌ های کاربردی داده ‌های بزرگ مبتنی بر ابر ایفا می‌کند (به‌عنوان مثال، [47]، [48]). اجرای عاقلانه‌ی این روش، نهادهای ابر را به ‌منظور طبقه ‌بندی توزیع ‌شده در بالای ماشین ‌های مجازی مستقر می‌کند (به‌عنوان مثال، [23])، که نشان‌ دهنده‌ی وسیله ‌ای مناسب برای داده ‌های بزرگ مبتنی بر ابر است.

تکنولوژی مجازی‌ سازی در محیط ‌های محاسباتی مدرن مانند محاسبات ابری [8]، [11]، [18]، [7] و مزارع سرور [41]، [19] نقش اساسی دارد. با اجرای تعدادی ماشین مجازی در سخت ‌افزار یکسان، مجازی ‌سازی به ما اجازه می‌دهد تا استفاده‌ی بهینه‌ای از منابع سخت ‌افزاری دردسترس انجام گیرد. علاوه بر این، مجازی‌ سازی مزایایی همچون امنیت، قابلیت اطمینان، مقیاس‌ پذیری و مدیریت منابع را برای ما به ارمغان می‌آورد (به‌عنوان مثال، [9]، [42]، [10]). مدیریت منابع در محیط مجازی می‌تواند با طبقه ‌بندی حجم کار کاربرد های مجازی انجام شود (به ‌عنوان مثال، [50]). در نتیجه، خصوصیات حجم کار به‌طور گسترده در طول گذشته مورد بررسی قرار گرفته و تحقیقاتی زیادی انجام شده است (به‌عنوان مثال، [12]، [4]). اخیرا، برخی از کارها به سمت خصوصیات حجم کار در محیط‌های مرکز داده انجام شده است [21]. از سوی دیگر، مدل‌سازی حجم کار و پیش‌بینی در محیط‌های مجازی سازی شده در [20] [22]، [3] بیان شده‌اند، درحالی که حفظ تعادل حجم کار مجازی شده در [24]، [46] نشان داده شده است.

اصول عملیاتی

آموزش و آزمایش مراحل الگوریتم طبقه‌بندی در شکل 1 توصیف شده است. ایده‌ی پشت آموزش، استفاده از دنباله اجراهای مختلف، تولید شده توسط برنامه، زمانی که ورودی‌های مختلف را برای آموزش مدل حجم کار برنامه می‌گیرد. از سوی‌دیگر، هنگامی که دنباله اجرای ناشناخته‌ای به یک مدل حجم کار وارد می‌شود، احتمال دارد که حجم کار از دنباله‌ی ناشناخته شبیه به مدل تولید شده باشد.

معیار SPEC 2006

CINT2006 [40] معیار CPU متمرکز، بر یک سیستم پردازنده، زیر سیستم حافظه و کامپایلر تاکید می‌کند. SPEC، CPU2006 را برای ارائه یک مقایسه از عملکرد محاسبه متمرکز طراحی. کرده است. تمام معیارها به‌عنوان کد منبع ارائه شده است. دوازده برنامه‌ی گنجانده شده در مجموعه معیارها را می‌توان در کلاس‌های زیر با توجه به قابلیت‌ها گروه‌بندی کرد: کلاس کامپایلر، کلاس بازی، کلاس فشرده‌سازی، کلاس محاسبات علمی، کلاس بهینه‌سازی.

تنظیم ماشین مجازی

زیرساخت‌های مجازی‌سازی مورد استفاده در این کار توسط نرم افزار VirtualBox [43] ارائه شده است نرم افزار VirtualBox برنامه مجازی‌سازی منبع باز است که مجموعه‌ای غنی از رابط‌های برنامه کاربردی فراهم می‌کند و معیارهای مختلف برنامه‌ی مجازی را ارائه می‌دهد. مجموعه‌ای کامل از API های موجود در شرح داده شده است. SDK، که با VirtualBox ارائه شده، به اشخاص ثالث اجازه می‌دهد تا برنامه‌های کاربردی در تعامل با VirtualBox را توسعه دهند. VirtualBox در سطوح طراحی شده است. در پایین VMM. را توضیح داده‌ایم. VMM قلب مجازی‌سازی است، عملکرد ماشین‌های مجازی را نظارت می‌کند و امنیت و عدم وجود درگیری بین ماشین مجازی و میزبان را فراهم می‌کند. ماژول‌های وجود دارد که قابلیت‌های اضافی، به‌عنوان مثال، سرور RDP (پروتکل از راه دور دسکتاپ) را ارائه می‌کنند. سطح API بالاتر از این بلوک‌های اساسی نمایش داده شده است.

معیارها

با توجه به معیارها، یک سیستم مالکیت با توجه به دیاگرام شکل 3 توسعه دادیم. مالکیت توسط میزبان هدایت می‌شود؛ تمام دستورات و داده‌های به‌دست آمده از رابط کاربری COM استفاده می‌کند. یک رابط وب برای VMM وجود دارد اما آن از آنچه در بالا بیان شد آهسته‌تر است.

روش تجزیه و تحلیل داده

به‌خوبی شناخته شده است که دستورالعمل اولیه از یک کد در حال اجرا نماینده‌ی رفتار برنامه نیست. در واقع اولین میلیاردها دستورالعمل به جز فایل‌های I/O و تخصیص حافظه به عنوان ساختمان داده، قبل از رسیدن به محاسبات واقعی که توسط برنامه انجام می‌شود راه‌اندازی شده است. در این کار از تکنیک‌های کشف حالت برنامه همان‌طوری‌که در [37] توصیف شده برای پیدا کردن شروع حالت پایدار برنامه‌ها استفاده نمی‌کنیم. در عوض، کورکورانه 1 میلیارد دستورالعمل را قبل از شروع تجزیه و تحلیل داده اجرا می‌کنیم.

ادغام DEMPSTER-SHAFER

هدف از نظریه DEMPSTER-SHAFER [36]، ادغام اقدامات مختلف شواهد است. در پایه‌ی تئوری یک مجموعه متناهی از فرضیه‌ های ممکن است، که می‌ گوید

آ) تخصیص اساسی باور

تخصیص اساسی باور (BBA) می‌ تواند به‌ عنوان یک کلیت از یک تابع چگالی احتمال بیان شود. دقیق‌ تر بیان کنیم، تخصیص اساسی باور m یک تابع است که یک مقدار در بازه‌ ی [0، 1] به هر زیر مجموعه A از θ که شرایط زیر را داشته باشد اختصاص می‌ دهد.

شایان ذکر است که از زیر مجموعه A از θ، نه همه‌ ی عناصر A پشتیبانی می‌ کند. زیرا ما تنها می‌ توانیم باور به زیر مجموعه‌ ای از θ ، نه به هر فرضیه اختصاص دهیم.

تجزیه و تحلیل تجربی مقدماتی

همان‌گونه که تاکنون مشخص شده است، با استفاده از ادغام Dempster-Shafer داده‌ها، می‌توانیم یک طبقه ‌بندی با کیفیت بالا با استفاده از طبقه ‌بندی ‌های با کیفیت پایین بسازیم. درحال‌حاضر، نشان می‌دهیم که این طبقه ‌بندی با کیفیت بالا را می‌توان برای پیدا کردن دسته‌ای از حجم کار نا شناخته به‌کار برد. با آزمایش یک توالی اجرای ناشناخته با طبقه ‌بندی آموزش دیده با حجم کار W، می‌توان نشانه‌ای از دنباله اجرای نامعلوم را که به حجم کار w اختصاص داده شده به‌دست آورد. اگر یک دنباله اجرا با حجم کار W با طبقه‌بندی با کیفیت بالا، با طبقه ‌بند آموزش دیده با حجم کار W تست شود، خروجی نزدیک به یک خواهد بود. اگر دنباله اجرا با حجم کار مشابه با W با همان طبقه‌بندی تست شود، خروجی نزدیک به یک خواهد بود و الی آخر. این ویژگی می‌تواند برای اختصاص یک حجم کار دسته‌های دنباله اجرای ناشناخته استفاده شود. آزمایش شرح داده شده در این بخش به بررسی استفاده از فاصله میان معیار از نقطه نظر حجم کار می‌پردازد. شکل 10 یک نمای گرافیکی از فاصله میان حجم کار را نشان می‌دهد.

نتیجه‌ گیری و کارهای آتی

در این مقاله با طبقه‌ بندی برنامه در یک محیط مجازی سروکار داریم، به‌عنوان نمونه، بهبود کارآیی و قابلیت اطمینان برنامه ‌های کاربردی داده‌های بزرگ مبتنی بر ابر. نشان دادیم که، با استفاده از طبقه‌بندی با کیفیت پایین‌تر، می‌توانیم یک طبقه‌ بندی با کیفیت بالاتر با استفاده از الگوریتم‌ های همجوشی داده‌ ها بسازیم. ممکن است چندین کاربرد از این نوع طبقه ‌بندی، از پروفایل کاربر تا تشخیص نرم ‌افزارهای مخرب وجود داشته باشد،. پیشرفت واضحی از کار در این مقاله برای استفاده از دیگر معیارها به ‌منظور در برگرفتن دیگر فعالیت ‌های حجم کار توصیف شده است. همچنین، برای بهبود بیشتر ویژگی‌های چارچوب با یکپارچه ‌سازی راه‌حل برای مقابله با جنبه‌ های بزرگ پردازش گسترده داده‌ها برنامه‌ریزی کرده‌ایم، در حجم بالای کار هنوز هم ممکن است، تکنیک‌ های فشرده ‌سازی داده‌ها (به‌عنوان مثال، [15])، روش قطعه شدن (به‌عنوان مثال، [13])، روش حفظ حریم خصوصی (به‌عنوان مثال، [14])، تعریف شده باشد، به‌ویژه، ممکن است با بسیاری از مسائل تشخیص نرم‎ افزارهای مخرب همراه شده باشد.

این مقاله در سال 2015 در نشریه آی تریپل ای و در سمپوزیوم بین المللی محاسبات خوشه ای و شبکه، توسط گروه DIA منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله ابزارهای یادگیری برای نرم ‌افزارهای پیشرفته داده های بزرگ در سایت ای ترجمه مراجعه نمایید.

مقاله یادگیری ماشینمقاله داده های بزرگمقاله نرم ‌افزارهای پیشرفتهمقاله الگوریتم‌ های یادگیری ماشینمقاله مدل‌ های پنهان مارکوف
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید