ای ترجمه
ای ترجمه
خواندن ۹ دقیقه·۲ سال پیش

مقدمه ای بر YARN و بررسی هادوپ (مقاله ترجمه شده)

چکیده

تجزیه و تحلیل کلان داده ها و مقدار زیادی از داده ها در سال های اخیر به یک بینش جدید تبدیل شده اند. روز به روز داده ها با سرعت چشمگیری در حال رشد هستند. یکی از تکنولوژی های کارآمد و موثر که با کلان داده-ها برخورد می کند هادوپ است و در این مقاله آنها را مورد بحث و بررسی قرار می دهیم. هادوپ، برای پردازش از کلان داده ها، که از مدل زمانبندی نگاشت کاهش است استفاده می کند. هادوپ از زمانبندی های مختلفی برای اجرای موازین شغلی استفاده می کند. زمانبندی به طور پیش فرض (First In First Out) زمانبندی FIFO است. زمانبندی با گزینه های مختلف پیشدستی و غیرپیشدستی توسعه پیدا می کند. نگاشت کاهش از محدودیت هایی که دست پیدا کرده است عبور می کند. بنابراین برای غلبه بر محدودیت های نگاشت کاهش، نسل بعدی نگاشت کاهش با عنوان YARN توسعه پیدا می کند (منابع انتقال دهنده دیگر). بنابراین، این مقاله یک بررسی از هادوپ، و استفاده از چند روش زمانبندی و به طور مختصر مقدمه ای بر YARN را ارائه می دهد.

مقدمه

در حال حاضر سناریو با اینترنت چیزهای زیادی تولید می کند و به طور عمده برای هوش تجاری تجزیه و تحلیل می شوند. در منابع مختلف کلان داده ها سایت های شبکه های اجتماعی، حسگرها، تراکنش برنامه های کاربردی سازمانی/پایگاه داده ها، دستگاه های تلفن همراه، داده های تولید شده، مقدار زیادی داده های تولید شده از فیلم های با کیفیت بالا و منابع بسیاری وجود دارد. برخی از منابع این داده ها ارزش حیاتی دارند و برای توسعه کسب و کار بسیار مفید می باشند. بنابراین یک سوال مطرح می شود چگونه چنین مقادیر عظیمی از داده ها می توانند استفاده کنند؟ علاوه بر این، هیچگونه توقف داده ای در آن وجود ندارد. درخواست های زیادی برای بهبود تکنیک های مدیریت کلان داده ها وجود دارد. پردازش کلان داده ها را می توان با استفاده از محاسبات توزیع شده و مکانیسم های پردازش موازی انجام داد. هادوپ ]1[ یک سیستم عامل محاسباتی توزیع شده در جاوا است که شامل ویژگی هایی شبیه به سیستم فایلی گوگل و نمونه ای از برنامه نویسی نگاشت کاهش است. چارچوب هادوپ توسعه دهندگان را از مسیر حل مسائل مسدود می کند و به آنها این امکان را می دهد که روی مسائل محاسباتی خود تمرکز کنند و مسائل مربوط به راه اندازی چارچوب را به طور ذاتی انجام دهند.

در بخش دوم ما در مورد جزئیات دو مورد مهم هادوپ HDFS و نگاشت کاهش بحث می کنیم. در بخش سوم ما درباره برنامه های هادوپ بحث می کنیم. بخش چهارم برخی از انواع زمانبندی مورد استفاده در هادوپ و بهبود زمانبندی را مورد بحث قرار می دهیم. بخش پنجم بیشتر در مورد جنبه های فنی هادوپ بحث می کنیم. بخش ششم روی نمونه نسل بعدی هادوپ YARN متمرکز می شویم. سرانجام در بخش هفتم به منابع هادوپ رجوع می کنیم.

هادوپ

هادوپ یک چارچوب طراحی شده از کلان داده ها است و سیستم های معمولی کلان داده ها را می تواند سازماندهی کند. هادوپ داده ها را در مجموعه ای از دستگاه ها توزیع می کند. قدرت واقعی هادوپ به صورت مقیاس پذیری صدها یا هزاران کامپیوتر که هر کدام شامل چندین هسته پردازنده هستند می باشد. بسیاری از شرکت های بزرگ معتقدند که ظرف چند سال بیش از نیمی از داده ها جهان در هادوپ ذخیره خواهند شد ]2[. علاوه بر این، هادوپ با ماشین مجازی ترکیب می شود و نتایج بیشتری را ارائه می دهد. هادوپ عمدتا شامل موارد زیر است: 1) سیستم فایل توزیع شده هادوپ (HDFS): سیستم فایل توزیع شده برای دستیابی به فضای ذخیره سازی و تحمل خطا است و 2) نگاشت کاهش هادوپ یک مدل برنامه نویسی قدرتمند موازی است که مقدار زیادی داده را از طریق محاسبات توزیع شده در میان خوشه ها پردازش می کند.

سیستم فایل توزیع شده هادوپ-HDFS

سیستم فایل توزیع شده هادوپ ]3[ ]4[ یک سیستم فایل منبع باز است که به طور خاص برای بررسی فایل-های بزرگی نمی توانند سیستم فایل سنتی را سازماندهی کنند طراحی شده است. مقدار زیادی از داده ها تقسیم، تکثیر می شوند و در میان ماشین های متعدد وجود دارند. تکرار داده ها، محاسبات را سریع و قابلیت اطمینان را تسهیل می کنند. به همین دلیل است که سیستم HDFS نیز می  تواند به عنوان یک سیستم فایل توزیع شده نامگذاری شود و این بدین معنی است که اگر یک کپی از داده ها خراب باشد یا به طور خاص نتوانسته باشد از گره نام در محل ذخیره سازی داده ها استفاده کند از عمل کپی تکراری استفاده می کند. در حال حاضر این عمل اطمینان حاصل می کند که بدون هرگونه اختلالی انجام شود.

برنامه های کاربردی هادوپ

برنامه های کاربردی هادوپ به صورت زیر ارائه شده اند که عبارتند از ]9[ ]10[ ]11[:

• تجزیه و تحلیل انواع مختلف جریان کلیک/و یا ورودی

• تحلیل بازاریابی

• پیشگزینی سفر آنلاین

• کشف و ذخیره های انرژی

• زیرساخت مدیریت

• بازیابی خطا

• توجه به سلامتی

• انواع مسیرهای مختلف داده شامل موقعیت جغرافیاییی داده، داده های حسگر و دستگاه، داده های رسانه اجتماعی است.

زمانبندی کار

زمانبندی هادوپ از انواع مختلف زمانبندی الگوریتم ها استفاده می کند. انواع مختلف هادوپ به طور پیش فرض برای زمانبندی FIFO مورد استفاده قرار می گیرد. سپس فیس بوک و یاهو پس از در نظر گرفتن سعی می کند در این منطقه به ترتیب ظرفیت زمانبندی و خطای زمانبندی را بیاورد. سپس آنها انواع مختلف هادوپ را بعدا اضافه می کنند.

زمانبندی پیش فرض هادوپ

نسخه های هادوپ به طور سرراست رویکردهایی را به همراه وظایف کاربران مورد استفاده قرار می دهد. آنها به طور مرتب اجراها را زمانبندی می کنند و به اصولFIFO ارسال می کنند (به ترتیب ورودی) ]12[.

در بعضی از زمان ها، اولویت تخصیص وظایف به منظور فراهم کردن وظایف جدید انسانی است. اولویت زمانبندی کار با انتخاب وظیفه بعدی که بالاترین اولویت را دارد است. این انتخاب به طور پیش فرض روشن نمی شود بلکه می تواند در صورت نیاز استفاده کند. اما با زمانبندی پیشگزینی FIFO در طول اولویت پشتیبانی نمی شود. بنابراین به طور تصادفی یک اجرا وجود دارد که در آن اولویت با آخرین بلوک بندی با زمانبندی بالا است. اولویت ها در کوئریFIFO اصلاح کار است که به طور مطمئن کار را انجام می دهند، با این حال دارای نیازمندی های مونیتورینگ و مدیریت کار نیز هست. اولویت مسئله با زمانبندی FIFO است و در آن هادوپ خوشه های ورودی برای هر برنامه اجرا شده ای تخصیص داده می شوند. هادوپ دو وظیفه اضافی زمانبندی را که شامل رویکرد مختلف و اشتراک خوشه بین چندین وظیفه به صورت یکجا است را ارائه می-دهد. ظرفیت و شایستگی زمانبندی یک راه پیچیده را برای مدیریت منابع خوشه از میان چندین وظیفه به طور همزمان ارائه می دهند. این زمانبندی ها در بخش زیر مورد بحث قرار می گیرند.

نگاهی کلی به جنبه های فنی مسائل

هادوپ دارای فایل های پیکربندی مهمی است ]19[ ]20[ و در هنگام پیکربندی هادوپ باید در نظر گرفته شوند. چند فایل پیکربندی به طور قابل توجهی در زیر ارائه شده است:

• Hadoop-env.sh: متغیرهای محیطی در اسکریپت ها به منظور اجرای هادوپ مورد استفاده قرار می گیرند.

• Core-site.xml: این گزینه شامل تنظیمات پیکربندی هسته هادوپ است، و شامل تنظیمات ورودی/خروجی است که به طور رایج به HDFS و نگاشت کاهش دسترسی پیدا می کند.

• Hdfs-site.xml: تنظیمات پیکربندی دمون HDFS: شامل گره نام، دومین گره نام و گره های داده است.

• Mapred-site.xml: تنظیمات پیکربندی دمون نگاشت کاهش: شامل jobtracker و tasktrackers است.

• ارباب: فهرستی از ماشین هایی است که به طور متوسط هر گره نام را اجرا می کنند.

• برده: فهرستی از ماشین هایی است که هر کدام گره داده و tasktracker را اجرا می کنند.

یکی دیگر از منابع انتقال دهنده (YARN)

هادوپ یکی از چارچوب محاسباتی خوشه ای برای پردازش کلان داده ها است. اگرچه مبحث هادوپ قابل استدلال است با این حال به یک راه حل استاندارد به منظور مدیریت کلان داده ها تبدیل شده است، این از محدودیت های آزاد نیست. نگاشت کاهش دارای مقیاس پذیری محدودی است و شامل 4000 گره می باشد ]21[. یکی دیگر از محدودیت ها عدم توانایی هادوپ در اشتراک گذاشتن منابع بین چندین چارچوب محاسباتی است. برای حل این محدودیت ها، دسته ای از منابع باز در نسل بعدی نگاشت کاهش که YARN نام دارد ارائه می شوند (یکی دیگر از منابع انتقال دهنده) ]21[ ]22[. دانشمندان کامپیوتر و مهندسان تلاش می کنند تا محدودیت ها را از بین ببرند و عملکرد هادوپ را بهبود ببخشند. YARN محدودیت مقیاس پذیری نسل اول نگاشت کاهش را حذف می کند.

مقایسه YARN و نگاشت کاهش

با جداسازی مدل برنامه نویسی توابع مدیریتی منابع، YARN مسئول زمانبندی مربوط به توابع مولفه هایper-job است. در متن جدید، نگاشت کاهش فقط برنامه های کاربردی مربوط به YARN را اجرا می کند. این جداسازی مقادیر بزرگی را به صورت انعطاف پذیر در چارچوب برنامه نویسی انتخاب و سپس ارائه می دهد. چارچوب های برنامه نویسی مختصات برنامه های ارتباطی را روی YARN اجرا می کنند، و جریان اجرا، و بهینه سازی پویا را به عنوان شایستگی، بهبود عملکرد به آنها نشان می دهند. نمونه ای از معماری های YARN و هادوپ در زمانبندی های مختلف استفاده می شود. نمونه ای دیگر از هادوپ در زمانبندی JobTracker استفاده می شود، در حالیکه YARN به طور پیش فرض از ظرفیت زمانبندی استفاده می کند.

نتیجه گیری

مقاله با یک مقدمه مختصر در مورد کلان داده ها آغاز شد. کلان داده ها می توانند مزایای قابل قبولی را برای کسب و کار ارائه دهند.

سپس مقاله در مورد تکنولوژی های کلان داده ها، و هادوپ بحث خواهد کرد. مقاله در مورد HDFS و مدل برنامه نویسی نگاشت کاهش صحبت می کند. ما در مورد برخی از برنامه های کاربردی هادوپ صحبت خواهیم کرد. سپس انواع زمانبندی در هادوپ که به طور مختصر مورد بحث قرار گرفته اند را مورد استفاده قرار می-دهیم. ما برخی از جنبه های فنی هادوپ را که فایل های مهمی در پیکربندی را دارند مورد بحث و بررسی قرار دادیم. نگاشت کاهش برخی از محدودیت ها را به طور قابل توجهی در صورتی که تعداد گره ها افزایش پیدا کرد به دست می آورد، و تکنولوژی محدودیت های YARN را برطرف می کند و به طور مختصر آنها را مورد بحث قرار می دهد.

این مقاله در سال 2014 و توسط موسسه فناوری آچاریا منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله مقدمه ای بر YARN و بررسی هادوپ در سایت ای ترجمه مراجعه نمایید.

برنامه نویسیhdfs
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید