mohamadmilani15.mm
mohamadmilani15.mm
خواندن ۱۰ دقیقه·۴ سال پیش

سیستم فایل توزیع شده HDFS

گردآورنده و تنظیم : محمد شمسعلی میلانی
گردآورنده و تنظیم : محمد شمسعلی میلانی


در این پست قصد داریم در مورد سیستم فایل توزیع شده هدوپ صحبت کنیم. سکوی هدوپ دارای یک سیستم فایل توزیع شده است که به منظور ایجاد قابلیت دسترس‌ پذیری بالا و بهبود کارایی، داده‌ها را در سطح ماشین‌های خوشه بصورت بلوک‌های داده‌ای تقسیم می‌کند. در اینجا قصد داریم این سیستم فایل را با جزئیات بیشتری بررسی کنیم. اما قبل از هرچیز شاید بد نباشد تا چند نمونه از موارد استفاده آن را بررسی می‌کنیم:

  • در سال ۲۰۱۰، فیس‌ بوک ادعا کرد که یکی از بزرگ‌ترین مجموعه‌های HDFS را در اختیار دارد که ۲۱ پتابایت داده را بر روی آن ذخیره می‌کند.
  • در سال ۲۰۱۲، فیس‌ بوک اعلام کرد که بزرگ‌ترین مجموعه‌ی یک کلاستر HDFS را با قابلیت ذخیره سازی بیش از ۱۰۰ پتابایت داده را ایجاد کرده است.
  • و یاهو نیز بیشتر از ۱۰۰ هزار CPU در بیشتر از ۴۰ هزار سرور اجراکننده‌ی هدوپ، با بزرگ‌ترین کلاستر هدوپ که دارای ۴۵۰۰ گره پردازشی است را دارا می‌باشد. به طور کلی، یاهو ۴۵۵ پتابایت داده در HDFS ذخیره می‌کند.
  • در سال ۲۰۱۳ نیز، اکثر شرکت‌های بزرگ موجود در لیست ۵۰۰ شرکتی که توسط مجله‌ی Fortune اعلام شدند، شروع به استفاده کردن از هدوپ کردند.

شاید شما هم با من هم‌ عقیده باشید که درک این آمار کمی دشوار باشد. همانطور که در بخش‌های قبلی مطرح شد، هدوپ دو واحد اصلی دارد: حافظه و پردازش. وقتی در مورد بخش حافظه‌ی هدوپ صحبت می‌کنیم، منظور HDFS است که مخفف عبارت سیستم فایل توزیع‌شده‌ی هدوپ است. از همین رو در این پست، HDFS را به شما معرفی خواهم کرد و درباره‌ی موضوعات زیر توضیح خواهم داد:

  • مزایای HDFS
  • ویژگی‌های HDFS

اما قبل از توضیح درباره‌ی HDFS اجازه دهید تا کمی در مورد سیستم فایل توزیع شده توضیح بدهم.

سیستم فایل توزیع‌شده(DFS)

سیستم فایل توزیع‌شده به مدیریت داده‌ها، یعنی فایل‌ها یا پوشه‌های موجود در چندین کامپیوتر یا سرور می‌پردازد. به بیان دیگر، DFS سیستم فایلی است که به ما اجازه می‌دهد داده‌ها را در بیشتر از چندین گره یا ماشین در یک مجموعه ذخیره کنیم و به چندین کاربر اجازه می‌دهد که به داده‌ها دسترسی داشته باشند. بنابراین به طور کلی، یک سیستم فایل توزیع شده اهدافی یکسان با سیستم فایلی که تابحال در اختیار داشتید (برای مثال NTFS در ویندوز، HFS در مک و یا EX4 در لینوکس) را در پیش می‌گیرد. تنها تفاوت این است که، در حالت سیستم فایل توزیع‌شده شما داده را به جای یک دستگاه در چند دستگاه ذخیره می‌کنید. بااینکه فایل‌ها در شبکه ذخیره می‌شوند، DFS داده‌ها را به گونه‌ای سازمان داده و نمایش می‌دهد که کاربری که مشغول کار با دستگاه است حس می‌کند که تمام داده‌ها بصورت واحد و در یک دستگاه ذخیره شده‌اند.

سیستم فایل توزیع شده هدوپ (HDFS)

سیستم فایل توزیع‌شده‌ی هدوپ یا HDFS یک سیستم فایل توزیع‌شده بر اساس جاوا است که شما را قادر می‌سازد که داده‌های حجیم را در چندین گره در یک کلاستر هدوپ ذخیره کنید. بنابراین، اگر هدوپ را نصب کنید، به HDFS به عنوان سیستم ذخیره‌سازی داده‌ها در فضای توزیع‌شده دسترسی پیدا می‌کنید.

در ابتدا اجازه بدهید مثالی بزنیم تا این مسئله را متوجه شوید. تصور کنید که ۱۰ دستگاه یا ۱۰ کامپیوتر دارید که هر کدام هارد درایوی با ظرفیت ۱ ترابایت دارند. در این حالت، HDFS می‌گوید که اگر شما هدوپ را به عنوان سکویی بروی این ده ماشین نصب کنید، به HDFS به عنوان سرویس ذخیره دسترسی خواهید داشت. سیستم فایل توزیع‌شده‌ی هدوپ بصورتی توزیع شدگی را ایجاد می‌کند که از حافظه‌ی اختصاصی هریک از دستگاه‌ها برای ذخیره‌سازی داده‌ها استفاده می‌کند.


وقتی شما از طریق هر کدام از ۱۰ گره موجود در مجموعه‌ی هدوپ به سیستم فایل توزیع‌شده‌ی هدوپ دسترسی پیدا می‌کنید، احساس می‌کنید که وارد یک ماشین بزرگ با ظرفیت حافظه‌ی ۱۰ ترابایتی (حافظه‌ی کل ۱۰ گره) شده‌اید. به این معنا است که شما می‌توانید یک فایل ۱۰ ترابایتی را طوری ذخیره کنید که در تمام ۱۰ گره (هرکدام ۱ ترابایت) توزیع شود. بنابراین، این روند به محدودیت‌های فیزیکی هر یک از گره‌ها محدود نمی‌شود.

مزایای هدوپ

محاسبات توزیع‌شده و موازی:

همانطورکه می‌دانید مسائل مطرح در حوزه کلان داده معمولا با حجم بالایی از داده‌ها سر و کار دارند. این مسائل جز مسائل حساس به داده تلقی می‌شوند. برنامه های حساس به داده به برنامه هایی اطلاق می شود که در آنها تمرکز اصلی مسئله، پردازش حجم عظیمی از داده ها می باشد. در این نوع برنامه ها، انجام کارهای I/O و جابجایی داده ها، بیشتر زمان اجرای برنامه را به خود اختصاص می دهند. پردازش موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها به چندین بخش محقق می شود که هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند. سکوی هدوپ نیز مطابق با همین روش از تقسیم داده‌ها و انجام پردازش بروی این داده‌ها استفاده می‌کند.

مقیاس‌پذیری افقی:

مزیت دیگری که پروژه هدوپ از آن برخوردار است، مقیاس‌پذیری افقی است. در سیستم فایل‌های توزیع شده به منظور افزایش و یا کاهش ظرفیت ذخیره سازی می‌توان از دو روش مقیاس‌پذیری استفاده کرد: مقیاس‌پذیری عمودی و افقی.?

در مقیاس‌پذیری عمودی (scale up)، ظرفیت سخت‌افزاری سیستم را افزایش می‌دهیم. به بیان دیگر، Ram، CPU و یا دیسک بیشتری را به سیستم موجودتان اضافه می‌کنید تا آن را قوی‌تر کنید. اما چالش‌هایی همراه با مقیاس‌پذیری عمودی وجود دارد:

  • همیشه در مورد افزایش ظرفیت سخت‌افزارتان محدودیت وجود دارد. بنابراین، نمی‌توانید همواره به افزایش منابع دستگاه ادامه دهید.
  • در مقیاس‌پذیری عمودی، در اکثر مواقع باید ابتدا ماشین را خاموش کرد. سپس برای داشتن مجموعه‌ی سخت‌افزاری هرچه قوی‌تر منابع را افزایش داد و بعد از آن دوباره ماشین را راه‌اندازی کرد.
  • در حالت مقیاس‌پذیری افقی (scale out)، به جای افزایش ظرفیت سخت‌افزار هر دستگاه، به کلاستر موجود گره‌های بیشتری اضافه می‌کنید. و مهم‌تر از همه این است که می‌توانید دستگاه‌های بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید. بنابراین، در حین مقیاس‌پذیری افقی هیچ زمانی نیاز نیست به منظور افزایش و یا کاهش مقیاس کلاستر، عملکرد آن را متوقف کرد.

ویژگی‌های HDFS

در بخش‌های دیگر با تفصیل بیشتری در مورد ویژگی‌های هدوپ صحبت خواهیم کرد. اما در حال حاضر، بیایید نگاهی اجمالی بر ویژگی‌های HDFS داشته باشیم:

  • هزینه: به طور کلی، HDFS می‌تواند بر روی یک سخت‌افزار ارزان قیمت مانند دسکتاپ/لپ تاپ که هر روز از آن استفاده می‌کنید تا سرور‌های ویژه و گران قیمت اجرا شود. بنابراین راه حل بسیار مقرون به صرفه‌ایی برای ذخیره‌سازی داده‌ها در مقیاس بالا است. چون ما از سخت‌افزار مناسب ارزان‌قیمت استفاده می‌کنیم، نیازی ندارید که برای مقیاس‌پذیری افقی کلاستر هدوپ هزینه‌ی زیادی صرف کنید. به بیان دیگر، اضافه کردن گره‌های بیشتر به HDFS (مقیاس‌پذیری افقی) از نظر اقتصادی نسبت به تهیه سخت‌افزار قوی‌تر مقرون به صرفه‌تر است.
  • تنوع و حجم داده: تنوع و حجم دو مورد از ویژگی‌های محیط کلان داده می باشند ‌‌که می‌توان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، می‌توان داده‌های حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین می‌توانید هر نوع داده‌ای اعم از ساختاریافته، غیرساختار یافته یا نیمه‌ساختاریافته را در آن ذخیره کنید.
  • قابلیت اطمینان و مقاومت در برابر خطا: وقتی داده‌ها را بر روی HDFS ذخیره می‌کنید، به صورت خودکار داده‌های ورودی به بلاک‌های داده‌ای تقسیم می‌شود و آن‌ها به سبک توزیع‌شده در کلاستر هدوپ ذخیره می‌شود. اطلاعات مربوط به اینکه چه بلاک داده‌ای در کدام گره داده قرار گرفته، به صورت فراداده‌ای برای آن داده ذخیره می‌شود. NameNode فراداده‌ها را مدیریت می‌کند و DataNode‌ها مسئول ذخیره‌ی داده‌ها هستند. NameNode همچنین مدیریت تکرار داده‌ها را برعهده دارد. یعنی چندین کپی از داده‌ها را نگهداری می‌کند. این تولید مجدد داده‌ها HDFS را برابر خرابی گره بسیار ایمن می‌کند. بنابراین، حتی اگر هر کدام گره‌ها از کار بیفتند، می‌توانیم داده‌ها را از طریق نسخه‌های دیگر موجود بر سایر گره‌ها بازیابی کنیم. به صورت پیش‌فرض، ضریب تکرار ۳ است. بنابراین اگر شما ۱ گیگابایت فایل در HDFS ذخیره کنید، در نهایت آن ۳ گیگابایت از ظرفیت فایل سیستم را اشغال خواهد کرد. NameNode به صورت تناوبی فراداده را به‌روزرسانی می‌کند و ضریب تکرار را ثابت نگه می‌دارد.
  • جامعیت داده: تمامیت داده درباره‌ی این است که آیا داده‌ی ذخیره‌شده در HDFS من صحیح است یا خیر. HDFS به طور مداوم تمامیت داده‌های ذخیره‌شده را بر حسب داده‌ی جمع‌کنترلی بررسی می‌کند. اگر هر اشتباهی در صحت داده‌ها رخ دهد، NameNode از این موضوع اطلاع پیدا می‌کند. در این حالت، NameNode کپی جدید اضافی ایجاد می‌کند و کپی‌های خراب را حذف می‌کند.
  • توان عملیاتی بالا: توان عملیاتی، مقدار کاری است که در واحد زمان انجام می‌شود. این ویژگی درباره‌ی این موضوع است که با چه سرعتی می‌توانید به داده‌های سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی درباره‌ی عملکرد سیستم می‌دهد. همانطور که در مثال بالا مشاهده کردید ما برای بهبود محاسبات جمعاً از ۱۰ گره استفاده کردیم. بنابراین توانستیم وقتی که تمام گره‌ها به صورت موازی در حال کار بودند، زمان پردازش را بطور چشمگیری کاهش دهیم. در نتیجه، با پردازش داده‌ها به صورت موازی، زمان پردازش را فوق‌العاده کاهش دادیم و بنابراین به توان عملیاتی بالایی رسیدیم.
  • محلی بودن محاسبات: این ویژگی مربوط به انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستم‌های سنتی، همیشه داده را به لایه برنامه منتقل می‌کنیم و سپس آن را پردازش می‌کنیم. اما در هدوپ، به علت معماری و حجم بالای داده، انتقال داده به لایه برنامه عملکرد شبکه را به حد قابل توجهی کند خواهد کرد و باعث ایجاد گلوگاه در انتقال داده‌ها خواهد شد. بنابراین، در HDFS، بخش پردازشی را به گرههای داده یعنی جایی که داده‌ها قرار دارند منتقل می‌کنیم. بنابراین داده‌ها را حرکت نمی‌دهید و برنامه یا واحد پردازش را به محل داده انتقال می‌دهید.
https://www.aparat.com/v/lCv96/Hadoop_%DA%86%DB%8C%D8%B3%D8%AA%D8%9F



hadoophdfsموسسه آموزش عالی صدرالمتالهین
شاید از این پست‌ها خوشتان بیاید