آپاچی هدوپ یک چارچوب نرم افزاری منبع باز است که برای ذخیرهسازی و پردازش توزیع شده مجموعه دادههای عظیم با استفاده از مدل برنامه ریزی MapReduce استفاده میشود. این چارچوب شامل خوشهها یا نودهای کامپیوتری میباشد که از سختافزارهای ارزان قیمت ساخته میشوند. همه ماژولها در هدوپ با این فرض اساسی طراحی شدهاند که خرابیهای سختافزاری رخ می دهند و سیستم باید به گونهای طراحی شود که در صورت خرابی بتواند به صورت خودکار مشکل را برطرف کند تا مجموعه سیستم همیشه در حال خدمات دهی باقی بماند.
هدوپ شامل دو بخش اصلی میباشد :
1. بخش ذخیره سازی دادهها با عنوان فایل سیستم توزیعی هدوپ (HDFS)
2. بخش پردازشی دادهها که یک مدل برنامه ریزی نگاشت – کاهشی میباشد (MapReduce).
هدوپ تنها به ماژولهای اصلی فوق الذکر محدود نمیشود بلکه بصورت یک اکوسیستم شامل چندین نرمافزار و ابزار دیگر است که بر روی ماژولها یا در کنار آنها نصب شده و کارایی سیستم را بهبود میبخشند. تعدادی از این ابزارها که همگی زیرمجموعهای از آپاچی میباشند شامل موارد زیر میشوند:
Apache Pig
Apache Hive
Apache HBase
Apache Phoenix
Apache Spark
Apache ZooKeeper
Apache Flume
Apache Sqoop
Apache Oozie
Apache Storm
ابزارهای فوق جهت مقاصد و اهداف گوناگونی بکار می روند. برخی بعنوان پایگاه داده، تعدادی برای پردازش و مقاصد دیگر استفاده میگردند. قصد داریم در مجموعه پستهای آینده به معرفی این ابزارها پرداخته و مورد استفاده هر کدام را توضیح دهیم.
همانطور که گفته شد، بخش ذخیره سازی هدوپ یا HDFS، یکی از ارکان اصلی این اکوسیستم میباشد. این بخش جهت ذخیره عظیمداده (معمولا دادههایی در اندازههای ترابایت و پتابایت) بر روی چندین ماشین و سرور استفاده میشود. یکی از این ابزارهای ذخیره سازی که بر روی HDFS نصب میشود پایگاه داده Hbase میباشد.
گروه تحلیلگری عظیم داده و کسب و کار