معرفی پایگاه داده "هدوپ"

آپاچی هدوپ یک چارچوب نرم افزاری منبع باز است که برای ذخیره‌سازی و پردازش توزیع شده مجموعه داده‌های عظیم با استفاده از مدل برنامه ریزی MapReduce استفاده می‌شود. این چارچوب شامل خوشه‌ها یا نودهای کامپیوتری می‌باشد که از سخت‌افزارهای ارزان قیمت ساخته می‌شوند. همه ماژول‌ها در هدوپ با این فرض اساسی طراحی شده‌اند که خرابی‌های سخت‌افزاری رخ می دهند و سیستم باید به گونه‌ای طراحی شود که در صورت خرابی بتواند به صورت خودکار مشکل را برطرف کند تا مجموعه سیستم همیشه در حال خدمات دهی باقی بماند.
هدوپ شامل دو بخش اصلی می‌باشد :
1. بخش ذخیره سازی داده‌ها با عنوان فایل سیستم توزیعی هدوپ (HDFS)
2. بخش پردازشی داده‌ها که یک مدل برنامه ریزی نگاشت – کاهشی می‌باشد (MapReduce).
هدوپ تنها به ماژولهای اصلی فوق الذکر محدود نمی‌شود بلکه بصورت یک اکوسیستم شامل چندین نرم‌افزار و ابزار دیگر است که بر روی ماژولها یا در کنار آنها نصب شده و کارایی سیستم را بهبود می‌بخشند. تعدادی از این ابزارها که همگی زیرمجموعه‌ای از آپاچی می‌باشند شامل موارد زیر می‌شوند:
Apache Pig
Apache Hive
Apache HBase
Apache Phoenix
Apache Spark
Apache ZooKeeper
Apache Flume
Apache Sqoop
Apache Oozie
Apache Storm
ابزارهای فوق جهت مقاصد و اهداف گوناگونی بکار می روند. برخی بعنوان پایگاه داده، تعدادی برای پردازش و مقاصد دیگر استفاده می‌گردند. قصد داریم در مجموعه پست‌های آینده به معرفی این ابزارها پرداخته و مورد استفاده هر کدام را توضیح دهیم.
همانطور که گفته شد، بخش ذخیره سازی هدوپ یا HDFS، یکی از ارکان اصلی این اکوسیستم می‌باشد. این بخش جهت ذخیره عظیم‌داده (معمولا داده‌هایی در اندازه‌های ترابایت و پتابایت) بر روی چندین ماشین و سرور استفاده می‌شود. یکی از این ابزارهای ذخیره سازی که بر روی HDFS نصب می‌شود پایگاه داده Hbase می‌باشد.
گروه تحلیلگری عظیم داده و کسب و کار

@BigData_BusinessAnalytics