اسپارک چطور از هدوپ استفاده می کند؟

سلام دوستان عزیزم. قبل از هر چیزی بگم من این مطلب رو در وب سایت دنیای بیگ دیتا نشر دادم که اونجا هم می تونین راجع به مباحث بیگ دیتا بیشتر مطالعه کنید

مقدمه

نکته مهمی که می بایست مورد توجه قرار گیرد اینست که هدوپ یک اکوسیستم پردازش کلان داده است که ابزارهای متنوعی می توانند در این اکوسیستم حضور داشته باشند و با هدوپ کار کنند. یکی از این ابزارها موتور پردازشی یکپارچه اسپارک است که به منظور دسترسی به لایه ذخیره سازی داده در فایل سیستم HDFS می تواند با هدوپ یکپارچه شود.

لایه ذخیره سازی داده
اسپارک به تنهایی دارای لایه ذخیره‌سازی و ماندگاری داده نیست و می‌بایست داده‌ها یا به صورت محلی وارد این ابزار شوند و یا اینکه از فایل سیستم توزیع‌شده هدوپ و یا Amazon S3 استفاده کنند.
زمان بندی وظایف پردازشی
اسپارک وظایف پردازشی خودش را به صورت تک ‌سیستمی زمانبندی می‌کند و از روش‌های دیگر زمانبندی وظایف پشتیبانی نمی‌کند.
Yarn وارد می شود و به کمک این موتور پردازشی در جهت زمانبندی توزیع‌شده وظایف آن می‌شتابد.
یک دیتابیس؟!
هدوپ نه به تنهایی و با کمک Hive یا Hbase می تواند نقش یک دیتابیس را ایفا کند.
اما اسپارک به دلیل نداشتن لایه ذخیره‌سازی به خودی خود نمی‌تواند نقش یک دیتابیس را بازی کند.
پردازش استریم داده
در مقابل اگر اسپارک را به هدوپ متصل کنید می‌توانید داده‌ها را به صورت درون‌حافظه‌ای و استریم پردازش کنید.