بنیانگذار مدرسه بیگ دیتا
اسپارک چطور از هدوپ استفاده می کند؟
سلام دوستان عزیزم. قبل از هر چیزی بگم من این مطلب رو در وب سایت دنیای بیگ دیتا نشر دادم که اونجا هم می تونین راجع به مباحث بیگ دیتا بیشتر مطالعه کنید
مقدمه
نکته مهمی که می بایست مورد توجه قرار گیرد اینست که هدوپ یک اکوسیستم پردازش کلان داده است که ابزارهای متنوعی می توانند در این اکوسیستم حضور داشته باشند و با هدوپ کار کنند. یکی از این ابزارها موتور پردازشی یکپارچه اسپارک است که به منظور دسترسی به لایه ذخیره سازی داده در فایل سیستم HDFS می تواند با هدوپ یکپارچه شود.
لایه ذخیره سازی داده
اسپارک به تنهایی دارای لایه ذخیرهسازی و ماندگاری داده نیست و میبایست دادهها یا به صورت محلی وارد این ابزار شوند و یا اینکه از فایل سیستم توزیعشده هدوپ و یا Amazon S3 استفاده کنند.
زمان بندی وظایف پردازشی
اسپارک وظایف پردازشی خودش را به صورت تک سیستمی زمانبندی میکند و از روشهای دیگر زمانبندی وظایف پشتیبانی نمیکند.
Yarn وارد می شود و به کمک این موتور پردازشی در جهت زمانبندی توزیعشده وظایف آن میشتابد.
یک دیتابیس؟!
هدوپ نه به تنهایی و با کمک Hive یا Hbase می تواند نقش یک دیتابیس را ایفا کند.
اما اسپارک به دلیل نداشتن لایه ذخیرهسازی به خودی خود نمیتواند نقش یک دیتابیس را بازی کند.
پردازش استریم داده
در مقابل اگر اسپارک را به هدوپ متصل کنید میتوانید دادهها را به صورت درونحافظهای و استریم پردازش کنید.
مطلبی دیگر از این انتشارات
دیتابیس های SQL و NOSQL به همراه بررسی تئوری CAP
مطلبی دیگر از این انتشارات
انباره داده HIVE
مطلبی دیگر از این انتشارات
دیتابیس گرافی NEO4J