مِه‌داده (کلان داده) چیست؟ (۳)


پس از بیان مفهوم مِه‌داده و ویژگی‌هایی که مِه‌داده‌ها را از مجموعه داده‌های سنتی مجزا می‌سازد (در قسمت‌های شماره یک و دو که لینک آن‌ها در پایان همین مطلب آمده) به بررسی تاریخچه مِه‌داده می‌پردازم:

به دلیل آنکه برجسته‌ترین ویژگی مِه‌داده حجم بالای این مجموعه داده‌ها است تاریخچه آن معمولا از این منظر و از هنگامی که داده‌ها حجیم‌تر شده و نیاز به پایگاه داده‌ها و ابزارهای ذخیره‌سازی با قابلیت ذخیره حجم انبوه داده به میان آمده و پایگاه داده‌ها و ابزارهای مدیریت داده معمول در پشتیبانی از مجموعه داده‌های کلان ناکارآمد شدند مورد بررسی قرار می‌گیرد. از همین رو تاریخچه مِه‌داده به دوره‌های زمانی زیر تقسیم می‌شود:

مگابایت به گیگابایت: در اواخر سال ۱۹۷۰ و سال ۱۹۸۰ میلادی داده‌های تاریخی کسب‌و‌کارها با افزایش حجم از مگابایت به گیگابایت پژوهشگران حوزه فناوری اطلاعات را با اولین چالش مِه‌داده مواجه کرد. نیاز به زمان برای ذخیره‌سازی داده‌ها و اجرای پرس‌و‌جوهای رابطه‌ای برای تحلیل‌های کسب‌و‌کار و گزارش‌گیری از جمله این چالش‌ها بودند. در همین زمان بود که پژوهشگران پی بردند پایگاه داده‌های مبتنی بر سخت‌افزار خاص برای ذخیره‌سازی داده‌ها کافی و مقرون به صرفه نیستند.

گیگابایت به ترابایت: در اواخر سال ۱۹۸۰ میلادی افزایش استفاده‌های عمومی از فناوری‌های دیجیتال منجر به افزایش حجم داده‌ها به چندین گیگابایت و حتی ترابایت شد. این افزایش حجم ماورای توانایی ذخیره‌سازی و پردازش یک رایانه بزرگ بود. در این زمان موازی‌سازی داده به عنوان راهکاری برای افزایش قابلیت ذخیره‌سازی و حجم مطرح شد. توزیع داده‌ها و پردازش‌های مربوط به آن‌ها روی سخت‌افزارهای مجزا اساس این ایده بود. بر اساس همین ایده و معماری سخت‌افزاری چندین پایگاه داده موازی، پایگاه داده با دیسک اشتراکی و پایگاه داده‌های بدون اشتراک ساخته شدند.

ترابایت به پتابایت: در اواخر سال ۱۹۹۰ میلادی توسعه وب ۱.۰ جهان را به سمت اینترنت هدایت کرد و این خود منجر به ایجاد حجم انبوهی از صفحات وب دارای داده‌های ساخت‌نیافته و نیمه‌ساخت‌یافته شد. در همین دوران جهش حجم داده از ترابایت به پتابایت رخ داد. شرکت‌های فعال در حوزه فناوری اطلاعات اقدام به شاخص‌گذاری محتوای وب و جستجو برای محتوا کردند. پایگاه داده‌های موازی با وجود اینکه در زمینه داده‌های رابطه‌ای عملکرد خوبی داشتند اما پشتیبانی کمی از داده‌های ساخت‌نیافته ارائه می‌کردند. برای حل مساله داده‌های در مقیاس وب، گوگل فایل سیستم جدیدی با عنوانGoogle File System (فایل سیستم گوگل) [۱] و مدل برنامه‌نویسی جدیدی تحت عنوان نگاشت کاهش ارائه کرد [۲]. GFS و نگاشت کاهش امکان موازی‌سازی خودکار و توزیع محاسبات کلان مقیاس را در خوشه‌های بزرگی از سرورها امکان‌پذیر ساختند.

پتابایت به اگزابایت: بدون شک با روند کنونی تولید داده‌ها حجم داده‌های سازمان‌های بزرگ از چندین پتابایت نیز بیشتر خواهد شد. اگرچه فناوری‌های کنونی موجود قابلیت مدیریت داده‌ها در حجم پتابایت را دارا هستند ولی هیچ فناوری انقلابی برای اداره حجم انبوه داده‌ای که به زودی جهان را فرا خواهد گرفت ایجاد نشده است. در ژوئن سال ۲۰۰۱ EMC گزارشی تحت عنوان «استخراج ارزش از هرج و مرج» [۳] منتشر کرد و در آن به همین موضوع پرداخت. در شکل یک چهار دوره زمانی مِه‌داده نمایش داده شده است.

شکل ۱: چهار دوره زمانی مِه‌داده
شکل ۱: چهار دوره زمانی مِه‌داده


پ.ن.۱. باگی‌نامه (وبلاگ شخصیم) با مطالبی در رابطه با داده‌کاوی و دیگر مسائل مورد علاقه‌ام به روز می‌شه: https://www.elibugy.ir

پ.ن.۲: قسمت اول این مطلب، یعنی «مِه‌داده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:

https://dataio.ir/%D9%85%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-vnu8ykhlsed3

پ.ن.۳: قسمت دوم این مطلب، یعنی «مِه‌داده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:

https://dataio.ir/%D9%85%D9%90%D9%87%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%DA%86%DB%8C%D8%B3%D8%AA-%DB%B2-tznwitz86ljr

مراجع:

[۱] S. Ghemawat, H. Gobioff, and S.-T. Leung, ‘‘The Google file system,’’ in Proc. 19th ACM Symp. Operating Syst. Principles, 2003, pp. 29–43.

[۲]J. Dean and S. Ghemawat, ‘‘Mapreduce: Simplified data processing on large clusters,’’ Commun. ACM, vol. 51, no. 1, pp. 107–113, 2008.

[۳] J. Gantz and D. Reinsel, ‘‘Extracting value from chaos,’’ in Proc. IDC iView, 2011, pp. 1–12.