#مدیر محصول #علاقهمند به هوش مصنوعی #هوادار نرمافزار آزاد #همبنیانگذار جامعه آزاد رایانش ابری اصفهان
مِهداده (کلان داده) چیست؟ (۳)
پس از بیان مفهوم مِهداده و ویژگیهایی که مِهدادهها را از مجموعه دادههای سنتی مجزا میسازد (در قسمتهای شماره یک و دو که لینک آنها در پایان همین مطلب آمده) به بررسی تاریخچه مِهداده میپردازم:
به دلیل آنکه برجستهترین ویژگی مِهداده حجم بالای این مجموعه دادهها است تاریخچه آن معمولا از این منظر و از هنگامی که دادهها حجیمتر شده و نیاز به پایگاه دادهها و ابزارهای ذخیرهسازی با قابلیت ذخیره حجم انبوه داده به میان آمده و پایگاه دادهها و ابزارهای مدیریت داده معمول در پشتیبانی از مجموعه دادههای کلان ناکارآمد شدند مورد بررسی قرار میگیرد. از همین رو تاریخچه مِهداده به دورههای زمانی زیر تقسیم میشود:
مگابایت به گیگابایت: در اواخر سال ۱۹۷۰ و سال ۱۹۸۰ میلادی دادههای تاریخی کسبوکارها با افزایش حجم از مگابایت به گیگابایت پژوهشگران حوزه فناوری اطلاعات را با اولین چالش مِهداده مواجه کرد. نیاز به زمان برای ذخیرهسازی دادهها و اجرای پرسوجوهای رابطهای برای تحلیلهای کسبوکار و گزارشگیری از جمله این چالشها بودند. در همین زمان بود که پژوهشگران پی بردند پایگاه دادههای مبتنی بر سختافزار خاص برای ذخیرهسازی دادهها کافی و مقرون به صرفه نیستند.
گیگابایت به ترابایت: در اواخر سال ۱۹۸۰ میلادی افزایش استفادههای عمومی از فناوریهای دیجیتال منجر به افزایش حجم دادهها به چندین گیگابایت و حتی ترابایت شد. این افزایش حجم ماورای توانایی ذخیرهسازی و پردازش یک رایانه بزرگ بود. در این زمان موازیسازی داده به عنوان راهکاری برای افزایش قابلیت ذخیرهسازی و حجم مطرح شد. توزیع دادهها و پردازشهای مربوط به آنها روی سختافزارهای مجزا اساس این ایده بود. بر اساس همین ایده و معماری سختافزاری چندین پایگاه داده موازی، پایگاه داده با دیسک اشتراکی و پایگاه دادههای بدون اشتراک ساخته شدند.
ترابایت به پتابایت: در اواخر سال ۱۹۹۰ میلادی توسعه وب ۱.۰ جهان را به سمت اینترنت هدایت کرد و این خود منجر به ایجاد حجم انبوهی از صفحات وب دارای دادههای ساختنیافته و نیمهساختیافته شد. در همین دوران جهش حجم داده از ترابایت به پتابایت رخ داد. شرکتهای فعال در حوزه فناوری اطلاعات اقدام به شاخصگذاری محتوای وب و جستجو برای محتوا کردند. پایگاه دادههای موازی با وجود اینکه در زمینه دادههای رابطهای عملکرد خوبی داشتند اما پشتیبانی کمی از دادههای ساختنیافته ارائه میکردند. برای حل مساله دادههای در مقیاس وب، گوگل فایل سیستم جدیدی با عنوانGoogle File System (فایل سیستم گوگل) [۱] و مدل برنامهنویسی جدیدی تحت عنوان نگاشت کاهش ارائه کرد [۲]. GFS و نگاشت کاهش امکان موازیسازی خودکار و توزیع محاسبات کلان مقیاس را در خوشههای بزرگی از سرورها امکانپذیر ساختند.
پتابایت به اگزابایت: بدون شک با روند کنونی تولید دادهها حجم دادههای سازمانهای بزرگ از چندین پتابایت نیز بیشتر خواهد شد. اگرچه فناوریهای کنونی موجود قابلیت مدیریت دادهها در حجم پتابایت را دارا هستند ولی هیچ فناوری انقلابی برای اداره حجم انبوه دادهای که به زودی جهان را فرا خواهد گرفت ایجاد نشده است. در ژوئن سال ۲۰۰۱ EMC گزارشی تحت عنوان «استخراج ارزش از هرج و مرج» [۳] منتشر کرد و در آن به همین موضوع پرداخت. در شکل یک چهار دوره زمانی مِهداده نمایش داده شده است.
پ.ن.۱. باگینامه (وبلاگ شخصیم) با مطالبی در رابطه با دادهکاوی و دیگر مسائل مورد علاقهام به روز میشه: https://www.elibugy.ir
پ.ن.۲: قسمت اول این مطلب، یعنی «مِهداده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:
https://dataio.ir/%D9%85%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-vnu8ykhlsed3
پ.ن.۳: قسمت دوم این مطلب، یعنی «مِهداده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:
https://dataio.ir/%D9%85%D9%90%D9%87%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%DA%86%DB%8C%D8%B3%D8%AA-%DB%B2-tznwitz86ljr
مراجع:
[۱] S. Ghemawat, H. Gobioff, and S.-T. Leung, ‘‘The Google file system,’’ in Proc. 19th ACM Symp. Operating Syst. Principles, 2003, pp. 29–43.
[۲]J. Dean and S. Ghemawat, ‘‘Mapreduce: Simplified data processing on large clusters,’’ Commun. ACM, vol. 51, no. 1, pp. 107–113, 2008.
[۳] J. Gantz and D. Reinsel, ‘‘Extracting value from chaos,’’ in Proc. IDC iView, 2011, pp. 1–12.
مطلبی دیگر از این انتشارات
مجموعه کاملی از فوت و فن های کار با Jupyter Notebook - بخش 1/4
مطلبی دیگر از این انتشارات
مدل پنهان مارکف به زبان ساده
مطلبی دیگر از این انتشارات
در باب هوش مصنوعی با شلوارک یا چرا قرنطینه را دوست دارم؟