مِه‌داده (کلان داده) چیست؟ (۲)

در قسمت دوم از سری مطالب «مِه‌داده (کلان داده) چیست؟» تعاریف مِه‌داده رو مورد بررسی قرار دادم:

سازمان‌های فعال در حوزه فناوری اطلاعات و پژوهشگران مختلف، تعاریف گوناگونی برای مِه‌داده ارائه کرده‌اند. هر یک از این سازمان‌ها و افراد ویژگی‌هایی را برای مِه‌داده برشمرده‌اند که برخی از این ویژگی‌ها در تعاریف مختلف مشترک هستند و برخی دیگر تنها از نقطه نظر یک سازمان یا پژوهشگر خاص برای مِه‌داده صدق می‌کنند و رسیدن به یک تعریف مشترک اندکی دشوار است.

مِه‌داده فقط به معنای حجم بسیاری از داده‌ها نیست و مِه‌داده‌ها ویژگی‌های برجسته دیگری نیز دارند که آن‌ها را از مفاهیم داده‌های حجیم یا داده‌های بسیار بزرگ متمایز می‌کند. در ادامه برخی از تعاریف ارائه شده برای مِه‌داده از منظرهای گوناگون، ارائه شده است.

تعریف وصفی: سازمان بین‌المللی داده یک سازمان پیشگام در زمینه پژوهش و مطالعات در حوزه مِه‌داده و تأثیرات آن است. این موسسه مِه‌داده را در یک مقاله در سال ۲۰۱۱ اینگونه تعریف می‌کند: «فناوری‌های مِه‌داده یک نسل از فناوری‌ها و معماری‌هایی هستند که برای استخراج به صرفه اطلاعات ارزشمند از حجم بسیار زیادی از داده‌های بسیار متنوع طی دریافت، استخراج و تحلیل بسیار سریع داده‌ها طراحی شده‌اند». این تعریف چهار ویژگی حجم، تنوع، سرعت و ارزش را برای مِه‌داده معرفی می‌کند. در گزارش دیگر این سازمان در سال ۲۰۱۱ تعریف مشابهی ارائه شده که چالش‌های رشد داده و اطلاعات را از سه بعد حجم، نرخ تولید و تنوع بر می‌شمارد. IBM، مایکروسافت و بسیاری از سازمان‌ها از این مدل برای تشریح و تعریف کلان داده استفاده می‌کنند[۱ و ۲].

تعریف قیاسی: مک‌کنزی در گزارش سال ۲۰۱۱ خود، مِه‌داده را اینگونه تعریف می کند: «مجموعه داده‌هایی که اندازه آن‌ها ماورای توانایی ابزارهای پایگاه داده معمول در جمع‌آوری و ذخیره‌سازی، مدیریت و تحلیل است [۳]». البته این یک تعریف ذهنی است و مِه‌داده را از نقطه نظر یک سنجه خاص تعریف نمی‌کند.

تعریف ساختاری: موسسه ملی استاندارد و فناوری، مِه‌داده را اینچنین تعریف می‌کند:«مجموعه داده‌هایی که در آن حجم داده‌ها، سرعت تولید یا نمایش داده‌ها توانایی ما را برای تحلیل کارا و موثر با استفاده از روش‌های سنتی محدود می‌کند و نیاز به استفاده از سیستم‌های مقیاس‌پذیر برای پردازش موثر دارد، مِه‌داده است.[۴] »

سازمان جهانی استاندارد و فناوری پنج ویژگی برای دسته‌بندی مِه‌داده بیان کرده که عبارتند از [۴]:

حجم: شاید مهم‌ترین ویژگی مِه‌داده را بتوان حجم عظیم داده برشمرد. امروزه شرکت‌های صاحب نام در عرصه اینترنت و فناوری اطلاعات خصوصا شبکه‌های اجتماعی به تنهایی می‌توانند روزانه بیشتر از ۵۰۰ ترابایت اطلاعات جدید تولید کنند. به عنوان مثال سرویس اشتراک ویدئو گوگل و یوتیوب در هر دقیقه بیش از ۱۰۰ ساعت ویدئو بارگذاری شده توسط کاربران را دریافت و مدیریت می‌کند. حجم داده‌ها تنها یک معیار تمایز بین مِه‌داده و داده معمولی است. برای مثال در گزارش ارائه شده توسط فیس‌بوک بیان شده که کاربران آن روزانه ۲/۷ میلیارد پیام و ارتباطات اجتماعی ثبت می‌کنند [۵].

نرخ تولید: بدین معناست که داده‌ها از طریق منابع اطلاعاتی مختلف با چه سرعتی تولید و منتقل می‌شوند.

مقیاس‌پذیری: به معنای توانایی اضافه شدن مداوم داده‌ها با اندازه‌های متفاوت است.

محدودیت‌های منطقی یا هوشمندی: شامل دو دسته هستند یکی اشکال خاص داده‌ها و دوم پرس‌و جوهای خاص. اشکال خاص داده شامل داده‌های موقتی (داده‌های زمانی و مکانی) و پرس‌و‌جوهای خاص (به صورت بازگشتی یا انواع دیگر) است.

شکل۱: پنج ویژگی بیان شده توسط سازمان جهانی استاندارد برای کلان داده [۶].

همانطور که در شکل بالا نشان داده شده، داده‌های تولید شده از منابع علمی کمترین مقدار از ویژگی‌های مِه‌داده را دارا هستند حال آنکه داده‌های مربوط به تجارت دارای بیشترین مقیاس‌پذیری و هوشمندی و داده‌های مربوط به شبکه‌های اجتماعی و اینترنت دارای بیشترین حجم و سرعت و تنوع هستند. در مجموع می‌توان مرز اکوسیستم مجموعه داده‌های معمول و مِه‌داده‌ها را با ویژگی‌های زیر تبیین کرد:

حجم داده: حجم داه‌هایی که در جهان تولید می‌شود به صورت نمایی در حال رشد است. منابع مختلفی نظیر شبکه‌های اجتماعی، لاگ سرورهای وب، جریان‌های ترافیک، تصاویر ماهواره‌ای، جریان‌های صوتی، تراکنش‌های بانکی، محتوای صفحات وب، اسناد دولتی و غیره منابعی هستند که حجم داده بسیار زیادی را تولید می‌کنند.

نرخ تولید: داده‌ها از طریق برنامه‌های کاربردی و حسگرهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می‌شوند. در بسیاری از کاربردها نیاز است تا به محض ورود داده به درخواست کاربر پاسخ داده شود.

تنوع: تنوع هم از جهت تنوع منابع تولید داده (انسان/ماشین) و هم از جهت تنوع فرمت‌های داده (متن، عکس، ویدئو و صوت) قابل بررسی است.

صحت: با توجه به اینکه داده‌ها از منابع مختلف دریافت می‌شوند ممکن است نتوان به همه آن‌ها اعتماد کرد. به عنوان مثال در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود اما اینکه آیا همه آن‌ها صحیح و قابل اطمینان هستند، موضوعی است که نمی‌توان به سادگی از کنار آن در حجم بسیار زیاد اطلاعات گذشت.

اعتبار: با فرض اینکه داده صحیح باشد، ممکن است برخی از داده‌ها برای کاربردهای خاصی مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی کاربردها برخوردار نباشد.

نوسان: سرعت تغییر ارزش داده‌های مختلف در طول زمان می‌تواند متفاوت باشد. در یک سیستم معمولی تجارت الکترونیک، سرعت نوسان داده‌ها زیاد نیست و ممکن است داده‌های موجود مثلا برای یک سال ارزش خود را حفظ کنند. اما در کاربردهایی نظیر تحلیل ارز و بورس، داده‌ها با نوسان زیادی مواجه هستند و به سرعت ارزش خود را از دست می‌دهند و مقادیر جدیدی به خود می‌گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده‌ها حائز اهمیت است، افزایش دوره نگهداری اطلاعات، مسلما هزینه‌های پیاده‌سازی زیادی را در بر خواهد داشت که باید در نظر گرفته شوند.

نمایش: یکی از چالش‌های حوزه مِه‌داده، نمایش اطلاعات است. نمایش حجم عظیم اطلاعات با ارتباطات پیچیده به گونه‌ای که به خوبی قابل فهم و مطالعه باشد از طریق روش‌های تحلیلی و بصری‌سازی خاصی امکان‌پذیر است.

ارزش: این ویژگی به ارزش اطلاعاتی داده برای تصمیم‌گیری اشاره می‌کند. به عبارت دیگر آیا هزینه‌ای که برای نگهداری و پردازش داده‌ها می‌شود در مقابل ارزش افزوده‌ای که ایجاد می‌کند ارزش اقتصادی دارد یا خیر.

در جدول یک ویژگی‌های داده‌های سنتی و مِه‌داده‌ها به منظور تبیین هرچه دقیق‌تر مرزهای اکوسیستم مِه‌داده مورد بررسی قرار گرفته است.

جدول ۱: مقایسه داده‌های سنتی و مِه‌داده [۶].

پ.ن. واژگان انگلیسی همه ویژگی‌هایی بیان شده در بالا با حرف V انگلیسی شروع می‌شوند.

پ.ن.۱. تعداد دیگری ویژگی معرفی شده که در این مطلب نوشته نشده. در مطلب دیگری به آن‌ها می‌پردازم.

پ.ن.۲. باگی‌نامه (وبلاگ شخصیم) با مطالبی در رابطه با داده‌کاوی و دیگر مسائل مورد علاقه‌ام به روز می‌شه: https://www.elibugy.ir

پ.ن.۳. قسمت اول این مطلب یعنی «مِه‌داده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:

https://dataio.ir/%D9%85%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-vnu8ykhlsed3

مراجع:

[۱] E. Meijer, ‘‘The world according to LINQ,’’ Commun. ACM, vol. 54, no. 10,pp. 45–51, Aug. 2011.

[۲] D. Laney, ‘‘3d data management: Controlling data volume, velocity and variety,’’ Gartner, Stamford, CT, USA, White Paper, 2001

[۳] J. Manyika et al., Big data: The Next Frontier for Innovation, Competition, and Productivity.

[۴] M. Cooper and P. Mell. (2012). Tackling Big Data[Online].

[۵] V. R. Borkar, M. J. Carey, and C. Li, ‘‘Big data platforms: What’s next?’’XRDS, Crossroads, ACM Mag. Students, vol. 19, no. 1, pp. 44–49, 2012.

[۶] Hu H, Wen Y,Chua T.S, Li X "Toward sable systems for big data analytics: A technology tutorial", 2014, IEEE

مِه‌داده (کلان داده) چیست؟ (۲)

تحلیلی بر نظرسنجی سالیانه وضعیت کار و زندگی برنامه نویسان و مدیر سیستم های ایران در سال ۱۳۹۸

یادگیری نظارتی یا همون Supervised Learning

سیستم های توصیه گر (Recommender System) : در میان آتش