مِه‌داده (کلان داده) چیست؟ (۴)

در قسمت‌های پیشین این مجموعه نوشتار به مقدمه، تعاریف و تاریخچه مِه‌داده پرداختم. در این قسمت زنجیره ارزش مِه‌داده را مورد بررسی قرار می‌دهم. لینک قسمت‌های پیشین در پایین همین صفحه گذاشته شده. اما بپردازیم به بحث زنجیره ارزش مِه‌داده:

زنجیره ارزش مِه‌داده شامل چهار گام تولید، گردآوری، ذخیره‌سازی و پردازش است. سیستم مِه‌داده سیستمی پیچیده است که کارکردهایی را برای اداره فازهای مختلف در چرخه حیات داده دیجیتال از تولد داده گرفته تا پایان عمر آن ارائه می‌کند. در عین حال این سیستم معمولا شامل فازهای چندگانه‌ای برای کاربردهای گوناگون است [۱ و ۲]. در این مورد از رویکرد مهندسی سیستمی استفاده شده که به خوبی در صنعت پذیرفته شده است [۳ و ۴]، و یک سیستم مرسوم مِه‌داده را به چهار فاز متوالی شامل تولید داده، کسب داده، ذخیره‌سازی داده و تحلیل داده فازبندی می‌کند. توجه به این نکته لازم است که بصری‌سازی داده یک شیوه کمکی برای تحلیل داده است. در مجموع، برای تحلیل داده ابتدا باید آن را بصری‌سازی کرد تا بتوان الگوهای خامی را به دست آورد و سپس از روش‌های داده‌کاوی خاصی استفاده کرد. جزئیات هر فاز در ادامه آمده است.

تولید داده: در این فاز به چگونگی تولید داده پرداخته می‌شود. اصطلاح مِه‌داده طراحی شده تا مفهوم مجموعه داده‌های بزرگ، متنوع و پیچیده را که از منابع متمرکز یا توزیع شده متعدد شامل حسگرها، ویدئوها، جریان‌های کلیک و سایر منابع داده دیجیتال تولید شده‌اند، برساند. معمولا هر یک از این مجموعه داده‌ها دارای سطوح مختلفی از ارزش مبتنی بر دامنه هستند.

در جدول یک چندین منبع تولید مِه‌داده از سه دامنه شبکه و اینترنت، تجارت و علم به همراه ویژگی‌های آن‌ها از دید کاربر و نیازمندی‌های تحلیل نشان داده شده‌اند. همانطور که در شکل نشان داده شده اغلب منابع داده حجم بسیار زیادی (پتابایت) از داده‌های ساخت‌نیافته را تولید کرده و نیازمند تحلیل سریع و دقیق برای تعداد بسیار زیادی کاربر هستند.

جدول ۱: منابع مرسوم تولید مِه‌داده [۵].
جدول ۱: منابع مرسوم تولید مِه‌داده [۵].

کسب داده: کسب داده به فرآیند مشاهده اطلاعات و تقسیم آن‌ها به مجموعه داده‌ها، انتقال داده و پیش‌پردازش داده اشاره دارد. گاهی به این فرآیند گردآوری داده نیز گفته می‌شود. گاه به دلیل آنکه داده‌ها از منابع متعددی می‌آیند دارای فرمت‌های گوناگون است. گردآوری داده به فرآیند کسب داده از یک محیط تولید داده خاص اشاره دارد. پس از گردآوری داده، نیاز به یک مکانیزم سریع برای انتقال داده‌ها به یک سیستم ذخیره‌سازی مناسب برای انجام تحلیل‌های گوناگون است. در نهایت مجموعه داده‌های گردآوری شده ممکن است شامل داده‌های بدون معنا باشند که حجم داده‌ها را افزایش داده و فضای ذخیره‌سازی را بیهوده اشغال می‌کند و تحلیل داده را دستخوش تاثیر می‌کنند. وجود افزونگی در بسیاری از مجموعه داده‌ها از جمله مجموعه داده‌هایی که توسط حسگرها تولید شده‌اند، امری طبیعی است. به منظور مقابله با افزونگی نیاز به فرآیندهای پیش پردازش داده برای ذخیره‌سازی و کاوش کارآمد وجود دارد. گام‌های کسب داده در شکل یک نمایش داده شده‌اند.

گام‌های کسب داده [۵].
گام‌های کسب داده [۵].

ذخیره‌سازی داده: این فاز به ذخیره‌سازی و مدیریت مجموعه داده‌های کلان مقیاس می‌پردازد. یک سیستم ذخیره‌سازی داده می‌تواند شامل دو بخش باشد: زیرساخت‌های سخت‌افزاری و مدیریت داده. زیرساخت‌های سخت‌افزاری شامل مجموعه‌ای از منابع فناوری‌های اطلاعاتی و ارتباطی به اشتراک گذاشته شده که به شیوه‌ای الاستیک برای انجام وظایف متعدد در پاسخ به تقاضاهای آنی سازمان‌دهی شده‌اند، می‌شود. زیرساخت‌های سخت‌افزاری باید دارای قابلیت مقیاس‌پذیری و پیکربندی پویا جهت سازگاری با برنامه‌های کاربردی گوناگون باشد. نرم‌افزارهای مدیریت داده بر فراز زیرساخت‌های سخت‌افزاری برای نگهداری از مجموعه داده‌های کلان مقیاس مستقر می‌شوند. به علاوه، به منظور تعامل با داده‌های ذخیره شده، سیستم‌های ذخیره‌سازی باید دارای قابلیت رابط‌های عملیاتی، پرس‌و‌جوی سریع و سایر مدل‌های برنامه‌نویسی باشند.

تحلیل داده: به فنون و ابزارهای کاوش، تبدیل و مدل‌سازی داده برای استخراج ارزش اشاره دارد. تحلیل داده را می‌توان به شش حوزه فنی اساسی تقسیم‌بندی کرد: تحلیل داده‌های ساخت‌یافته، تحلیل متن، تحلیل چند رسانه‌ای، تحلیل وب، تحلیل شبکه وتحلیل داده‌های سیار. این دسته‌بندی برای تعیین خصوصیات کلیدی هر حوزه بسیار حائز اهمیت است. برنامه‌های کاربردی متعدد قابلیت‌های گوناگونی به منظور تحلیل داده و استخراج الگوهای ارزشمند از حجم انبود داده ارائه می‌کنند که سعی ما بر آن است تا در نوشتارهای آتی به آن‌ها بپردازیم.


پ.ن.۱. باگی‌نامه (وبلاگ شخصیم) با مطالبی در رابطه با داده‌کاوی و دیگر مسائل مورد علاقه‌ام به روز می‌شه: https://www.elibugy.ir

پ.ن.۲: قسمت اول این مطلب، یعنی «مِه‌داده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:

https://dataio.ir/%D9%85%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-vnu8ykhlsed3

پ.ن.۳: قسمت دوم این مطلب، یعنی «مِه‌داده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:

https://dataio.ir/%D9%85%D9%90%D9%87%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%DA%86%DB%8C%D8%B3%D8%AA-%DB%B2-tznwitz86ljr

پ.ن.۴: قسمت سوم این مطلب، یعنی «مِه‌داده (کلان داده) چیست؟» رو ز لینک زیر مطالعه کنید:

https://dataio.ir/%D9%85%D9%90%D9%87%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%DA%86%DB%8C%D8%B3%D8%AA-%DB%B3-ywgez3c7y0kh


مراجع:

[۱] E. B. S. D. D. Agrawal et al., ‘‘Challenges and opportunities with big data—A community white paper developed by leading researchers across the united states,’’ The Computing Research Association, CRA White Paper, Feb. 2012.

[۲] A. Labrinidis and H. V. Jagadish, ‘‘Challenges and opportunities with big data,’’ Proc. VLDB Endowment, vol. 5, no. 12, pp. 2032–2033, Aug. 2012.

[۳] S. Chaudhuri, U. Dayal, and V. Narasayya, ‘‘An overview of business intelligence technology,’’ Commun. ACM, vol. 54, no. 8, pp. 88–98, 2011.

[۴] P. Mell and T. Grance, ‘‘The NIST definition of cloud computing,’’ National Inst. Standards Technol., vol. 53, no. 6, p. 50, 2009.

[۵] Hu H, Wen Y,Chua T.S, Li X "Toward sable systems for big data analytics: A technology tutorial", 2014, IEEE.