#مدیر محصول #علاقهمند به هوش مصنوعی #هوادار نرمافزار آزاد #همبنیانگذار جامعه آزاد رایانش ابری اصفهان
مِهداده (کلان داده) چیست؟ (۴)
در قسمتهای پیشین این مجموعه نوشتار به مقدمه، تعاریف و تاریخچه مِهداده پرداختم. در این قسمت زنجیره ارزش مِهداده را مورد بررسی قرار میدهم. لینک قسمتهای پیشین در پایین همین صفحه گذاشته شده. اما بپردازیم به بحث زنجیره ارزش مِهداده:
زنجیره ارزش مِهداده شامل چهار گام تولید، گردآوری، ذخیرهسازی و پردازش است. سیستم مِهداده سیستمی پیچیده است که کارکردهایی را برای اداره فازهای مختلف در چرخه حیات داده دیجیتال از تولد داده گرفته تا پایان عمر آن ارائه میکند. در عین حال این سیستم معمولا شامل فازهای چندگانهای برای کاربردهای گوناگون است [۱ و ۲]. در این مورد از رویکرد مهندسی سیستمی استفاده شده که به خوبی در صنعت پذیرفته شده است [۳ و ۴]، و یک سیستم مرسوم مِهداده را به چهار فاز متوالی شامل تولید داده، کسب داده، ذخیرهسازی داده و تحلیل داده فازبندی میکند. توجه به این نکته لازم است که بصریسازی داده یک شیوه کمکی برای تحلیل داده است. در مجموع، برای تحلیل داده ابتدا باید آن را بصریسازی کرد تا بتوان الگوهای خامی را به دست آورد و سپس از روشهای دادهکاوی خاصی استفاده کرد. جزئیات هر فاز در ادامه آمده است.
تولید داده: در این فاز به چگونگی تولید داده پرداخته میشود. اصطلاح مِهداده طراحی شده تا مفهوم مجموعه دادههای بزرگ، متنوع و پیچیده را که از منابع متمرکز یا توزیع شده متعدد شامل حسگرها، ویدئوها، جریانهای کلیک و سایر منابع داده دیجیتال تولید شدهاند، برساند. معمولا هر یک از این مجموعه دادهها دارای سطوح مختلفی از ارزش مبتنی بر دامنه هستند.
در جدول یک چندین منبع تولید مِهداده از سه دامنه شبکه و اینترنت، تجارت و علم به همراه ویژگیهای آنها از دید کاربر و نیازمندیهای تحلیل نشان داده شدهاند. همانطور که در شکل نشان داده شده اغلب منابع داده حجم بسیار زیادی (پتابایت) از دادههای ساختنیافته را تولید کرده و نیازمند تحلیل سریع و دقیق برای تعداد بسیار زیادی کاربر هستند.
کسب داده: کسب داده به فرآیند مشاهده اطلاعات و تقسیم آنها به مجموعه دادهها، انتقال داده و پیشپردازش داده اشاره دارد. گاهی به این فرآیند گردآوری داده نیز گفته میشود. گاه به دلیل آنکه دادهها از منابع متعددی میآیند دارای فرمتهای گوناگون است. گردآوری داده به فرآیند کسب داده از یک محیط تولید داده خاص اشاره دارد. پس از گردآوری داده، نیاز به یک مکانیزم سریع برای انتقال دادهها به یک سیستم ذخیرهسازی مناسب برای انجام تحلیلهای گوناگون است. در نهایت مجموعه دادههای گردآوری شده ممکن است شامل دادههای بدون معنا باشند که حجم دادهها را افزایش داده و فضای ذخیرهسازی را بیهوده اشغال میکند و تحلیل داده را دستخوش تاثیر میکنند. وجود افزونگی در بسیاری از مجموعه دادهها از جمله مجموعه دادههایی که توسط حسگرها تولید شدهاند، امری طبیعی است. به منظور مقابله با افزونگی نیاز به فرآیندهای پیش پردازش داده برای ذخیرهسازی و کاوش کارآمد وجود دارد. گامهای کسب داده در شکل یک نمایش داده شدهاند.
ذخیرهسازی داده: این فاز به ذخیرهسازی و مدیریت مجموعه دادههای کلان مقیاس میپردازد. یک سیستم ذخیرهسازی داده میتواند شامل دو بخش باشد: زیرساختهای سختافزاری و مدیریت داده. زیرساختهای سختافزاری شامل مجموعهای از منابع فناوریهای اطلاعاتی و ارتباطی به اشتراک گذاشته شده که به شیوهای الاستیک برای انجام وظایف متعدد در پاسخ به تقاضاهای آنی سازماندهی شدهاند، میشود. زیرساختهای سختافزاری باید دارای قابلیت مقیاسپذیری و پیکربندی پویا جهت سازگاری با برنامههای کاربردی گوناگون باشد. نرمافزارهای مدیریت داده بر فراز زیرساختهای سختافزاری برای نگهداری از مجموعه دادههای کلان مقیاس مستقر میشوند. به علاوه، به منظور تعامل با دادههای ذخیره شده، سیستمهای ذخیرهسازی باید دارای قابلیت رابطهای عملیاتی، پرسوجوی سریع و سایر مدلهای برنامهنویسی باشند.
تحلیل داده: به فنون و ابزارهای کاوش، تبدیل و مدلسازی داده برای استخراج ارزش اشاره دارد. تحلیل داده را میتوان به شش حوزه فنی اساسی تقسیمبندی کرد: تحلیل دادههای ساختیافته، تحلیل متن، تحلیل چند رسانهای، تحلیل وب، تحلیل شبکه وتحلیل دادههای سیار. این دستهبندی برای تعیین خصوصیات کلیدی هر حوزه بسیار حائز اهمیت است. برنامههای کاربردی متعدد قابلیتهای گوناگونی به منظور تحلیل داده و استخراج الگوهای ارزشمند از حجم انبود داده ارائه میکنند که سعی ما بر آن است تا در نوشتارهای آتی به آنها بپردازیم.
پ.ن.۱. باگینامه (وبلاگ شخصیم) با مطالبی در رابطه با دادهکاوی و دیگر مسائل مورد علاقهام به روز میشه: https://www.elibugy.ir
پ.ن.۲: قسمت اول این مطلب، یعنی «مِهداده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:
https://dataio.ir/%D9%85%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-vnu8ykhlsed3
پ.ن.۳: قسمت دوم این مطلب، یعنی «مِهداده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:
https://dataio.ir/%D9%85%D9%90%D9%87%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%DA%86%DB%8C%D8%B3%D8%AA-%DB%B2-tznwitz86ljr
پ.ن.۴: قسمت سوم این مطلب، یعنی «مِهداده (کلان داده) چیست؟» رو ز لینک زیر مطالعه کنید:
https://dataio.ir/%D9%85%D9%90%D9%87%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%DA%86%DB%8C%D8%B3%D8%AA-%DB%B3-ywgez3c7y0kh
مراجع:
[۱] E. B. S. D. D. Agrawal et al., ‘‘Challenges and opportunities with big data—A community white paper developed by leading researchers across the united states,’’ The Computing Research Association, CRA White Paper, Feb. 2012.
[۲] A. Labrinidis and H. V. Jagadish, ‘‘Challenges and opportunities with big data,’’ Proc. VLDB Endowment, vol. 5, no. 12, pp. 2032–2033, Aug. 2012.
[۳] S. Chaudhuri, U. Dayal, and V. Narasayya, ‘‘An overview of business intelligence technology,’’ Commun. ACM, vol. 54, no. 8, pp. 88–98, 2011.
[۴] P. Mell and T. Grance, ‘‘The NIST definition of cloud computing,’’ National Inst. Standards Technol., vol. 53, no. 6, p. 50, 2009.
[۵] Hu H, Wen Y,Chua T.S, Li X "Toward sable systems for big data analytics: A technology tutorial", 2014, IEEE.
مطلبی دیگر از این انتشارات
نصب R Language در Red Hat Linux
مطلبی دیگر از این انتشارات
معرفی منابع یادگیری تقویتی(Reinforcement Learning)
مطلبی دیگر از این انتشارات
رسم داده ها بر روی نقشه ها با پایتون