#مدیر محصول #علاقهمند به هوش مصنوعی #هوادار نرمافزار آزاد #همبنیانگذار جامعه آزاد رایانش ابری اصفهان
مِهداده (کلان داده) چیست؟ (۲)
در قسمت دوم از سری مطالب «مِهداده (کلان داده) چیست؟» تعاریف مِهداده رو مورد بررسی قرار دادم:
سازمانهای فعال در حوزه فناوری اطلاعات و پژوهشگران مختلف، تعاریف گوناگونی برای مِهداده ارائه کردهاند. هر یک از این سازمانها و افراد ویژگیهایی را برای مِهداده برشمردهاند که برخی از این ویژگیها در تعاریف مختلف مشترک هستند و برخی دیگر تنها از نقطه نظر یک سازمان یا پژوهشگر خاص برای مِهداده صدق میکنند و رسیدن به یک تعریف مشترک اندکی دشوار است.
مِهداده فقط به معنای حجم بسیاری از دادهها نیست و مِهدادهها ویژگیهای برجسته دیگری نیز دارند که آنها را از مفاهیم دادههای حجیم یا دادههای بسیار بزرگ متمایز میکند. در ادامه برخی از تعاریف ارائه شده برای مِهداده از منظرهای گوناگون، ارائه شده است.
تعریف وصفی: سازمان بینالمللی داده یک سازمان پیشگام در زمینه پژوهش و مطالعات در حوزه مِهداده و تأثیرات آن است. این موسسه مِهداده را در یک مقاله در سال ۲۰۱۱ اینگونه تعریف میکند: «فناوریهای مِهداده یک نسل از فناوریها و معماریهایی هستند که برای استخراج به صرفه اطلاعات ارزشمند از حجم بسیار زیادی از دادههای بسیار متنوع طی دریافت، استخراج و تحلیل بسیار سریع دادهها طراحی شدهاند». این تعریف چهار ویژگی حجم، تنوع، سرعت و ارزش را برای مِهداده معرفی میکند. در گزارش دیگر این سازمان در سال ۲۰۱۱ تعریف مشابهی ارائه شده که چالشهای رشد داده و اطلاعات را از سه بعد حجم، نرخ تولید و تنوع بر میشمارد. IBM، مایکروسافت و بسیاری از سازمانها از این مدل برای تشریح و تعریف کلان داده استفاده میکنند[۱ و ۲].
تعریف قیاسی: مککنزی در گزارش سال ۲۰۱۱ خود، مِهداده را اینگونه تعریف می کند: «مجموعه دادههایی که اندازه آنها ماورای توانایی ابزارهای پایگاه داده معمول در جمعآوری و ذخیرهسازی، مدیریت و تحلیل است [۳]». البته این یک تعریف ذهنی است و مِهداده را از نقطه نظر یک سنجه خاص تعریف نمیکند.
تعریف ساختاری: موسسه ملی استاندارد و فناوری، مِهداده را اینچنین تعریف میکند:«مجموعه دادههایی که در آن حجم دادهها، سرعت تولید یا نمایش دادهها توانایی ما را برای تحلیل کارا و موثر با استفاده از روشهای سنتی محدود میکند و نیاز به استفاده از سیستمهای مقیاسپذیر برای پردازش موثر دارد، مِهداده است.[۴] »
سازمان جهانی استاندارد و فناوری پنج ویژگی برای دستهبندی مِهداده بیان کرده که عبارتند از [۴]:
حجم: شاید مهمترین ویژگی مِهداده را بتوان حجم عظیم داده برشمرد. امروزه شرکتهای صاحب نام در عرصه اینترنت و فناوری اطلاعات خصوصا شبکههای اجتماعی به تنهایی میتوانند روزانه بیشتر از ۵۰۰ ترابایت اطلاعات جدید تولید کنند. به عنوان مثال سرویس اشتراک ویدئو گوگل و یوتیوب در هر دقیقه بیش از ۱۰۰ ساعت ویدئو بارگذاری شده توسط کاربران را دریافت و مدیریت میکند. حجم دادهها تنها یک معیار تمایز بین مِهداده و داده معمولی است. برای مثال در گزارش ارائه شده توسط فیسبوک بیان شده که کاربران آن روزانه ۲/۷ میلیارد پیام و ارتباطات اجتماعی ثبت میکنند [۵].
نرخ تولید: بدین معناست که دادهها از طریق منابع اطلاعاتی مختلف با چه سرعتی تولید و منتقل میشوند.
مقیاسپذیری: به معنای توانایی اضافه شدن مداوم دادهها با اندازههای متفاوت است.
محدودیتهای منطقی یا هوشمندی: شامل دو دسته هستند یکی اشکال خاص دادهها و دوم پرسو جوهای خاص. اشکال خاص داده شامل دادههای موقتی (دادههای زمانی و مکانی) و پرسوجوهای خاص (به صورت بازگشتی یا انواع دیگر) است.
همانطور که در شکل بالا نشان داده شده، دادههای تولید شده از منابع علمی کمترین مقدار از ویژگیهای مِهداده را دارا هستند حال آنکه دادههای مربوط به تجارت دارای بیشترین مقیاسپذیری و هوشمندی و دادههای مربوط به شبکههای اجتماعی و اینترنت دارای بیشترین حجم و سرعت و تنوع هستند. در مجموع میتوان مرز اکوسیستم مجموعه دادههای معمول و مِهدادهها را با ویژگیهای زیر تبیین کرد:
حجم داده: حجم داههایی که در جهان تولید میشود به صورت نمایی در حال رشد است. منابع مختلفی نظیر شبکههای اجتماعی، لاگ سرورهای وب، جریانهای ترافیک، تصاویر ماهوارهای، جریانهای صوتی، تراکنشهای بانکی، محتوای صفحات وب، اسناد دولتی و غیره منابعی هستند که حجم داده بسیار زیادی را تولید میکنند.
نرخ تولید: دادهها از طریق برنامههای کاربردی و حسگرهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید میشوند. در بسیاری از کاربردها نیاز است تا به محض ورود داده به درخواست کاربر پاسخ داده شود.
تنوع: تنوع هم از جهت تنوع منابع تولید داده (انسان/ماشین) و هم از جهت تنوع فرمتهای داده (متن، عکس، ویدئو و صوت) قابل بررسی است.
صحت: با توجه به اینکه دادهها از منابع مختلف دریافت میشوند ممکن است نتوان به همه آنها اعتماد کرد. به عنوان مثال در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیاد اطلاعات گذشت.
اعتبار: با فرض اینکه داده صحیح باشد، ممکن است برخی از دادهها برای کاربردهای خاصی مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی کاربردها برخوردار نباشد.
نوسان: سرعت تغییر ارزش دادههای مختلف در طول زمان میتواند متفاوت باشد. در یک سیستم معمولی تجارت الکترونیک، سرعت نوسان دادهها زیاد نیست و ممکن است دادههای موجود مثلا برای یک سال ارزش خود را حفظ کنند. اما در کاربردهایی نظیر تحلیل ارز و بورس، دادهها با نوسان زیادی مواجه هستند و به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود میگیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان دادهها حائز اهمیت است، افزایش دوره نگهداری اطلاعات، مسلما هزینههای پیادهسازی زیادی را در بر خواهد داشت که باید در نظر گرفته شوند.
نمایش: یکی از چالشهای حوزه مِهداده، نمایش اطلاعات است. نمایش حجم عظیم اطلاعات با ارتباطات پیچیده به گونهای که به خوبی قابل فهم و مطالعه باشد از طریق روشهای تحلیلی و بصریسازی خاصی امکانپذیر است.
ارزش: این ویژگی به ارزش اطلاعاتی داده برای تصمیمگیری اشاره میکند. به عبارت دیگر آیا هزینهای که برای نگهداری و پردازش دادهها میشود در مقابل ارزش افزودهای که ایجاد میکند ارزش اقتصادی دارد یا خیر.
در جدول یک ویژگیهای دادههای سنتی و مِهدادهها به منظور تبیین هرچه دقیقتر مرزهای اکوسیستم مِهداده مورد بررسی قرار گرفته است.
پ.ن. واژگان انگلیسی همه ویژگیهایی بیان شده در بالا با حرف V انگلیسی شروع میشوند.
پ.ن.۱. تعداد دیگری ویژگی معرفی شده که در این مطلب نوشته نشده. در مطلب دیگری به آنها میپردازم.
پ.ن.۲. باگینامه (وبلاگ شخصیم) با مطالبی در رابطه با دادهکاوی و دیگر مسائل مورد علاقهام به روز میشه: https://www.elibugy.ir
پ.ن.۳. قسمت اول این مطلب یعنی «مِهداده (کلان داده) چیست؟» رو از لینک زیر مطالعه کنید:
https://dataio.ir/%D9%85%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-vnu8ykhlsed3
مراجع:
[۱] E. Meijer, ‘‘The world according to LINQ,’’ Commun. ACM, vol. 54, no. 10,pp. 45–51, Aug. 2011.
[۲] D. Laney, ‘‘3d data management: Controlling data volume, velocity and variety,’’ Gartner, Stamford, CT, USA, White Paper, 2001
[۳] J. Manyika et al., Big data: The Next Frontier for Innovation, Competition, and Productivity.
[۴] M. Cooper and P. Mell. (2012). Tackling Big Data[Online].
[۵] V. R. Borkar, M. J. Carey, and C. Li, ‘‘Big data platforms: What’s next?’’XRDS, Crossroads, ACM Mag. Students, vol. 19, no. 1, pp. 44–49, 2012.
[۶] Hu H, Wen Y,Chua T.S, Li X "Toward sable systems for big data analytics: A technology tutorial", 2014, IEEE
مطلبی دیگر از این انتشارات
هوش مصنوعی: دشمن عزیز!
مطلبی دیگر از این انتشارات
بررسی دو مفهوم under-fitting و over-fitting در یادگیری ماشین
مطلبی دیگر از این انتشارات
معرفی منابع یادگیری تقویتی(Reinforcement Learning)