در بیست سال گذشته حجم دادههای تولید شده در حوزههای مختلف افزایش چشمگیری یافته است. بر اساس گزارش سازمان بینالمللی داده در سال ۲۰۱۱، حجم کلی داده تولیدشده و کپی شده در دنیا برابر ۱ زتابایت، معادل ده به توان بیستویک بایت بوده که این مقدار در مدت پنج سال، نه برابر شده و بر اساس پیشبینیهای انجامگرفته، هر دو سال دو برابر خواهد شد.
عبارت کلانداده به دلیل این افزایش عظیم دادهها مطرح گردیده و در حالت کلی برای توصیف دادههایی با حجم، تنوع و سرعت تغییر زیاد استفاده میگردد. به عبارت دقیقتر، کلانداده در مقایسه با تعاریف سنتی داده عبارت است از مقادیر بسیار زیادی از دادههای بدون ساختار و دستهبندی نشده که نیاز به تحلیل بلادرنگ دارند و درصورتیکه با استفاده از الگوریتمها و روشهای کارآمد، طبقهبندیشده و پردازش گردند، اطلاعات مفیدی از آنها استخراج خواهد گردید. تاکنون تعاریف متعددی برای این فناوری بیانشده است که در ادامه دو نمونه از آنها مطرح میشوند:
تعریف مکنزی: کلانداده، مجموعه دادههایی هستند که اندازه آنها فراتر از ظرفیت پایگاه دادههای معمول برای جمعآوری، ذخیرهسازی، مدیریت و پردازش دادهها در یک زمان مناسب است.
تعریف گارتنر: کلانداده، داراییهای اطلاعاتی با حجم، تنوع و سرعت ایجاد بسیار بالایی هستند که نیازمند شکلهای جدیدی از پردازشاند تا باعث بهبود تصمیمگیری، کسب بینش و بهینهسازی شوند.
عبارت «کلانداده» مدتهاست که برای اشاره به حجم عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل میشوند، مورداستفاده قرار میگیرد؛ اما بهتازگی، این عبارت بیشتر برای اشاره به مجموعههای دادهای بزرگی استفاده میشود که بهقدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههای داده سنتی و معمولی قابل مدیریت نیستند.
در بحث کلانداده، ما نیاز داریم که دادهها را بهمنظور استخراج اطلاعات، کشف دانش و درنهایت تصمیمگیری در خصوص مسائل مختلف کاربردی بهصورت صحیح مدیریت کنیم. مدیریت دادهها عموماً شامل ۵ فعالیت اصلی میباشد:
· جمعآوری
· ذخیرهسازی
· جستجو
· به اشتراکگذاری
· تحلیل
دادهها امروزه عنصری رو به رشد در زندگی هستند که هرچه میزان رشد آنها بیشتر شود، ادبیات بیشتری درزمینه کلانداده ایجادشده، کاربرد آن فراگیرتر شده و لزوم سیاستگذاری در آن افزایش مییابد. بهطورکلی میتوان گفت کلانداده دارای چهار ویژگی اصلی هستند:
حجم: به میزان دادههای مربوط اشاره دارد. مقیاس مجموعه دادهها از گیگابایت تا زتابایت در حال افزایش است.
تنوع: نشاندهنده پیچیدگی انواع مختلف کلانداده است. درگذشته، نوع دادههایی که ایجاد و پردازش میشدند سادهتر بوده و عمده آنها ساختاریافته بودند. اما امروزه با ظهور کانالها و فناوریهای جدید مانند شبکههای اجتماعی، اینترنت اشیا، رایانش موبایل و تبلیغات آنلاین، دادههای نیمه ساختاریافته یا ساختار نیافته بیشتر، با فرمتهای جدیدی مانند ایکسامال، ایمیل، بلاگ و پیامهای کوتاه ایجادشدهاند. بنابراین سازمانها نیاز دارند تا دادههای بهدستآمده از منابع اطلاعاتی سنتی و غیر سنتی، مانند دادههای درون و بیرون از سازمان را یکپارچه و تحلیل کنند. به سبب رشد فزاینده سنسورها، دستگاههای هوشمند و فناوریهای تعامل اجتماعی، نوع دادههای تولیدشده غیرقابلشمارش میشود؛ مانند متن، میکروبلاگ، دادههای سنسورها، صدا، ویدئو، جریان کلیکها، لاگ فایلها و…
سرعت: سرعت تولید، پردازش و تحلیلگری دادهها بهطور مستمر در حال افزایش است. سه دلیل اصلی برای این موضوع عبارتاند از ماهیت در لحظه بودن ایجاد دادهها، وجود تقاضا برای ترکیب جریان دادهها با فرایندهای کسبوکار و فرایندهای تصمیمگیری. سرعت پردازش دادهها باید بالا بوده و ظرفیت پردازش باید از پردازش دستهای به سمت پردازش جریان پیش رود.
ارزش: به سبب مقیاس رو به رشد دادهها، ارزش کلانداده به ازای هر واحد داده دائماً در حال کاهش است. بااینحال، ارزش کلی دادهها رو به افزایش است. کلانداده حتی با طلا و نفت نیز مقایسه میشوند که این نشاندهنده ارزش اقتصادی نامحدود آنهاست. درواقع با پردازش کلانداده و شناسایی ارزش اقتصادی بالقوه آنها، میتوان منافع اقتصادی جالبتوجهی را به دست آورد. درواقع تحلیلگری، پردازش و استفاده از دادهها برای سازمانها منجر به استخراج دانش و اطلاعات مهم شده که تبدیل آن به مدلهای مهم و اعمالشان بر فرایندهای تحقیقی تولید، فرایندهای عملیاتی و فروش میتواند سودآوری به همراه داشته باشد.