#مدیر محصول #علاقهمند به هوش مصنوعی #هوادار نرمافزار آزاد #همبنیانگذار جامعه آزاد رایانش ابری اصفهان
مِهداده (کلان داده) چیست؟ (۱)
در یک مجموعه مطلب با عنوان «مِهداده (کلان داده) چیست؟»، قصد دارم به بررسی اکوسیستم مِهداده بپردازم. مِهداده، واژه برگزیده فرهنگستان زبان و ادب فارسی برای واژه Big Data است که پیشتر با عنوان کلانداده مرسوم بود. در اولین قسمت سعی دارم یک مقدمه بر کل موضوع ارائه بدم و در قسمتهای بعد به جزئیات بیشتر بپردازم. اما بپردازیم به اصل مطلب:
پیشرفت فناوری، گسترش اینترنت و استفاده از خدمات الکترونیکی و فناوری اطلاعات منجر به تولید حجم انبوهی از دادهها و اطلاعات در دامنهها و زمینههای گوناگون مانند پزشکی، علمی، تجارت، نجوم و غیره شده است. این دادهها را میتوان به دو گروه دستهبندی کرد. دادههایی که توسط افراد یا شرکتها (تجاری، علمی، فناوری) تولید میشوند و دادههایی که توسط ماشینهای مختلف مانند حسگرها، مسیریابها، دوربینهای مداربسته و غیره تولید میشوند.
مِهداده در مقایسه با مجموعه دادههای معمول، علاوه بر حجم زیاد ویژگیهای دیگری دارد. به عنوان مثال مِهدادهها اغلب به صورت ساختنیافته هستند و نیاز به تحلیل و پردازش بلادرنگ دارند. از این رو نمیتوان آنها را به وسیله پایگاه دادهها و ابزارهای سنتی پردازش و تحلیل کرد و نیازمند معماری جدید برای گردآوری، انتقال، ذخیرهسازی و پردازش دادهها در مقیاس بزرگ هستند.
حجم بسیار زیاد و عظیم اطلاعات تنها یک جنبه مِهداده است. گوناگونی اطلاعات تولید و ذخیره شده، سرعت تولید، مقادیر و پیچیدگی اطلاعات همگی از ویژگیهای مِهدادهها هستند. چالشهای این حوزه صرفا مربوط به ذخیرهسازی و مدیریت دادهها نیست، بلکه پردازش و تحلیل این دادهها و به دست آوردن اطلاعات ارزشمند از مهمترین مسائل این حوزه است.
پارادایم در حال ظهور مِهداده با توجه به تاثیر گسترده آن بر جوامع، توجه کارشناسان فناوری اطلاعات و افراد زیاد دیگری را به خود جلب کرده است. واضح است که بشر در عصر انفجار اطلاعات زندگی میکند و حجم اطلاعاتی که از منابع مختلف تولید میشوند همچنان در حال افزایش است. سازمان بینالمللی داده در گزارشی پیشبینی کرده است که از سال ۲۰۰۵ تا ۲۰۲۰ حجم جهانی دادهها با ضریب ۳۰۰ در حال افزایش است و حجم دادهها از ۱۳۰ اگزابایت در سال ۲۰۰۵ به ۱۴۰۰۰۰ اگزابایت تا سال ۲۰۲۰ افزایش خواهد یافت. این یعنی دادهها هر سال رشد دو برابری خواهند داشت[۱]. IBM در گزارشی اعلام کرده است که هر روز ۵/۱۲ اگزابایت اطلاعات به دادههای جهان افزوده میشود و به عبارتی ۹۰ درصد مقدار اطلاعاتی که در حال حاضر وجود دارد تنها در دو سال گذشته تولید شده است [۲] . اصطلاح «مِهداده» برای نشان دادن معنای این روند انفجاری تولید داده مناسب است و در حقیقت داده را به عنوان یک نفت جدید برای حرکت و تغییر جامعه معرفی میکند. پتانسیل عظیم در ارتباط با مِهداده منجر به ایجاد زمینههای تحقیقاتی جدیدی شده است که بسیار مورد علاقه و توجه دانشگاهیان، صنایع و سازمانها قرار گرفته است.
در نتیجه این رشد و توجه و علاقه به مبحث مِهداده توسط پژوهشگران و سازمانهای مختلف، نیاز به یک فهم صریح و دقیق از تعریف، تاریخچه پیدایش، فناوریهای گسترش داده شده و چالشهای مهم موجود در این حوزه وجود دارد که در این مجموعه مطلب سعی دارم به آن بپردازم. امروزه مِهداده و کاربردهای آن در صنایع گوناگون و فناوریهای مختلف، مانند تجارت، امنیت و دیگر زمینهها به اثبات رسیده است و بشر به کمک تحلیل این حجم عظیم داده میتواند به دانش و اطلاعات ارزشمندی در مدیریت بهتر و موثر کسبوکار دست پیدا کند.
مدیریت و تحلیل اطلاعات همواره برای شرکتها، سازمانها و دولتها در هر محیط کاری از اهمیت بهسزایی برخوردار است. آنها همواره در تلاش هستند که اطلاعات مفید و مهمی از محصولات، مشتریان و یا خدمات خود به دست آورند. هنگامی که یک سازمان تعداد محدودی محصول، خدمات و مشتری دارد تحلیل اطلاعات مربوط به آنها کار دشواری نیست اما در طول زمان حجم اطلاعات مربوط به این شاخهها مانند اطلاعات مربوط به فروش، بازار، انتخاب مشتریان و غیره بیشتر شده و در نهایت سازمان با حجم انبوهی از دادهها مواجه است که نیاز به پردازش و تحلیل دارند.
در تجارت، مدیران همواره نیاز دارند که با علایق و خواستههای مشتریان و کاربرانشان آشنا شده و سیاستهای جدید خود را بر اساس آنها طراحی کنند. کاربرد مِهداده به مسائل حوزه کسبوکار محدود نمیشود، بلکه به عنوان مثال امروزه با استفاده از تحلیل دادههای شبکههای اجتماعی میتوان نتایج انتخابات یک کشور را با درصد خطای پایینی پیشبینی کرد یا تبلیغات یک کالا یا خدمت را در جهت تغییر افکار مردم و با هدف بالا رفتن محبوبیت آن انجام داد.
پ.ن.۱. باگینامه (وبلاگ شخصیم) با مطالبی در رابطه با دادهکاوی و دیگر مسائل مورد علاقهام به روز میشه: https://www.elibugy.ir
مراجع
[۱] J. Gantz and D. Reinsel, ‘‘The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the far east,’’ in Proc. IDC iView, IDC Anal. Future, 2012.
[۲] What is Big Data, IBM, New York, NY, USA [Online]
مطلبی دیگر از این انتشارات
هوش مصنوعی و انتخابات: نمونهای از استفاده از کلان داده ها در سیاست
مطلبی دیگر از این انتشارات
۳منبع عالی برای به دست آوردن دادههای رایگان، جهت دادهکاوی و مهداده
مطلبی دیگر از این انتشارات
مبانی یادگیری ماشین با الگوریتم K-نزدیکترین همسایگان