امروزه دیتا نقش مهمی را در شرکت ها و کشورها دارد و شرکت ها و کشورهایی که دیتای بیشتری داشته باشند مزیت بیشتری را دارند . شرکت گوگل و فیسبوک بیشترین دیتا از کاربران را دارند تا حتی چند وقت پیش فیسبوک پول پرداخت می کرد و از کاربران می خواست تا اپلیکشنی را نصب کنند تا بتونه از طریق اون اپلیکشن رفتار کاربران را رصد کند.
در این ویدیو به معرفی بیگ دیتا پرداختم اگر حوصله خوندن این مقاله را ندارین می تونید این فیلم را مشاهده کنید
دیتا امروزه حکم نفت را داره دیتا یعنی اقتصاد. بیگ دیتا با سه تا v متولد شد اما امروزه تعداد این v ها بسیار بیشتر شده.
حجم داده (Volume) : حجم دادهها بهصورت نمایی در حال رشد است. منابع مختلفی نظیر شبکههای اجتماعی، لاگ سرورهای وب، جریانهای ترافیک، تصاویر ماهوارهای، جریانهای صوتی، تراکنشهای بانکی، محتوای صفحات وب، اسناد دولتی و … وجود دارد که حجم داده بسیار زیادی تولید میکنند.
سرعت تولید (Velocity) : دادهها از طریق برنامههای کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و بهصورت بلادرنگ تولید میشوند. بسیاری از کاربردها نیاز دارند بهمحض ورود داده به درخواست کاربر پاسخ دهند. ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلاً یک گزارش در سیستم برای مدت طولانی پردازش شود.
تنوع (Variety) : انواع منابع داده و تنوع در نوع داده بسیار زیاد است که در نتیجه ساختارهای دادهای بسیار زیادی وجود دارد. مثلاً در وب، افراد از نرمافزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده میکنند. بسیاری از اطلاعات مستقیماً از انسان دریافت میشود و بنابراین وجود خطا اجتنابناپذیر است. این تنوع سبب میشود جامعیت داده تحت تأثیر قرار بگیرد؛ زیرا هرچه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود خواهد داشت.
توی بیگ دیتا سه مرحله وجود دارد:
1- جمع آوری دیتا:
2- پردازش دیتا
3- تحلیل دیتا
شرکتها می توانند هر مرحله را خودشون انجام بدن یا برون سپاری کنند . نمونه بارز اون شرکت فیسبوک هست که از یه شرکت دیگر واسه تحلیل دیتا استفاده می کرد و اون رسوایی نقض حریم خصوصی در اون شرکت حتی باعث ورشکستگی اون شد.
دولت ها هم در این مقوله وارد شدند و مبحثی به نام حکمرانی دیتا شکل گرفته و حتی قوانین GDPR در اتحادیه اروپا شکل گرفت برای حمایت از حریم خصوصی کاربران
شرکتهایی مثل گوگل و آمازون از قبل ابزارهایی واسه این کار داشتند که بعد از رواج بیگ دیتا این پلتفرم هاو ابزارها را در اختیار کاربران قرار دادند مثل هدوپ ، اسپارک ، زیان برنامه نویسی پایتون و R
شرکت ها برای استفاده از بیگ دیتا باید به اون بلوغ سازمانی رسیده باشند و مسائلشون هم بیگ دیتایی باشه تا از بیگ دیتا بتونند استفاده کنند مثلا داده های اونا به سرعت تولید می شه و تنوع بسیار زیادی داره مثل پیام رسانها ، نرم افزارهای بیمه و بانکی ، نرم افزارهای مخابراتی
آزاد سازی دیتا که امروزه واسه اون قانون داریم اما به کندی سازمانها و نهادها دیتاشون را آزاد می کند میتونه به افرادی که در این زمینه کار می کند کمک زیادی کند. مثلا وزارت بهداشت دیتای مربوط به بیماریها را آزاد کند از طریق این دیتا و داده کاوی روی آن می توان به پیش بینی های خوبی رسید.