چکیده
دوران دادههای بزرگ منجر به توسعه و کاربرد فناوریها و روشهایی شد که به طور مؤثر با استفاده از حجم وسیع دادهها به پشتیبانی تصمیمگیری و فعالیتهای کشف دانش کمک میکنند. در این مقاله، پنج V داده بزرگ، حجم، سرعت، تنوع، صحت و ارزش، و همچنین فناوریهای جدید شامل پایگاه داده NoSQL که مطابق با نیازهای ابتکاری دادههای بزرگ ارائه شده، بررسی میشوند. سپس نقش مدلسازی مفهومی برای دادههای بزرگ بررسی شده و پیشنهاداتی درباره تلاشهای مدلسازی مفهومی مؤثر با توجه به دادههای بزرگ ارائه میشود.
مقدمه
دادههای بزرگ به طور گسترده به عنوان مقادیر بسیار زیاد دادهها شناخته میشوند، ساختاریافته و غیرساختاریافته، که در حال حاضر سازمانها قادر به دستیابی و تلاش برای تحلیل معنیدار بودن آنها هستند به طوری که تحلیل تصمیمگیری بر پایه داده ها و بینش عملی بدست میآید. انجام این کار مستلزم توسعه تکنیکها و روشهای تحلیل، ایجاد روشهای جدید برای ساخت دادهها و برنامه های جالب در علم و مدیریت است (به عنوان مثال، [1، 8، 19]). با وجود به چالش کشیدن ارزش دادههای بزرگ، چشم انداز دادهها همچنان رشد میکند [28].
هدف این مقاله بررسی پیشرفت دادههای بزرگ در تلاش برای شناسایی چالشهای موجود است؛ و نقشی که مدلسازی مفهومی می تواند در پیشبرد کار در این حوزه مهم بازی کند را تعیین می کند. بخش بعدی، توصیف دادههای بزرگ و ویژگی های ذاتی شناخته شده است. سپس، پیش از تحلیل نقش به خصوصی که مدلسازی مفهومی در درک و پیشرفت تحقیق و کاربرد دادههای بزرگ بازی می کند، فناوری دادههای جدید و در حال ظهور ارائه میشوند.
داده های بزرگ
حجم دادهها در دهه گذشته به طور نمایی افزایش یافته است، تا جایی که مدیریت دارایی دادهها با استفاده از روشهای سنتی امکانپذیر نیست (ریبریو و همکاران، 2015). همان طور که در شکل 1 نشان داده شده است، روند پیشرفت دادهها با پیشرفت فناوریهای محاسباتی امکانپذیر شده است که منجر به انفجار ناگهانی دادههای منابع مختلف مانند وب، رسانههای اجتماعی و سنسورها شده است. سیل دادهها سبب ظهور الگویی مبتنی بر دادهها شد تا از فناوریهای جدید محاسبات در دسترس استفاده شود. فناوریهای دادههای بزرگ، منجر به الگوی مبتنی بر دادهها میشود و آن را به طور فزایندهای پیچیدهتر و مفیدتر میکند.
Vهای داده های بزرگ
دادههای بزرگ به طور سنتی با استفاده از سه V حجم، تنوع و سرعت مشخص میشود که برگرفته از پیشرفت در سنجش، ارزیابی و فناوری های محاسبات اجتماعی است (Gartner.com). علاوه بر این Vها، درستی (دقت) و به ویژه ارزش، مهم هستند. هر یک ار ارزشها دارای چالش های منحصر به فردی هستند. حجم بیش از حد بزرگ به انواع تحلیل ساختاریافته و غیرساختاریافته احتیاج دارد و سرعت بسیار بالا حتی ممکن است منجر به عدم تشخیص سؤالات معقول شود [14]. درستی منجر به عدم اطمینان می شود، و حجم با سرعت رقابت میکند [34]. با این وجود، این حجم برای استخراج وقت گیرتر است، و برای اطمینان دشوار است. شکل 2 خلاصه ای از چالشهای پنج V را در عملکردهای دادههای بزرگ و تلاشهای تحقیقاتی نشان میدهد.
فناوری پایگاه داده جدید برای دادههای بزرگ
فناوریهای پایگاه داده به طور خاص برای دادههای بزرگ طراحی شده و مورد استفاده قرار میگیرند. شکل 3 خط زمانی را نشان میدهد که طی آن نقاط عطف مربوط به ارائه تکنیکهای داده بزرگ رخ داده اند. در دهه 1970، روش مدیریت پایگاه داده ارتباطی (کد[1]، 1979) ارائه شد. در دهه 1980، به روش ساختاری قابل اعتماد و کارا برای مدیریت دادهها تبدیل شد. در مدل ارتباطی، دادهها به صورت تابعی در جدول، روابط را فراخوانی میکنند. تلاشهایی برای درک نحوه تفسیر مدلهای مفهومی برای مدلهای ارتباطی انجام شد (به عنوان مثال، [43 و 47]). همان طور که حجم دادهها در پایگاه داده ذخیره میشوند، مفاهیم مرتبط با پایگاههای «بسیار بزرگ» ظاهر میشوند، همان طور که توسط کنفرانسها و مجلات پایگاههای بسیار بزرگ شناخته میشوند. این پایگاههای بسیار بزرگ (در محدوده ترابایت) به مدل ذخیرهسازی متفاوت احتیاج دارند، به دلیل: (1) بار زیاد در مدل ارتباطی (اگرچه اکنون تنها در حد نظریه است)؛ و (2) خواستههای بازیابی و کاربرد متفاوت. به عنوان مثال، بازیابی ساده رکورد شخصی مشتری، جان دویی[2]، کافی نبود. در مقابل، تنها نتیجه مطلوب برای همه کسانی که فهرست ذخیره را مشاهده میکنند، چیزی شبیه به «مسیریاب انسانی» است.
چه چیزی در سیستمهای مدیریت پایگاه داده ارتباطی سنتی اشتباه است؟
سیستمهای مدیریت پایگاه داده ارتباطی (RDMS) سنتی به سادگی نمیتوانند دادههای بزرگ را مدیریت کنند. دادههای بیش از حد بزرگ، برای ذخیره و دستکاری بسیار سریع و متنوع هستند. پایگاههای داده ارتباطی پیش از نوشتن برای پایگاه داده به طرحی نیازمندند که برای کنترل حجم دادههای زمان حقیقی با ساختار متنوع بسیاری قوی باشد. ویژگیهای ACID (ثبات، انسجام، انزوا و دوام) برای برخی کاربردها بسیار سخت است. خوشههای ACID SPOF (تنها نقطه شکست) گران هستند و عدم تقارن و عدم انتطباق (مجموع در مقابل دادههای با ثبات) دارند. اینها به الزامات معماریهای جدید و مدیریت معاملات جدید مانند BASE (اساساً موجود، قابل انعطاف، ثبات احتمالی) منتهی میشوند که ویژگیهای ACID را در سیستمهای مدیریت داده توزیع شده آزاد میکنند. BASE در دستگاههای NoSQL متداول است.
پایگاه داده NoSQL
NoSQL به پایگاه دادههای منبع باز، توزیع شده و مستقل اشاره دارد. مقیاس افقی مقیاسپذیری تحمل خطا را امکانپذیر میسازد. این پایگاهداده کم طرح است، اجازه میدهد نوع داده جدید به صورت پویا به پایگاه داده افزوده شود و عملکرد نوشتن افزایش مییابد. اکثراً سیستمهای NoSQL، BASE (اساساً موجود، قابل انعطاف، ثبات احتمالی) را در نظر میگیرند که بر خلاف ACID (ثبات، انسجام، انزوا و دوام) برای مدیریت تبدیلات برای افزایش قابلیت دسترسی است و نسبت به انسجام شدید کارا است.
مدلسازی پایگاه داده NoSQL
از دیدگاه مدلسازی دادهها، NoSQL بدون عمل اتصال شبیهسازی شده است و افزونگی را با تعبیه و لینکگذاری ادغام میکند. این ویژگیها توسعه نرمافزار را با سادهسازی نقشهبرداری بین ساختاری حافظه و ساختار پایگاه داده تسهیل میکنند. پایگاه داده ارتباطی دارای «روش بر نوشتن» است در حالی که NoSQL دارای «روش بر خواندن» است. NoSQL دارای دسته ستون پویا با نام ستون تعریف شده در زمان ورود دادهها و طرح ضمنی است که با استفاده از برنامهنویسی تعریف شده است. شکل 5 نمونهای از دسته ستون پویا را در Hbase ارائه میدهد که در آن «کلید سطری» نشاندهنده شناسه دادههای کارمند است.
مدلسازی مفهومی و مدیریت دادههای بزرگ
مدلسازی مفهومی از ابتدا بر سازماندهی دادهها متمرکز شده بود [7 و 14]. این مستلزم ایجاد نمای مفهومی دامنه کاربرد سیستم اطلاعات است [51 و 53]. برای دادههای بزرگ، اهمیت مدلسازی مفهومی را میتوان از نظر فنی و مدیریتی مورد توجه قرار داد.
چالشها
چالشها و مشکلات زیادی در ارتباط با مدیریت دادههای بزرگ وجود دارد که قابل توجهترین آنها به شرح زیر است.
فرهنگ داده محور: دادهها باید به صورت عینی و بدون تکیه بر شهود در نظر گرفته شوند. این از مدیریت موفق زنجیره- تأمین شرکتهایی مانند اپل[1]، گوگل[2]و وال- مارت[3] مشهود است.
بررسی
مسائل دادههای بزرگ نیز از جمله مسائل علوم کامپیوتر هستند. برای حل آنها، ابتدا باید حالت کسبوکار را برای تحلیل دادههای بزرگ ایجاد کرد. دادهها باید مورد بررسی قرار گیرند تا شناسایی و ادغام شوند و منابع مختلف چندگانه را ترکیب کنند. دادههای خروجی مورد نظر باید برای تعیین نحوه محاسبه نتایج مورد نظر ارزیابی شوند.
نتیجه گیری
دادههای بزرگ میتوانند تأثیرات بالقوهای بر کسب و کار و جامعه داشته باشند، که برخی از آنها در حال تحقق است. در این مقاله، تحولات اخیر در تکنولوژی دادههای بزرگ مورد بررسی قرار گرفت و چالشهای دادههای بزرگ از نظر پنج «V» همراه با روشهای بالقوه برای بررسیشان مورد بحث قرار گرفت، و نشان داده شد که دستیابی به ارزش دادههای بزرگ بسیار سخت است. با مرور تکنولوژیهای دادههای بزرگ، مشارکتهای مدلسازی به طور بالقوه شناسایی میشوند و از فرصتهای راهحلهای نوآورانه برای مسائل پیچیده پشتیبانی می کنند.
در پایان، آموزش فناوریهای دادههای بزرگ به نسل بعدی دانشمندان کامپیوتر، طراحان مفهومی و متخصصان سیستمهای مدیریت دادهها (مدیریت پایگاه داده، تحلیلگران سیستم و غیره) مهم است [41]. فناوریهای دادههای بزرگ باید درک شوند، از جمله روشهای نرمافزاری و سختافزاری برای مواجه با دادههای بزرگ، روشهای تحلیل دادههای بزرگ با استفاده از ابزارهای پیشرفته و خودکار است. همکاران محققان در زمینه مدلسازی مفهومی و مدیریت و توسعه پایگاه داده برای رفع مسائل مربوط به دادههای بزرگ، اینترنت اشیا و بسیاری از برنامه های جالب، مورد نیاز است.
این مقاله ISI در سال 2017 در نشریه الزویر و در مجله مهندسی داده و دانش، توسط کالج بازرگانی منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله مدل سازی مفهومی و فناوری های کلان داده در سایت ای ترجمه مراجعه نمایید.