ای ترجمه
ای ترجمه
خواندن ۷ دقیقه·۲ سال پیش

مدل‌ سازی مفهومی و فناوری های کلان داده (مقاله ترجمه شده)

چکیده

دوران داده‌های بزرگ منجر به توسعه و کاربرد فناوری‌ها و روش‌هایی شد که به طور مؤثر با استفاده از حجم وسیع داده‌ها به پشتیبانی تصمیم‌گیری و فعالیت‌های کشف دانش کمک می‌کنند. در این مقاله، پنج V داده بزرگ، حجم، سرعت، تنوع، صحت و ارزش، و همچنین فناوری‌های جدید شامل پایگاه داده NoSQL که مطابق با نیازهای ابتکاری داده‌های بزرگ ارائه شده، بررسی می‌شوند. سپس نقش مدل‌سازی مفهومی برای داده‌های بزرگ بررسی شده و پیشنهاداتی درباره تلاش‌های مدل‌سازی مفهومی مؤثر با توجه به داده‌های بزرگ ارائه می‌شود.

مقدمه

داده‌های بزرگ به طور گسترده به عنوان مقادیر بسیار زیاد داده‌ها شناخته می‌شوند، ساختار‌یافته و غیرساختار‌یافته، که در حال حاضر سازمان‌ها قادر به دست‌یابی و تلاش برای تحلیل معنی‌دار بودن آنها هستند به طوری که تحلیل تصمیم‌گیری بر پایه داده ها و بینش عملی بدست می‌آید. انجام این کار مستلزم توسعه تکنیک‌ها و روش‌های تحلیل، ایجاد روش‌های جدید برای ساخت داده‌ها و برنامه های جالب در علم و مدیریت است (به عنوان مثال، [1، 8، 19]). با وجود به چالش کشیدن ارزش داده‌های بزرگ، چشم انداز داده‌ها همچنان رشد می‌کند [28].

هدف این مقاله بررسی پیشرفت داده‌های بزرگ در تلاش برای شناسایی چالش‌های موجود است؛ و نقشی که مدل‌سازی مفهومی می تواند در پیشبرد کار در این حوزه مهم بازی کند را تعیین می کند. بخش بعدی، توصیف داده‌های بزرگ و ویژگی های ذاتی شناخته شده است. سپس، پیش از تحلیل نقش به خصوصی که مدل‌سازی مفهومی در درک و پیشرفت تحقیق و کاربرد داده‌های بزرگ بازی می کند، فناوری داده‌های جدید و در حال ظهور ارائه می‌شوند.

داده‌ های بزرگ

حجم داده‌ها در دهه گذشته به طور نمایی افزایش یافته است، تا جایی که مدیریت دارایی داده‌ها با استفاده از روش‌های سنتی امکان‌پذیر نیست (ریبریو و همکاران، 2015). همان طور که در شکل 1 نشان داده شده است، روند پیشرفت داده‌ها با پیشرفت فناوری‌های محاسباتی امکان‌پذیر شده است که منجر به انفجار ناگهانی داده‌های منابع مختلف مانند وب، رسانه‌های اجتماعی و سنسورها شده است. سیل داده‌ها سبب ظهور الگویی مبتنی بر داده‌ها شد تا از فناوری‌های جدید محاسبات در دسترس استفاده شود. فناوری‌های داده‌های بزرگ، منجر به الگوی مبتنی بر داده‌ها می‌شود و آن را به طور فزاینده‌ای پیچیده‌تر و مفیدتر می‌کند.

V‌های داده های بزرگ

داده‌های بزرگ به طور سنتی با استفاده از سه V حجم، تنوع و سرعت مشخص می‌شود که برگرفته از پیشرفت در سنجش، ارزیابی و فناوری های محاسبات اجتماعی است (Gartner.com). علاوه بر این V‌ها، درستی (دقت) و به ویژه ارزش، مهم هستند. هر یک ار ارزش‌ها دارای چالش های منحصر به فردی هستند. حجم بیش از حد بزرگ به انواع تحلیل ساختاریافته و غیرساختاریافته احتیاج دارد و سرعت بسیار بالا حتی ممکن است منجر به عدم تشخیص سؤالات معقول شود [14]. درستی منجر به عدم اطمینان می شود، و حجم با سرعت رقابت می‌کند [34]. با این وجود، این حجم برای استخراج وقت گیرتر است، و برای اطمینان دشوار است. شکل 2 خلاصه ای از چالش‌های پنج V را در عملکردهای داده‌های بزرگ و تلاش‌های تحقیقاتی نشان می‌دهد.

فناوری پایگاه داده جدید برای داده‌های بزرگ

فناوری‌های پایگاه داده به طور خاص برای داده‌های بزرگ طراحی شده و مورد استفاده قرار می‌گیرند. شکل 3 خط زمانی را نشان می‌دهد که طی آن نقاط عطف مربوط به ارائه تکنیک‌های داده بزرگ رخ داده اند. در دهه 1970، روش مدیریت پایگاه داده ارتباطی (کد[1]، 1979) ارائه شد. در دهه 1980، به روش ساختاری قابل اعتماد و کارا برای مدیریت داده‌ها تبدیل شد. در مدل ارتباطی، داده‌ها به صورت تابعی در جدول، روابط را فراخوانی می‌کنند. تلاش‌هایی برای درک نحوه تفسیر مدل‌های مفهومی برای مدل‌های ارتباطی انجام شد (به عنوان مثال، [43 و 47]). همان طور که حجم داده‌ها در پایگاه داده ذخیره می‌شوند، مفاهیم مرتبط با پایگاه‌های «بسیار بزرگ» ظاهر می‌شوند، همان طور که توسط کنفرانس‌ها و مجلات پایگاه‌های بسیار بزرگ شناخته می‌شوند. این پایگاه‌های بسیار بزرگ (در محدوده ترابایت) به مدل ذخیره‌سازی متفاوت احتیاج دارند، به دلیل: (1) بار زیاد در مدل ارتباطی (اگرچه اکنون تنها در حد نظریه است)؛ و (2) خواسته‌های بازیابی و کاربرد متفاوت. به عنوان مثال، بازیابی ساده رکورد شخصی مشتری، جان دویی[2]، کافی نبود. در مقابل، تنها نتیجه مطلوب برای همه کسانی که فهرست ذخیره را مشاهده می‌کنند، چیزی شبیه به «مسیریاب انسانی» است.

چه چیزی در سیستم‌‌های مدیریت پایگاه داده ارتباطی سنتی اشتباه است؟

سیستم‌‌های مدیریت پایگاه داده ارتباطی (RDMS) سنتی به سادگی نمی‌توانند داده‌های بزرگ را مدیریت کنند. داده‌های بیش از حد بزرگ، برای ذخیره و دستکاری بسیار سریع و متنوع هستند. پایگاه‌های داده ارتباطی پیش از نوشتن برای پایگاه داده به طرحی نیازمندند که برای کنترل حجم داده‌های زمان حقیقی با ساختار متنوع بسیاری قوی باشد. ویژگی‌های ACID (ثبات، انسجام، انزوا و دوام) برای برخی کاربردها بسیار سخت است. خوشه‌های ACID SPOF (تنها نقطه شکست) گران هستند و عدم تقارن و عدم انتطباق (مجموع در مقابل داده‌های با ثبات) دارند. این‌ها به الزامات معماری‌های جدید و مدیریت معاملات جدید مانند BASE (اساساً موجود، قابل انعطاف، ثبات احتمالی) منتهی می‌شوند که ویژگی‌های ACID را در سیستم‌های مدیریت داده توزیع شده آزاد می‌کنند. BASE در دستگاه‌های NoSQL متداول است.

پایگاه داده NoSQL

NoSQL به پایگاه داده‌های منبع باز، توزیع شده و مستقل اشاره دارد. مقیاس افقی مقیاس‌پذیری تحمل خطا را امکان‌پذیر می‌سازد. این پایگاه‌داده کم طرح است، اجازه می‌دهد نوع داده جدید به صورت پویا به پایگاه داده‌ افزوده شود و عملکرد نوشتن افزایش می‌یابد. اکثراً سیستم‌های NoSQL، BASE (اساساً موجود، قابل انعطاف، ثبات احتمالی) را در نظر می‌گیرند که بر خلاف ACID (ثبات، انسجام، انزوا و دوام) برای مدیریت تبدیلات برای افزایش قابلیت دسترسی است و نسبت به انسجام شدید کارا است.

مدل‌سازی پایگاه داده NoSQL

از دیدگاه مدل‌سازی داده‌ها، NoSQL بدون عمل اتصال شبیه‌سازی شده است و افزونگی را با تعبیه و لینک‌گذاری ادغام می‌کند. این ویژگی‌ها توسعه نرم‌افزار را با ساده‌سازی نقشه‌برداری بین ساختاری حافظه و ساختار پایگاه داده تسهیل می‌کنند. پایگاه داده ارتباطی دارای «روش بر نوشتن» است در حالی که NoSQL دارای «روش بر خواندن» است. NoSQL دارای دسته ستون پویا با نام ستون تعریف شده در زمان ورود داده‌ها و طرح ضمنی است که با استفاده از برنامه‌نویسی تعریف شده است. شکل 5 نمونه‌ای از دسته ستون پویا را در Hbase ارائه می‌دهد که در آن «کلید سطری» نشان‌دهنده شناسه داده‌های کارمند است.

مدل‌سازی مفهومی و مدیریت داده‌های بزرگ

مدل‌سازی مفهومی از ابتدا بر سازمان‌دهی داده‌ها متمرکز شده بود [7 و 14]. این مستلزم ایجاد نمای مفهومی دامنه کاربرد سیستم اطلاعات است [51 و 53]. برای داده‌های بزرگ، اهمیت مدل‌سازی مفهومی را می‌توان از نظر فنی و مدیریتی مورد توجه قرار داد.

چالش‌ها

چالش‌ها و مشکلات زیادی در ارتباط با مدیریت داده‌های بزرگ وجود دارد که قابل توجه‌ترین آنها به شرح زیر است.

فرهنگ داده محور: داده‌ها باید به صورت عینی و بدون تکیه بر شهود در نظر گرفته شوند. این از مدیریت موفق زنجیره- تأمین شرکت‌هایی مانند اپل[1]، گوگل[2]و وال- مارت[3] مشهود است.

بررسی

مسائل داده‌های بزرگ نیز از جمله مسائل علوم کامپیوتر هستند. برای حل آنها، ابتدا باید حالت کسب‌وکار را برای تحلیل داده‌های بزرگ ایجاد کرد. داده‌ها باید مورد بررسی قرار گیرند تا شناسایی و ادغام شوند و منابع مختلف چندگانه را ترکیب کنند. داده‌های خروجی مورد نظر باید برای تعیین نحوه محاسبه نتایج مورد نظر ارزیابی شوند.

نتیجه‌ گیری

داده‌های بزرگ می‌توانند تأثیرات بالقوه‌ای بر کسب و کار و جامعه داشته باشند، که برخی از آنها در حال تحقق است. در این مقاله، تحولات اخیر در تکنولوژی داده‌های بزرگ مورد بررسی قرار گرفت و چالش‌های داده‌های بزرگ از نظر پنج «V» همراه با روش‌های بالقوه برای بررسی‌شان مورد بحث قرار گرفت، و نشان داده شد که دستیابی به ارزش داده‌های بزرگ بسیار سخت است. با مرور تکنولوژی‌های داده‌های بزرگ، مشارکت‌های مدل‌سازی به طور بالقوه شناسایی می‌شوند و از فرصت‌های راه‌حل‌های نوآورانه برای مسائل پیچیده پشتیبانی می کنند.

در پایان، آموزش فناوری‌های داده‌های بزرگ به نسل بعدی دانشمندان کامپیوتر، طراحان مفهومی و متخصصان سیستم‌های مدیریت داده‌ها (مدیریت پایگاه داده، تحلیلگران سیستم و غیره) مهم است [41]. فناوری‌های داده‌های بزرگ باید درک شوند، از جمله روش‌های نرم‌افزاری و سخت‌افزاری برای مواجه با داده‌های بزرگ، روش‌های تحلیل داده‌های بزرگ با استفاده از ابزارهای پیشرفته و خودکار است. همکاران محققان در زمینه مدل‌سازی مفهومی و مدیریت و توسعه پایگاه داده برای رفع مسائل مربوط به داده‌های بزرگ، اینترنت اشیا و بسیاری از برنامه های جالب، مورد نیاز است.

این مقاله ISI در سال 2017 در نشریه الزویر و در مجله مهندسی داده و دانش، توسط کالج بازرگانی منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله مدل‌ سازی مفهومی و فناوری های کلان داده در سایت ای ترجمه مراجعه نمایید.

مقاله کلان دادهمقاله مدل سازی مفهومیمقاله اینترنت اشیامقاله توسعه نرم افزارمقاله رسانه های اجتماعی
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید