ویرگول
ورودثبت نام
ای ترجمه
ای ترجمه
خواندن ۷ دقیقه·۲ سال پیش

کلان داده و چالش های پیش روی آن (مقاله ترجمه شده)

چکیده

کلان داده  به داده‌هایی با حجم زیاد، از اگزابایت  (1018) و بیشتر از آن، گویند. این حجم از داده، از ظرفیت سیستم‌های پردازشی و سیستم‌های ذخیره آنلاین فعلی بیشتر است. داده ، اطلاعات  و دانش  در نرخی تولید و جمع آوری می‌شوند که خیلی سریع به حجم اگزابایت /سال می‌رسند. ایجاد و جمع آوری روز به روز سریعتر می‌شود و در طی چند سال به دامنه زتابایت /سال می‌رسند. حجم ، تنها یک جنبه کلان داده است، صفات دیگر، تنوع ، سرعت ، ارزش  و پیچیدگی  هستند. ذخیره و انتقال داده مسائل مربوط به تکنولوژی هستند، که به نظر می‌رسد که در آینده نزدیک به مشکلات آن‌ها رسیدگی می‌شود، اما چالش‌های بلند مدتی را نشان می‌دهند که نیازمند پارادایم‌های جدید و پژوهش است. ما مسائل و چالش‌ها را با شروع یک برنامه پژوهشی همکارانه بر متدلوژی‌هایی برای طراحی و تحلیل کلان داده آغاز کردیم.

مقدمه

مفهوم کلان داده در علوم کامپیوتر از روزهای اولیه کامپیوتر شایع بوده است. "کلان داده" در اصل به معنی حجمی از داده است که نمی‌تواند (به صورت کارامدی) توسط ابزارها و متدهای پایگاه داده سنتی پردازش شود. هر بار که یک رسانه ذخیره سازی جدید اختراع می‌شود، مقدار داده قابل دسترسی بیش از حد می‌شود، چرا که این رسانه‌ها به سادگی قابل دسترسی هستند. تعریف اصلی بر داده ساختار یافته  متمرکز است، اما بیشتر پژوهشگران و متخصصان متوجه شده اند که بیشتر اطلاعات جهان به صورت اطلاعات ساختارنیافته و حجیم، و تا حدی در فرم متن و تصویر در دسترس هستند. انفجار داده ربطی به رسانه‌ها ذخیره سازی جدید ندارد.

ما "کلان داده" را به عنوان مقداری داده تعریف می‌کنیم که از نظر ذخیره، مدیریت و پردازش کارآمد فراتر از قابلیت تکنولوژی است. موارد گفته شده تنها توسط یک تحلیل قوی بر خود داده، بیان نیازهای پردازشی، و قابلیت‌های ابزارهای (سخت افزار، نرم افزار و متدهای) استفاده شده برای تحلیل آن، کشف شده است. با بوجود آمدن هر مشکل جدید، نتیجه چگونگی ادامه دادن ممکن است به این توصیه منجر شود که برای اجرای وظایف جدید باید ابزارهای جدیدی داشته باشیم.

اهمیت کلان داده

در آگوست سال 2010، کاخ سفید، OMB، و OSTP اعلام کردند که در زمینه مراقبت‌های بهداشتی و امنیت ملی؛ کلان داده یک چالش ملی و اولویت دار است [1]. بنیاد ملی علوم، موسسات ملی بهداشت، سازمان زمین شناسی ایالت متحده، وزارت دفاع و انرژی، و آژانس پروژه‌های تحقیقات پیشرفته دفاعی یک طرح R&D مشترک را در مارس 2012 اعلام کردند که بیش از 200 میلیون دلار را بر توسعه تکنیک‌ها و ابزارهای جدید کلان داده سرمایه گذاری کردند. هدف این طرح پیشرفت "... درک ما از تکنولوژی‌های مورد نیاز برای دستکاری و کاووش گسترده مقادیر اطلاعات؛ استفاده از دانش برای دیگر زمینه‌های علمی" و همچنین بررسی اهداف ملی در عرصه‌های حفاظت از سلامت انرژی، آموزش و پرورش است" [14].

چالش‌ های طراحی پویا

چالش‌های بسیاری وجود دارد که نیازمند پژوهش بلند مدت بر کار با کلان داده هستند. Stonebreakerو Hong [18] استدلال کردند که طراحی برای سیستم‌ها و مولفه‌هایی که با کلان داده کار می‌کنند هنوز هم نیازمند درک نیازهای کاربران و تکنولوژی‌هایی هستند که می‌توانند برای حل مسئله بررسی شده استفاده شوند- برای مثال، همه داده‌های کلان و پیش نیازهای آن‌ها یکی نیست. در این نمونه، از آنجایی که این نوع داده به تازگی ایجاد شده است (پیش بینی و جمع اوری شده)، و نه به درستی شناخته شده و نه درک شده است، طراحان نیاز دارند که واسط ها، گرافیک‌ها و آیکون ها، سازمان کاربردی و مدل‌های مفهومی، استعاره‌ها و قابلیت‌ها را در نظر بگیرند. چرا که کاربران نهایی اغلب طراحان سیستم هستند، این یک چالش طراحی اضافی را ارائه می‌دهد.

فرآیندهای ورودی و خروجی داده

یک مسئله اصلی که در طراحی کلان داده باید در نظر گرفته شود فرآیند خروجی است. Jacobs [9] این مسئله را بسیار مختصر توضیح داده است – ".... دریافت اطلاعات خیلی ساده تر از خروج اطلاعات است". کار او نشان می‌دهد که ورود و ذخیره داده می‌تواند با فرآیندهایی که در حال حاضر برای پایگاه داده‌های رابطه ای[1]استفاده می‌شوند مدیریت شود. اما، ابزارهای طراحی شده برای پردازش تراکنش، می‌توانند مقدار کم تا زیاد داده را اضافه کنند، به روزرسانی کنند، جستجو و بازیابی کنند، که برای حجم زیاد داده قابل انجام نیست و نمی‌تواند در عرض چند ثانیه تا چند دقیقه انجام شود.

پردازش کلان داده: چالش‌ های تحلیلی

پردازش کلان داده یک چالش اصلی است، شاید چیزی بیشتر از مسائل مربوط به مدیریت و ذخیره سازی. انواع بسیاری از تحلیل‌ها وجود دارد: توصیفی، تخمینی، پیش بینانه، و تجویزی، که به انواع گوناگون مدل‌های تصمیم و بهینه سازی منجر می‌شود. برخی از تحلیل‌های کسب و کار مشترک در شکل 1 نشان داده شده اند. Kaisler [11] دیگر تجزیه تحلیل تجزیه شده به 16 گروه بر اساس انواع مسائلی که باید بررسی شود را نشان داد، که شامل مدل‌های اقتصادی، نظریه بازی، نظریه کنترل، محاسبات تکاملی، و مدل‌های شبیه سازی است. مورد نرمال جدید تحلیل چابک، پیشرفته، پیش بینی کننده است که به راحتی با مجموعه داده‌ها و جریان‌های در حال تغییر منطبق می‌شود و اطلاعات و دانشی را برای بهبود خدمات و عملیات در سرار دولت، صنعت و دانشگاه حاصل می‌کند.

مقیاس بندی

یک مسئله مهم ایت است که آیا یک فرآیند تحلیلی با افزایش مجموعه داده با مرتبه بزرگی، بزرگ می‌شود. هر الگوریتم یک "زانو" دارد- نقطه‌ای که در آن عملکرد الگوریتم به صورت خطی با افزایش منابع محاسباتی افزایش می‌یابد و از نقطه اوج، پیک و... شروع به کاهش می‌کند. حل این مسئله نیازمند یک الگوریتم جدید برای مسئله، یا بازنویسی الگوریتم فعلی برای "تفسیر" زانو بیشتر از مقیاس است. یک سوال پژوهشی باز این است که آیا برای هر الگوریتم مشخص، محدودیتی در قابلیت مقیاس پذیری آن وجود دارد. این محدودیت‌ها برای الگوریتم‌های خاص با اجرای خاص بر ماشین‌های خاص در مقیاس‌های خاص شناخته شده هستند. راه حل‌های محاسباتی عمومی، به خصوص موارد استفاده کننده از داده‌های ساختارنیافته، هنوز شناخته شده نیستند. جدول 8 مثال‌هایی از رویکردهای تحلیلی ارائه می‌دهد که ممکن است در مقیاس خطی نباشند. به راحتی، پردازش کلان داده می‌تواند به یکی از سه روش نشان داده شده در جدول 9 مشخص شود.

نتیجه گیری و کار آینده

کلان داده مرز علوم اجتماعی و کسب و کار "جدید" است. مقدار اطلاعات و دانشی که می‌تواند از جهان دیجیتال استخراج شود همچنان با آشنا شدن کاربران با روش‌های جدید ارسال پیام و پردازش داده، رو به گسترش است. علاوه بر این، واضح است که " داده بیشتر تنها به معنی داده بیشتر نیست"، بلکه "داده بیشتر به معنی چیزهای متفاوت تری است".

"کلان داده" تنها آغاز مسئله است. تکامل و جایگزینی تکنولوژی تضمین می‌کند که در عرض چند سال داده بیشتری در یک سال در دسترس خواهد بود، داده‌ای بیشتر از آن چه از آغاز بشریت جمع اوری شده است. اگر فیس بوک و توییتر حدود 50 گیگابایت داده را در هر روز تولید کنند، جمع آوری کنند، و این حجم هر سال سه برابر شود، در طی چند سال (شاید 3-5) براستی با چالش " کلان داده واقعا کلان داده می‌شود" مواجه می‌شویم.

ما- به عنوان یک جامعه جهانی- از جوامع داده محور به سمت جوامع دانش محور تکامل می‌یابیم. دانش ما به صورت گسترده توزیع شده است و به همان اندازه قابل دسترسی است. یک برنامه بررسی این مسئله تعامل معنایی جامعه فمنیسم (SICoP) است که از مدل در حال تکامل پشتیبانی می‌کند: دولت شهروندی- سیستم‌هایی که می‌دانند، تحلیل پیشرفته- سیستم‌هایی که یاد می‌گیرند؛ و عملیات هوشمند –سیستم‌هایی که استدلال می‌کنند. این سیستم‌ها نیازمند کلان داده هستند. داده در یک یا چند محل ذخیره نمی‌شود؛ تنها در یک یا چند فرمت نیستند؛ تنها یک یا چند تحلیل بر آن‌ها اعمال نمی‌شود؛ و در میان عناصر داده متفاوت تنها یک یا چند پیوند برقرار نیست. بنابراین، این یک مثال از برخی از مسائلی است که در این مقاله بررسی می‌کنیم. حل این مسائل و چالش‌های بررسی شده در این مقاله نیازمند تلاش‌های پژوهشی متمرکز است- بر چیزی که انتظار داریم که در چند سال آینده تکامل یابد.

این مقاله یک تلاش پژوهشی همکارانه را برای آغاز بررسی مسائل و چالش‌های کلان داده آغاز می‌کند. برخی از مسائل اصلی را در فضای ذخیره، مدیریت و پردازش کلان داده شناسایی کردیم. برخی از چالش‌های اصلی- آینده – را شناسایی کردیم که باور داریم که باید در دهه بعد بررسی شوند و چارچوبی را برای minitrack کلان داده ما در جلسات HICSSآینده ایجاد می‌کند. پژوهش آینده ما بر توسعه یک درک کامل از مسائل مرتبط با کلان داده متمرکز است، و این فاکتورها ممکن است در نیاز به تحلیل کلان داده و طراحی متدلوژی سهم داشته باشند. ما بررسی راه حل‌های برخی از مسائلی که در این مقاله با تلاش‌های پژوهشی همکارانه بروز کرده است را آغاز می‌کنیم.

این مقاله در سال 2013 در نشریه آی تریپل ای و در کنفرانس بین المللی سالانه هاوایی در علوم سیستم، توسط دانشگاه جورج واشنگتن منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله کلان داده و چالش های پیش روی آن در سایت ای ترجمه مراجعه نمایید.

مقاله مدیریت اطلاعاتمقاله کلان دادهمقاله مدیریت داده هامقاله سیستم های ذخیره سازی داده هامقاله پایگاه های داده توزیع شده
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید