چکیده
کلان داده به دادههایی با حجم زیاد، از اگزابایت (1018) و بیشتر از آن، گویند. این حجم از داده، از ظرفیت سیستمهای پردازشی و سیستمهای ذخیره آنلاین فعلی بیشتر است. داده ، اطلاعات و دانش در نرخی تولید و جمع آوری میشوند که خیلی سریع به حجم اگزابایت /سال میرسند. ایجاد و جمع آوری روز به روز سریعتر میشود و در طی چند سال به دامنه زتابایت /سال میرسند. حجم ، تنها یک جنبه کلان داده است، صفات دیگر، تنوع ، سرعت ، ارزش و پیچیدگی هستند. ذخیره و انتقال داده مسائل مربوط به تکنولوژی هستند، که به نظر میرسد که در آینده نزدیک به مشکلات آنها رسیدگی میشود، اما چالشهای بلند مدتی را نشان میدهند که نیازمند پارادایمهای جدید و پژوهش است. ما مسائل و چالشها را با شروع یک برنامه پژوهشی همکارانه بر متدلوژیهایی برای طراحی و تحلیل کلان داده آغاز کردیم.
مقدمه
مفهوم کلان داده در علوم کامپیوتر از روزهای اولیه کامپیوتر شایع بوده است. "کلان داده" در اصل به معنی حجمی از داده است که نمیتواند (به صورت کارامدی) توسط ابزارها و متدهای پایگاه داده سنتی پردازش شود. هر بار که یک رسانه ذخیره سازی جدید اختراع میشود، مقدار داده قابل دسترسی بیش از حد میشود، چرا که این رسانهها به سادگی قابل دسترسی هستند. تعریف اصلی بر داده ساختار یافته متمرکز است، اما بیشتر پژوهشگران و متخصصان متوجه شده اند که بیشتر اطلاعات جهان به صورت اطلاعات ساختارنیافته و حجیم، و تا حدی در فرم متن و تصویر در دسترس هستند. انفجار داده ربطی به رسانهها ذخیره سازی جدید ندارد.
ما "کلان داده" را به عنوان مقداری داده تعریف میکنیم که از نظر ذخیره، مدیریت و پردازش کارآمد فراتر از قابلیت تکنولوژی است. موارد گفته شده تنها توسط یک تحلیل قوی بر خود داده، بیان نیازهای پردازشی، و قابلیتهای ابزارهای (سخت افزار، نرم افزار و متدهای) استفاده شده برای تحلیل آن، کشف شده است. با بوجود آمدن هر مشکل جدید، نتیجه چگونگی ادامه دادن ممکن است به این توصیه منجر شود که برای اجرای وظایف جدید باید ابزارهای جدیدی داشته باشیم.
اهمیت کلان داده
در آگوست سال 2010، کاخ سفید، OMB، و OSTP اعلام کردند که در زمینه مراقبتهای بهداشتی و امنیت ملی؛ کلان داده یک چالش ملی و اولویت دار است [1]. بنیاد ملی علوم، موسسات ملی بهداشت، سازمان زمین شناسی ایالت متحده، وزارت دفاع و انرژی، و آژانس پروژههای تحقیقات پیشرفته دفاعی یک طرح R&D مشترک را در مارس 2012 اعلام کردند که بیش از 200 میلیون دلار را بر توسعه تکنیکها و ابزارهای جدید کلان داده سرمایه گذاری کردند. هدف این طرح پیشرفت "... درک ما از تکنولوژیهای مورد نیاز برای دستکاری و کاووش گسترده مقادیر اطلاعات؛ استفاده از دانش برای دیگر زمینههای علمی" و همچنین بررسی اهداف ملی در عرصههای حفاظت از سلامت انرژی، آموزش و پرورش است" [14].
چالش های طراحی پویا
چالشهای بسیاری وجود دارد که نیازمند پژوهش بلند مدت بر کار با کلان داده هستند. Stonebreakerو Hong [18] استدلال کردند که طراحی برای سیستمها و مولفههایی که با کلان داده کار میکنند هنوز هم نیازمند درک نیازهای کاربران و تکنولوژیهایی هستند که میتوانند برای حل مسئله بررسی شده استفاده شوند- برای مثال، همه دادههای کلان و پیش نیازهای آنها یکی نیست. در این نمونه، از آنجایی که این نوع داده به تازگی ایجاد شده است (پیش بینی و جمع اوری شده)، و نه به درستی شناخته شده و نه درک شده است، طراحان نیاز دارند که واسط ها، گرافیکها و آیکون ها، سازمان کاربردی و مدلهای مفهومی، استعارهها و قابلیتها را در نظر بگیرند. چرا که کاربران نهایی اغلب طراحان سیستم هستند، این یک چالش طراحی اضافی را ارائه میدهد.
فرآیندهای ورودی و خروجی داده
یک مسئله اصلی که در طراحی کلان داده باید در نظر گرفته شود فرآیند خروجی است. Jacobs [9] این مسئله را بسیار مختصر توضیح داده است – ".... دریافت اطلاعات خیلی ساده تر از خروج اطلاعات است". کار او نشان میدهد که ورود و ذخیره داده میتواند با فرآیندهایی که در حال حاضر برای پایگاه دادههای رابطه ای[1]استفاده میشوند مدیریت شود. اما، ابزارهای طراحی شده برای پردازش تراکنش، میتوانند مقدار کم تا زیاد داده را اضافه کنند، به روزرسانی کنند، جستجو و بازیابی کنند، که برای حجم زیاد داده قابل انجام نیست و نمیتواند در عرض چند ثانیه تا چند دقیقه انجام شود.
پردازش کلان داده: چالش های تحلیلی
پردازش کلان داده یک چالش اصلی است، شاید چیزی بیشتر از مسائل مربوط به مدیریت و ذخیره سازی. انواع بسیاری از تحلیلها وجود دارد: توصیفی، تخمینی، پیش بینانه، و تجویزی، که به انواع گوناگون مدلهای تصمیم و بهینه سازی منجر میشود. برخی از تحلیلهای کسب و کار مشترک در شکل 1 نشان داده شده اند. Kaisler [11] دیگر تجزیه تحلیل تجزیه شده به 16 گروه بر اساس انواع مسائلی که باید بررسی شود را نشان داد، که شامل مدلهای اقتصادی، نظریه بازی، نظریه کنترل، محاسبات تکاملی، و مدلهای شبیه سازی است. مورد نرمال جدید تحلیل چابک، پیشرفته، پیش بینی کننده است که به راحتی با مجموعه دادهها و جریانهای در حال تغییر منطبق میشود و اطلاعات و دانشی را برای بهبود خدمات و عملیات در سرار دولت، صنعت و دانشگاه حاصل میکند.
مقیاس بندی
یک مسئله مهم ایت است که آیا یک فرآیند تحلیلی با افزایش مجموعه داده با مرتبه بزرگی، بزرگ میشود. هر الگوریتم یک "زانو" دارد- نقطهای که در آن عملکرد الگوریتم به صورت خطی با افزایش منابع محاسباتی افزایش مییابد و از نقطه اوج، پیک و... شروع به کاهش میکند. حل این مسئله نیازمند یک الگوریتم جدید برای مسئله، یا بازنویسی الگوریتم فعلی برای "تفسیر" زانو بیشتر از مقیاس است. یک سوال پژوهشی باز این است که آیا برای هر الگوریتم مشخص، محدودیتی در قابلیت مقیاس پذیری آن وجود دارد. این محدودیتها برای الگوریتمهای خاص با اجرای خاص بر ماشینهای خاص در مقیاسهای خاص شناخته شده هستند. راه حلهای محاسباتی عمومی، به خصوص موارد استفاده کننده از دادههای ساختارنیافته، هنوز شناخته شده نیستند. جدول 8 مثالهایی از رویکردهای تحلیلی ارائه میدهد که ممکن است در مقیاس خطی نباشند. به راحتی، پردازش کلان داده میتواند به یکی از سه روش نشان داده شده در جدول 9 مشخص شود.
نتیجه گیری و کار آینده
کلان داده مرز علوم اجتماعی و کسب و کار "جدید" است. مقدار اطلاعات و دانشی که میتواند از جهان دیجیتال استخراج شود همچنان با آشنا شدن کاربران با روشهای جدید ارسال پیام و پردازش داده، رو به گسترش است. علاوه بر این، واضح است که " داده بیشتر تنها به معنی داده بیشتر نیست"، بلکه "داده بیشتر به معنی چیزهای متفاوت تری است".
"کلان داده" تنها آغاز مسئله است. تکامل و جایگزینی تکنولوژی تضمین میکند که در عرض چند سال داده بیشتری در یک سال در دسترس خواهد بود، دادهای بیشتر از آن چه از آغاز بشریت جمع اوری شده است. اگر فیس بوک و توییتر حدود 50 گیگابایت داده را در هر روز تولید کنند، جمع آوری کنند، و این حجم هر سال سه برابر شود، در طی چند سال (شاید 3-5) براستی با چالش " کلان داده واقعا کلان داده میشود" مواجه میشویم.
ما- به عنوان یک جامعه جهانی- از جوامع داده محور به سمت جوامع دانش محور تکامل مییابیم. دانش ما به صورت گسترده توزیع شده است و به همان اندازه قابل دسترسی است. یک برنامه بررسی این مسئله تعامل معنایی جامعه فمنیسم (SICoP) است که از مدل در حال تکامل پشتیبانی میکند: دولت شهروندی- سیستمهایی که میدانند، تحلیل پیشرفته- سیستمهایی که یاد میگیرند؛ و عملیات هوشمند –سیستمهایی که استدلال میکنند. این سیستمها نیازمند کلان داده هستند. داده در یک یا چند محل ذخیره نمیشود؛ تنها در یک یا چند فرمت نیستند؛ تنها یک یا چند تحلیل بر آنها اعمال نمیشود؛ و در میان عناصر داده متفاوت تنها یک یا چند پیوند برقرار نیست. بنابراین، این یک مثال از برخی از مسائلی است که در این مقاله بررسی میکنیم. حل این مسائل و چالشهای بررسی شده در این مقاله نیازمند تلاشهای پژوهشی متمرکز است- بر چیزی که انتظار داریم که در چند سال آینده تکامل یابد.
این مقاله یک تلاش پژوهشی همکارانه را برای آغاز بررسی مسائل و چالشهای کلان داده آغاز میکند. برخی از مسائل اصلی را در فضای ذخیره، مدیریت و پردازش کلان داده شناسایی کردیم. برخی از چالشهای اصلی- آینده – را شناسایی کردیم که باور داریم که باید در دهه بعد بررسی شوند و چارچوبی را برای minitrack کلان داده ما در جلسات HICSSآینده ایجاد میکند. پژوهش آینده ما بر توسعه یک درک کامل از مسائل مرتبط با کلان داده متمرکز است، و این فاکتورها ممکن است در نیاز به تحلیل کلان داده و طراحی متدلوژی سهم داشته باشند. ما بررسی راه حلهای برخی از مسائلی که در این مقاله با تلاشهای پژوهشی همکارانه بروز کرده است را آغاز میکنیم.
این مقاله در سال 2013 در نشریه آی تریپل ای و در کنفرانس بین المللی سالانه هاوایی در علوم سیستم، توسط دانشگاه جورج واشنگتن منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله کلان داده و چالش های پیش روی آن در سایت ای ترجمه مراجعه نمایید.