ویرگول
ورودثبت نام
ابوالفضل قندی
ابوالفضل قندی
خواندن ۸۲ دقیقه·۳ سال پیش

کلان داده چیست و راز های موفقیت با این ابزار قدرتمند

توجه : در صورت ناخوانا بودن محتوا شما میتوانید محتوا را از لینک زیر دنبال کنید

https://docs.google.com/document/d/14U0TJfI_4oZeZ2xQJP-jmiWWx8WdC5kS60p6JYsWa5k/edit?usp=sharing

انجمن ارتباطات سیستم های اطلاعاتی (CAIS)

آموزش: تجزیه و تحلیل کلان داده ها: مفاهیم ، فناوری ها و برنامه ها

هیو جی واتسون

دپارتمان MIS یا Management Information Systems ، دانشگاه جورجیا

hwatson@uga.edu

چکیده

ما وارد عصر کلان داده ها شده ایم. سازمان ها در حال ضبط ، ذخیره و تجزیه و تحلیل داده هایی هستند که حجم بالایی دارند ،سرعت ، و تنوع و از منابع مختلف جدیدی ناشی می شود ، از جمله رسانه های اجتماعی ، ماشین آلات ، پرونده های ورود به سیستم ، ویدئو ،متن ، تصویر ، RFID و GPS. این منابع قابلیت های پایگاه داده رابطه ای سنتی را تحت فشار قرار داده اند سیستم های مدیریتی و باعث ایجاد انبوهی از فناوری ها ، رویکردها و سیستم عامل های جدید شده. ارزش بالقوه تجزیه و تحلیل کلان داده ها بسیار عالی است و به طور واضح توسط تعداد فزاینده ای از مطالعات ایجاد شده است. کلید موفقیت با کلان داده ها و تجزیه و تحلیل داده ها شامل یک نیاز شفاف تجاری ، حمایت مالی متعهدانه قوی ، همسویی بین تجارت و استراتژی های IT ، فرهنگ تصمیم گیری مبتنی بر واقعیت ، زیرساخت داده ای قوی ابزارهای تحلیلی مناسب و افراد در استفاده از تجزیه و تحلیل مهارت دارند. به دلیل تغییر پارادایم در انواع داده های مورد تجزیه و تحلیل و چگونگی این داده ها استفاده می شود ، کلان داده ها را می توان نسل چهارم جدیدی از مدیریت داده های پشتیبانی تصمیم در نظر گرفت. گرچه ارزش کسب و کار از کلان داده ها خصوصاً برای شرکت های آنلاین مانند google و facebook ، که چگونه است ، عالی است. استفاده می شود ایجاد نگرانی های قابل توجهی در مورد حریم خصوصی وجود دارد.

کلمات کلیدی: داده های بین المللی ، تجزیه و تحلیل ، مزایا ، معماری ، سیستم عامل ها ، حریم خصوصی

1. مقدمه

داده های کلان و تجزیه و تحلیل موضوعات داغ مطبوعات محبوب و مطبوعات تجاری هستند. مقالات در نشریاتی مانند نیو یورک تایمز ، وال استریت ژورنال و فایننشال تایمز و همچنین کتابهایی مانند[Ayers, 2007]، رقابت در زمینه تجزیه و تحلیل [Davenport and Harris، 2007] و تجزیه و تحلیل در کار[Davenport، Harris and Morison، 2010] در مورد ارزش بالقوه کلان داده ها و تجزیه و تحلیل کلان داده ها را منتشر کرده اند.امروزه بسیاری از سازمان ها در حال جمع آوری ، ذخیره و تجزیه و تحلیل مقادیر عظیم داده ها هستند. این داده ها را معمولاً کلان داده می نامند به دلیل حجم زیاد ، سرعت ورود به آن و تنوع اشکال که به آن داده می شود. بزرگ داده ها در حال ایجاد نسل جدیدی از مدیریت تصمیم گیری پشتیبانی تصمیم گیری است. مشاغل در حال شناسایی پتانسیل و ارزش بالقوه این داده ها و قرار دادن فن آوری ها ، افراد و فرایندهای مناسب برای استفاده از فرصت ها هستند. یک کلید برای به دست آوردن ارزش از کلان داده ها ، استفاده از تجزیه و تحلیل است. جمع آوری و ذخیره کلان داده ها ارزش کمی ایجاد می کند. این مرحله فقط زیرساخت داده است. باید تجزیه و تحلیل شود و نتایج حاصل توسط تصمیم گیرندگان فرایندهای سازمانی برای تولید ارزش استفاده شود. کلان داده ها و تجزیه و تحلیل بهم پیوسته اند ، اما تجزیه و تحلیل چیز جدیدی نیست. بسیاری از تکنیک های تحلیلی ، مانند رگرسیون تجزیه و تحلیل ، شبیه سازی و یادگیری ماشین ، سالهاست که در دسترس است. حتی ارزش در تحلیل داده های بدون ساختار مانند ایمیل و اسناد به خوبی درک شده است. آنچه جدید است گرد آمدن پیشرفت در فناوری و نرم افزار رایانه ای ، منابع جدید داده (به عنوان مثال ، رسانه های اجتماعی) و فرصت های شغلی است.این تلاقی علاقه و فرصت های فعلی را در تجزیه و تحلیل کلان داده ها ایجاد کرده است. این حتی یک زمینه جدید از عمل و مطالعه به نام "علم داده" است که شامل تکنیک ها ابزارها ، فناوری ها و فرایندهای ایجاد معنی برای کلان داده ها است.

داده های بزرگ در حال ساختن شغل های جدید و تغییر بعضی از موارد موجود هستند گارتنر [2012] پیش بینی میکند که تا سال 2015 نیاز به پشتیبانی کلان داده ها 4.4 میلیون شغل در حوزه فناوری اطلاعات به صورت جهانی تولید میکند با 1.9 میلیون نفر به ازای هر یک از آنها، سه شغل دیگر هم خارج از حوزه فناوری اطلاعات ایجاد میشود. کلان داده ها همچنین تقاضای زیادی برای افرادی ایجاد می کند که می توانند کلان داده ها را تجزیه و تحلیل و استفاده کنند. . یک مطالعه در سال 2011 توسط موسسه جهانی مک کینزی پیش بینی کرد که تنها در سال 2018 ایالات متحده با کمبود 140،000 تا 190،000 نفر با مهارت تجزیه و تحلیل عمیق و همچنین 1.5 میلیون مدیر و تحلیلگر برای تجزیه و تحلیل کلان داده ها و تصمیم گیری روبرو خواهد شد[Manyika, Chui, Brown, Bughin, Dobbs, Roxburgh, and Byers, 2011] . برای اینکه کمپانی ها به دنبال افرادی با توانایی کلان داده ها هستند، بسیاری از دانشگاه ها دوره ها جدید، مدارک و برنامه های تحصیلی برای ارائه مهارت های لازم به دانشجویان را پیشنهاد میدهند. فروشندگانی مانند IBM از طریق برنامه های پشتیبانی دانشگاه خود به آموزش اساتید و دانشجویان کمک می کنند.

در سطح بالایی از الزامات برای موفقیت های سازمانی با تجزیه و تحلیل داده ها همان مواردی است که برای هوش تجاری (BI) به طور کلی وجود دارد [ویلیامز ، 2004]. با این حال ، در یک سطح عمیق تر ، تفاوت های ظریف بسیاری وجود دارد که مهم است و باید توسط سازمان هایی که وارد تجزیه و تحلیل کلان داده ها میشوند ، مورد توجه قرار گیرد. برای مثال فرهنگ سازمانی، ساختمان داده، ابزار های تجزیه و تحلیل و مسائل پرسنل باید مورد توجه قرار گیرد. فناوری های جدید ، سیستم عامل ها و رویکردهایی است که مورد توجه ویژه متخصصان فناوری اطلاعات (IT) است که برای ذخیره و تجزیه و تحلیل کلان داده ها استفاده می شود. دولت ها و کمپانی ها توانایی این را دارند تا داده های شخصی را از تعداد زیادی از منابع یکپارچه کنند و بسیار از بدانند که شما چه کاری میکنید، کجا می روید، دوستانتان چه کسانی هستند و ترجیحات شما چیست .اگرچه این امر منجر به خدمات بهتر (و سود شرکت ها) می شود ، اما نگرانی های مربوط به حریم خصوصی را نیز به وجود می آورد [Clemons، Wilson، Barnett، Jin and Matt، 20 ]. محدودیت های قانونی در مورد آنچه که شرکت های بزرگ داده مانند facebook بوک و google می توانند با داده های جمع آوری شده انجام دهند وجود دارد. در این آموزش ابتدا ماهیت و منابع کلان داده ها را در نظر میگیریم. بعد به تاریخ تجزیه و تحلیل ، انواع مختلف تجزیه و تحلیل و نحوه استفاده از آنها با کلان داده ها نگاهی می اندازیم. Starbucks ، Chevron ، U.S. Xpress و Target برای نشان دادن کاربردهای مختلف تجزیه و تحلیل کلان داده ها استفاده می شوند.تحقیقات فعلی سندی از مزایای کلان داده ها و استدلال قانع کننده ای برای استفاده از آنها ارائه می دهد. الزامات برای موفقیت در کلان داده ها مطرح و مصور شده، از جمله ایجاد نیاز شفاف تجاری؛ حمایت مالی قوی و متعهد؛ هم جهت بودن تجارت و استراتژی های تجزیه و تحلیل؛ یک فرهنگ تصمیم گیری بر اساس واقعیت؛ یک زیرساخت داده ای قوی؛ ابزارهای تحلیلی مناسب و کاربران ، تحلیلگران و دانشمندان داده در استفاده از تجزیه و تحلیل کلان داده ها مهارت دارند. توجه ویژه ای به فناوری ها ، سیستم عامل ها و رویکردهای ذخیره سازی و تجزیه و تحلیل کلان داده ها داده می شود. نگرانی های مربوط به حریم خصوصی در مورد استفاده از کلان داده ها نیز بررسی می شود.

2. کلان داده چیست

از منظر تکاملی ، کلان داده ها جدید نیستند. دلیل عمده ایجاد انبارهای داده در دهه 1990 ، ذخیره مقدار زیادی داده بود. در آن زمان ، یک ترابایت کلان داده محسوب می شد. Teradata ، پیشرو در فروش انبار داده ، معمولاً وقتی انبارهای داده آنها به ترابایت می رسید ، مشتریان را تشخیص می داد. امروز ، Teradata بیش از 35 مشتری دارد ، مانند Wal-Mart and Verizon ، با انبارهای داده بیش از یک پتابایت. eBay در هر دقیقه یک ترابایت داده را گرفته و بیش از 40 پتابایت را در خود نگهداری می کند ، که بیشترین مقدار از هر شرکت در جهان است.

پس کلان داده چیست؟ یک دیدگاه این است که کلان داده، انواع مختلفی از داده ها هستند تا اینکه به راحتی توسط سیستم های مدیریت پایگاه داده رابطه ای (RDBMS) به راحتی اداره می شوند. برخی از افراد 10 ترابایت را کلان داده می دانند ، اما با جمع آوری ، ذخیره و تجزیه و تحلیل داده های بیشتر ، هر تعریف عددی با گذشت زمان تغییر می کند. دیدگاه مفید دیگر این است که کلان داده ها را دارای حجم بالا ، سرعت زیاد و تنوع بالا توصیف کنید - سه v :

  1. High volume—the amount or quantity of data

حجم زیاد - مقدار یا مقدار داده

  1. High velocity—the rate at which data is created

سرعت بالا - سرعت ایجاد داده

  1. High variety—the different types of data

تنوع بالا - انواع مختلف داده ها

به طور خلاصه کلان داده این معنی را میدهد که هر چه بیشتر، از آن باشد، با سرعت بیشتری می آید و در اشکال بیشتری می آید.

هر دوی این دیدگاه ها در تعریف زیر منعکس شده است[Mills,Lucas, Irakliotis, Rappa, Carlson, and Perlowitz, 2012; Sicular, 2013] :

کلان داده اصطلاحی است که برای توصیف داده هایی به کار می رود که دارای حجم زیاد ، سرعت زیاد و یا تنوع زیاد هستند. برای ضبط ، ذخیره و تجزیه و تحلیل آن نیاز به فن آوری ها و تکنیک های جدید است و برای تقویت تصمیم گیری ، ارائه بینش و کشف ، و پشتیبانی و بهینه سازی فرایندها استفاده می شوند.

درک این نکته مهم است که آنچه امروز کلان داده تصور می شود ، در آینده چندان بزرگ به نظر نمی رسد [Franks، 2012].بسیاری از منابع داده در حال حاضر استفاده نشده اند - یا حداقل از آنها کم استفاده شده است. به عنوان مثال ، ممکن است هر ایمیل مشتری ، خدمات چت مشتری comment های شبکه های اجتماعی گرفته شود شود ، ذخیره شود و مورد تجزیه و تحلیل قرار گیرد تا احساسات مشتریان بهتر درک شود. داده های مرور وب برای درک بهتر رفتارهای خرید مشتریان ممکن است هر حرکت ماوس را ضبط کند. برچسب های شناسایی فرکانس رادیویی (RFID) برای ارزیابی وضعیت و موقعیت هر کالا ، ممکن است روی هر قطعه کالا قرار گیرند. شکل 1 رشد پیش بینی شده کلان داده را نشان می دهد.


3. منابع کلان داده

کلان داده ها منابع بسیاری دارند. برای مثال هر کلیک موث در یک وبسایت میتواند در فایل لاگ گرفته شود و به منظور درک بهتر رفتار خرید مشتریان تجزیه و تحلیل شود تا با با پیشنهاد محصولات خرید ان ها را تحت تاثیر قرار دهد.منابع شبکه های اجتماعی مانند facebook و twitter مقادیر فوق العاده ای از نظرات و توییت ها را ایجاد میکنند. این داده ها را می توان گرفت و تجزیه و تحلیل کرد تا مثلاً نظر مردم درباره معرفی محصولات جدید را متوجه کرد. ماشین آلات ، مانند کنتورهای هوشمند ، داده تولید می کنند. این کنتورها به طور مداوم داده های مربوط به مصرف برق ، آب یا گاز را که می تواند با مشتریان به اشتراک گذاشته شود و با برنامه های قیمت گذاری همراه است ، ایجاد می کند تا مشتریان را ترغیب کند برخی از انرژی خود را مانند شستن لباس ها به ساعات غیر اوج مصرف منتقل کنند. مقدار بسیار زیادی از داده های فضایی (به عنوان مثال GPS) ، مانند داده های ایجاد شده توسط تلفن های همراه ، وجود دارد که می تواند توسط برنامه هایی مانند Foursquare برای کمک به شما در شناخت مکان دوستان و دریافت پیشنهادات از فروشگاه ها و رستوران های اطراف استفاده شود. تصویر ، صدا و داده های صوتی را می توان برای برنامه هایی مانند سیستم های تشخیص چهره در سیستم های امنیتی تجزیه و تحلیل کرد.

4. تجزیه و تحلیل کلان داده

به خودی خود، داده ذخیره شده یک ارزش تجاری ایجاد نمیکند و این مورد در باره پایگاه داده های سنتی، انبارهای داده، و فناوری های جدید مانند hadoop هم صدق میکند. به محض ذخیره سازی مناسب داده ها ، می توان آن را تجزیه و تحلیل کرد ، که می تواند ارزش فوق العاده ای ایجاد کند. انواع فناوری های تجزیه و تحلیل، رویکرد ها و محصولات ظهور کرده اند که به طور خاص برای کلان داده ها کاربردی هستند مانند تجزیه و تحلیل در حافظه، پایگاه های داده و لوازم خانگی که بعدا مورد بحث قرار میگیرد.

تجزیه و تحلیل چیست؟

شناختن این مسئله مفید است که واژه تجزیه و تحلیل به صورت مداوم استفاده نشود؛ از آن حداقل در سه روش مختلف و در عین حال مرتبط استفاده می شود[Watson, 2013a]. نقطه شروع برای متوجه شدن تجزیه و تحلیل ریشه های آن است. سیستم های پشتیبانی تصمیم (DSS) در دهه 1970 اولین سیستم هایی بودند که از تصمیم گیری پشتیبانی می کردند [Power، 2007]. سیستم های DSS به عنوان توصیف یک برنامه و یک رشته دانشگاهی مورد استفاده قرار گرفت. با گذشت زمان ، برنامه های پشتیبانی اضافی تصمیم گیری مانند سیستم های اطلاعاتی اجرایی ، پردازش تحلیلی آنلاین (OLAP) و داشبورد / کارت های امتیازی محبوب شدند. سپس در دهه 1990 ، هوارد درسنر ، تحلیلگر گارتنر ، اصطلاح هوش تجاری را رواج داد. یک تعریف معمول این است که " BI یک دسته گسترده از برنامه ها ، فناوری ها و فرآیندهای جمع آوری ، ذخیره سازی ، دسترسی و تجزیه و تحلیل داده ها برای کمک به کاربران تجاری در تصمیم گیری بهتر است " [Watson, 2009 a, p. 491] . با این تعریف هوش تجاری می تواند به عنوان یک اصطلاح چتری برای برنامه هایی که پشتیبانی تصمیم گیری انجام میدهند باشد و اینگونه است که در صنعت و به طور فزاینده ای در دانشگاه تفسیر می شود. هوش تجاری تکامل یافته سیستم های پشتیبانی تصمیم گیری یا dss ها هستند و می توان ادعا کرد که تجزیه و تحلیل از هوش تجاری حداقل از نظر اصطلاحات تکامل یافته است. بنابراین تجزیه و تحلیل یک اصطلاح چتری برای برنامه های تجزیه و تحلیل داده است. هوش تجاری همچنین میتواند به عنوان " ورود داده " به یک بازار داده یا انبار و " خروج داده " یا آنالیز داده ای که ذخیره شده است باشد. تفسیر دوم از تجزیه و تحلیل این است که این بخش "گرفتن داده" از هوش تجاری است. تفسیر سوم این است که تجزیه و تحلیل استفاده از الگوریتم های "علم موشک" (به عنوان مثال ، یادگیری ماشین ، شبکه های عصبی) برای تجزیه و تحلیل داده ها است. این تجزیه و تحلیل های مختلف باعث ایجاد سردرگمی زیادی نمی شود ، زیرا متن معمولاً معنی را روشن می کند. پیشرفت از سیستم های پشتیبان تصمیم گیری به هوش تجاری و هوش تجاری به سمت تجزیه و تحلیل در شکل 2 نشان داده شده است.

انواع مختلف تجزیه و تحلیل

تفکیک بین سه نوع تجزیه و تحلیل مفید است زیرا تفاوت ها برای فناوری ها و معماری های مورد استفاده برای تجزیه و تحلیل کلان داده ها تاثیر دارد. برخی از انواع تجزیه و تحلیل ها در برخی از سیستم عامل ها بهتر از برخی دیگر انجام می شوند.

تجزیه و تحلیل توصیفی ، مانند گزارش / OLAP ، داشبورد / کارت امتیازی و تجسم داده ها ، مدتی است که به طور گسترده مورد استفاده قرار گرفته است و از اصلی ترین برنامه های هوش تجاری سنتی است. تجزیه و تحلیل توصیفی به عقب نگاه می کند (مانند آینه دید عقب اتومبیل) و اتفاقات رخ داده را نشان می دهد. با این حال یک روند این است که یافته هایمان از تجزیه و تحلیل های پیشبینی شده را در نظر بگیریم، مانند پیش بینی فروش آینده، در داشبورد / کارت امتیازی.

تجزیه و تحلیل پیش بینی کننده به آنچه در آینده رخ خواهد داد اشاره می کند (مانند جستجوی شیشه جلو اتومبیل). روش ها و الگوریتم های تجزیه و تحلیل پیش بینی مانند تجزیه و تحلیل رگرسیون ، یادگیری ماشین و شبکه های عصبی برای مدتی وجود داشته است. با این حال ، اخیراً ، محصولات نرم افزاری مانند SAS Enterprise Miner درک و استفاده از آنها را بسیار آسان کرده است. آنها همچنین در برنامه های خاص مانند مدیریت کمپین ادغام شده اند. بازاریابی هدف بسیاری از برنامه های تجزیه و تحلیل پیشبینی کننده است؛ اینجا هدف درک بهتر از مشتریان، نیازشان و اولویت هایشان است.

برخی از افراد به تجزیه و تحلیل اکتشافی یا اکتشافی ( در اینجا مقاله به دو کلمه explorer و discover اشاره کرده که در فارسی هردو یک معنی میدهند اما به طور مفهومی کلمه discover به یک زمان خاص اشاره دارد که شما چیزی را کشف کردید اما explore به یک بازه زمانی اشاره می کند ) نیز مراجعه می کنند ، اگرچه اینها فقط نام های دیگری برای تجزیه و تحلیل پیش بینی کننده هستند. هنگامی که از این اصطلاحات استفاده می شود ، آنها معمولاً به یافتن روابط در کلان داده ها اشاره می کنند که قبلاً شناخته شده نبودند. توانایی تجزیه و تحلیل منابع جدید داده ها - یعنی داده های کلان - فرصت های اضافی برای بینش ایجاد می کند و به ویژه برای شرکت هایی که حجم عظیمی از داده های مشتری دارند مهم است. مسیر طلایی برای تجزیه و تحلیل یک پیش بینی جالب یا تکنیک های تجزیه و تحلیل اکتشافی است. این شامل تجزیه و تحلیل مقادیر زیادی از داده های رفتاری است ( برای مثال داده های مرتبط با فعالیت ها یا اقدامات مردم ) برای شناسایی الگوهای رویدادها یا فعالیت هایی که اقدامات مشتری پیش بینی میکنند مانند عدم تمدید قرارداد تلفن همراه ، بستن حساب جاری یا کنار گذاشتن سبد خرید الکترونیکی است. وقتی یک شرکت می تواند رفتاری را پیش بینی کند ، ممکن است با یک پیشنهاد پا در میانی کند و احتمال این وجود دارد که رفتار پیش بینی شده را تغییر دهد. در حالی که تجزیه و تحلیل پیش بینی کننده به شما می گوید چه اتفاقی خواهد افتاد ، تجزیه و تحلیل تجویزی به شما میگوید که چه کاری باید انجام شود (مانند دستورالعمل های GPS ماشین).تجزیه و تحلیل تجویزی می تواند اغلب برای تخصیص منابع کمیاب راه حل های بهینه را شناسایی کند. مدتهاست که این مسئله در آکادمیک تحقیق می شود اما اکنون در عمل کاربرد گسترده تری پیدا می کند. به عنوان مثال ، استفاده از برنامه ریزی ریاضی برای مدیریت درآمد به طور فزاینده ای برای سازمانهایی که کالاهای "فاسد شدنی" مانند اتومبیلهای اجاره ای ، اتاقهای هتل و صندلیهای هواپیمایی دارند ، معمول است. به عنوان مثال ، Harrah’s Entertainment ، پیشرو در استفاده از تجزیه و تحلیل ، سالهاست که از مدیریت درآمد برای قیمت گذاری اتاق هتل استفاده می کند.

سازمان ها معمولاً از تجزیه و تحلیل توصیفی به تجزیه و تحلیل پیش بینی کننده و از تجزیه و تحلیل پیش بینی کننده به تجزیه و تحلیل تجویزی حرکت می کنند می کنند. روش دیگر برای توصیف این پیشرفت این است: چه اتفاقی افتاده است؟ چرا این اتفاق افتاده است؟ چه اتفاقی خواهد افتاد؟ چگونه می توانیم آن را عملی کنیم؟ این پیشرفت به طور معمول در مدل های مختلف بلوغ هوش تجاری و تجزیه و تحلیل دیده می شود[Eckerson, 2004].

5 . مثال هایی از تجزیه و تحلیل کلان داده

اجازه دهید چندین نمونه از شرکتهایی را که از تجزیه و تحلیل کلان داده ها استفاده می کنند ، بررسی کنیم. مثال ها استفاده از چندین منابع و ارکلان داده و انواع مختلف تجزیه و تحلیل که میتواند انجام شود ترسیم میکنند.

معرفی یک محصول جدید قهوه در Starbucks

استارباکس در حال معرفی یک محصول جدید قهوه بود اما نگران این بود که مشتری طعم آن را خیلی قوی بداند.صبح که بخشی از قهوه برای تست اولیه فروخته شد شد ، استارباکس وبلاگ ها ، توییتر و گروه های بحث در مورد انجمن قهوه را بررسی کرد تا واکنش مشتریان را ارزیابی کند. تا اواسط صبح ، استارباکس کشف کرد که اگرچه مردم طعم قهوه را دوست دارند ، اما آنها فکر می کنند که این قهوه بسیار گران است. استارباکس قیمت را کاهش داد و در پایان روز همه نظرات منفی از بین رفت.

این پاسخ سریع را با رویکرد سنتی تر منتظر آمدن گزارش های فروش و مشاهده ناامیدکننده فروش مقایسه کنید. مرحله بعدی ممکن است اجرای یک گروه متمرکز برای کشف دلیل این امر باشد. شاید در طی چند هفته استارباکس دلیل را کشف می کرد و با کاهش قیمت به آن پاسخ می داد.

حفاری برای نفت در شورون

هزینه های هر بار حفاری در خلیج مکزیک بالغ بر 100 میلیون دلار برای شورون است. شورون برای بهبود شانس خود در یافتن روغن ، 50 ترابایت داده لرزه ای را تجزیه و تحلیل کرد. حتی با وجود این ، احتمال یافتن روغن حدود 1 در 5 بوده است. در تابستان 2010 ، به دلیل نشت نفت در خلیج BP، دولت فدرال کلیه مجوزهای حفاری در آب های عمیق را به حالت تعلیق درآورد. زمین شناسان در شورون این فرصت را به دست آوردند و از فرصت پیش آمده در پیشرفت قدرت محاسباتی و ظرفیت ذخیره سازی برای اصلاح مدل های رایانه ای پیشرفته خود استفاده کردند. با این پیشرفت ها ، شورون احتمال حفر چاه موفق را به تقریباً 1 در 3 بهبود داد، در نتیجه صرفه جویی فوق العاده در هزینه ها حاصل شد.

نظارت بر کامیون ها در U.S Xpress

US Xpress یک شرکت حمل و نقل است. کابین های آن بیش از 900 قطعه داده مربوط به وضعیت کامیون ها و مکان آنها را به طور مداوم پخش می کند [Watsonand Leonard, 2011]. این داده ها در ابر ذخیره می شوند و به روش های مختلف تجزیه و تحلیل می شوند ، با اطلاعاتی که به کاربران مختلف ، از مدیران ارشد ، در iPad ها و سایر رایانه های لوحی به کاربران مختلف تحویل داده می شود. به عنوان مثال ، هنگامی که یک سنسور کم سوخت بودن یک کامیون را نشان می دهد ، راننده به یک ایستگاه پر کردن که قیمت آن پایین است هدایت می شود. اگر به نظر می رسد کامیون نیاز به تعمیر و نگهداری دارد ، رانندگان به یک انبار سرویس خاص فرستاده می شوند. مسیرها و مقاصد برای اطمینان از تحویل به موقع سفارشات تغییر می یابد. کامیون ها زمان بیکاری لازم و اجتناب ناپذیری را تجربه می کنند.مثالی از موارد قبلی این است که کامیون در ترافیک گیر کرده است و در این باره کاری نمی توان انجام داد (مگر اینکه در تاخیر ترافیک هدایت شود). یک نمونه از موارد اخیر این است که راننده برای ناهار در زمستان متوقف می شود و کامیون را برای گرم نگه داشتن کابین نگه می دارد. US Xpress با نظارت بر ماشین ها خود میتواند بگوید کدام کامیون است که ماشین را برای گرم نگه داشتن کابین روشن نگه داشته است و میتواند میلیون ها دلار هزینه ناشی از مصرف سوخت را کاهش دهد و با تشویق رانندگان آن برای کاهش زمان بیکاری قابل اجتناب ، میزان انتشار دود ماشین ها در محیط زیست را کاهش می دهد.

مشتریان هدف در Target Market

تارگت مارکت برای استخراج داده ها برای شناسایی زنان باردار در انتشاراتی مانند نیویورک تایمز [Duhigg, 2012] و فوربس [Hill, 2012] مورد توجه منفی قابل توجهی قرار گرفت. مطبوعات منفی از زمانی شروع شد که پدری از مدیر فروشگاه Target Market در مینیاپولیس شکایت کرد که دخترش کوپن های مربوط به بارداری دریافت کرده است. او احساس کرد کوپن ها نامناسب هستند و باعث تشویق نوجوانان به بارداری می شوند. او نمی دانست که دخترش باردار است. وی بعداً از مدیر فروشگاه عذرخواهی کرد و گفت که مشخصاً در خانه وی فعالیتهایی انجام شده است که وی از آنها آگاهی نداشته است.

چگونه Target Market زنان باردار را شناسایی کرد؟ Target Market برای ساخت مدل های پیش بینی کننده خود، بر زنانی که برای ثبت نام نوزاد اقدام کرده بودند تمرکز کرد، این یک شاخص عالی برای باردار بودن آنها است. سپس آنها رفتار خرید زنان را با رفتار خرید تمام مشتریان Target Market مقایسه کردند. 25 متغیر برای شناسایی زنان باردار است و زمان تولد نوزادان آنها مفید شناخته شد. متغیرها شامل خرید مقادیر زیادی لوسیون بدون بو بودند. مکمل هایی مانند کلسیم ، منیزیم و روی ؛ صابون های بدون بو؛ کیسه های بزرگ اضافی از گلوله های پنبه ای ضد عفونی کننده دست؛ و پارچه های شستشو بودند. با استفاده از این متغیرها ، مدل های پیش بینی کننده بارداری ساخته شد و برای ارزیابی احتمال بارداری و زایمان یک زن استفاده شد. به عنوان مثال ، زنان باردار با نزدیک شدن به تاریخ زایمان تمایل به خرید مواد ضد عفونی کننده دست و پارچه های دستشویی دارند. Target Market از این پیش بینی ها برای شناسایی اینکه چه زنانی باید کوپن خاص دریافت کنند استفاده کرد.

داستان با یک کابوس روابط عمومی دیگر ادامه دارد. . به زودی پس از آن ، Target Market مطبوعات نامطلوبی را برای پیش بینی نامزدی ها دریافت کرد. قبل از اینکه پسران و دختران به والدین خود بگویند که نامزد شده اند ، Target Market دعوت نامه هایی را برای عضویت در دفتر جشن عروسی خود ارسال می کرد.

در پاسخ به مطبوعات منفی ، Target Market دیگر کوپن های مربوط به بارداری را ارسال نمی کند، اما در موارد دیگر مخلوط می شود ، مانند ماشین های چمن زن. Target Market همچنین در اطلاعاتی که درباره فعالیتهای داده کاوی خود به اشتراک میگذارد بسیار بیشتر محافظت می شود. در حالی که داده کاوی Target قانونی است ، اما اگر مناسب نباشد ، باعث وحشت زدگی بسیاری از مردم می شود.

6. مزایای تجزیه و تحلیل کلان داده ها

همانطور که بحث شد ، جمع آوری و ذخیره کلان داده ها ارزش تجاری ایجاد نمی کند. ارزش تجاری فقط زمانی ایجاد می شود که داده ها مورد تجزیه و تحلیل و عمل قرار گیرند. همانطور که مثالهای Starbucks، شورون و US Xpress نشان می دهد ، مزایای تجزیه و تحلیل کلان داده ها می تواند متنوع ، قابل توجه و مبنای مزیت رقابتی باشد. برخی از افراد به دلیل مزایای بالقوه آن ، یک V چهارم به مشخصات کلان داده ها اضافه می کنند: ارزش زیاد(high Value). این ارزش تنها زمانی تحقق می یابد که سازمانی با دقت فکر کرده باشد و بعد استراتژی کلان داده ها را اجرا کند.

تحقیقات مزایای استفاده از داده ها و تجزیه و تحلیل ها در تصمیم گیری را نشان می دهد. یک مطالعه بر روی 179 شرکت بزرگ تجارت عمومی نشان داد که شرکتهایی که تصمیم گیری مبتنی بر داده را اتخاذ کرده اند ، 5٪ تا 6٪ بیشتر از سایر شرکتها تولید و بهره وری دارند. این رابطه به سایر معیارهای عملکرد مانند استفاده از دارایی ، بازده حقوق صاحبان سهام و ارزش بازار نیز تسریع پیدا می کند [Brynjolfsson, Hitt and Kim, 2011]. در سال 2010 ، MIT Sloan Management Review، با همکاری موسسه IBM Institute for Business Value، نزدیک به 3000 مدیر از نمونه های جهانی را مورد بررسی قرار دادند [LaValle,Lesser, Shockley, Hopkins, and Kruschwitz, 2010]. در میان یافته ها این بود که سازمان هایی با عملکرد بالا از تجزیه و تحلیل 5 برابر بیشتر از سازمان هایی با عملکرد پایین استفاده می کنند و 37٪ از پاسخ دهندگان معتقدند که تجزیه و تحلیل یک مزیت رقابتی ایجاد می کند. یک مطالعه پیگیری در سال 2011 نشان داد که درصد پاسخ دهندگانی که گزارش کرده اند استفاده از تجزیه و تحلیل باعث ایجاد مزیت رقابتی شده است به 58٪ رسیده است که 57٪ افزایش است. اگرچه این مطالعات منحصراً روی کلان داده ها متمرکز نیستند ، اما روابط مثبت بین تصمیم گیری مبتنی بر داده ، عملکرد سازمانی و موقعیت رقابتی را نشان می دهند.

همچنین استفاده از کلان داده مزایای سودمندی برای دولت دارد. گزارش TechAmerica، سناریوی زیر را در مورد جهانی كه از کلان داده ها سود می برد توصیف می کند[Miller, Lucas, Irakliotis, Ruppa, Carlson and Perlowitz, 2012] .

جهانی را تصور کنید که جمعیت آن در حال گسترش است اما فشار بر خدمات و زیرساخت ها را کاهش می دهد. نتایج مراقبت های بهداشتی به طور چشمگیری با بهره وری بیشتر و سرمایه گذاری کمتر بهبود یافته است. تهدیدهای شدیدتر به امنیت عمومی و مرزهای ملی ، اما سطح بالاتری از امنیت ؛ وقایع جوی مکرر و شدید ، اما دقت بیشتر در پیش بینی و مدیریت. جهانی را تصور کنید که اتومبیل بیشتری داشته باشد ، اما ازدحام کمتری داشته باشد.ادعاهای بیمه بیشتر اما تقلب کمتر ؛ منابع طبیعی کمتر ، اما فراوان تر و کمتر است انرژی گران تأثیر کلان داده ها می تواند به اندازه توسعه اینترنت بسیار عمیق باشد.

این سناریو ممکن است خوش بینانه باشد ، اما پیشنهاد می کند از تجزیه و تحلیل کلان داده ها استفاده شود که به طور تهاجمی دنبال می شوند.

7. الزامات موفقیت در تجزیه و تحلیل کلان داده

به طور کلی الزامات موفقیت با تجزیه و تحلیل کلان داده ها، مانند پشتیبانی اجرایی و حمایت مالی، تقریباً مانند اکثر پروژه ها از جمله تجزیه و تحلیل و هوش تجاری است [Williams, 2004; Watson, 2013]. تفاوت در جزئیات است و برخی از جزئیات مانند بستر های ذخیره سازی و تجزیه و تحلیل بسیار مهم هستند.

یک نیاز تجاری شفاف

این یک دانش عمومی است که پروژه ها بهتر است تجاری باشند تا فناوری محور. آنها باید نیازهای شغلی مانند حل مسئله یا استفاده از فرصت را برطرف كنند. در حالی که توجه رسانه ای به کلان داده ها باعث ایجاد آگاهی از پتانسیل آن شده است، اما همچنین باعث شده برخی از مدیران پروژه های کلان داده ایی را بدون اهداف مشخص اجرا کنند. موارد زیر فرصت برای تجزیه و تحلیل کلان داده ها است در صنایع مختلف است [Franks, 2012].

  1. بیمه ماشین [Rose,S., 2013] _ قیمت گذاری ، تحلیل ریسک مشتری ، کشف تقلب ، پردازش سریعتر ادعاها
  2. مخابرات [IBM, 2013] _ تجزیه و تحلیل الگوهای خدمات در سراسر شبکه های اجتماعی ، سودآوری شبکه های اجتماعی مشتریان
  3. تولید ، توزیع و خرده فروشی [CGT, 2012] _ ردیابی در دسترس بودن قفسه ، ارزیابی تأثیر نمایشگرهای تبلیغاتی ، ارزیابی اثربخشی کمپین های تبلیغاتی ، مدیریت موجودی ، قیمت گذاری ، تحلیل پیشرفته جریان کلیک
  4. حمل و نقل و تدارکات [IBM, 2010] _ مدیریت ناوگان در زمان واقعی ، RFID برای ردیابی دارایی
  5. خدمات رفاهی [Oracle,2013] _ تجزیه و تحلیل داده های شبکه هوشمند برای تعیین مدل های قیمت گذاری متغیر ، کنتورهای هوشمند برای پیش بینی تقاضای انرژی ، برنامه های نرخ سفارشی برای مشتریان
  6. بازی کردن [Chulis, 2012] _ تجزیه و تحلیل بازی برای ارائه بازخورد به تولیدکنندگان بازی ، فرصت هایی برای پیشنهادات درون بازی
  7. اجرای قانون [Wyllie, 2013] _ شناسایی افراد مرتبط با گروههای مشکل شناخته شده ، تعیین مکان افراد و گروهها

در بسیاری از سازمان ها ، پرونده اصلی تجزیه و تحلیل کلان داده ها بر اهداف مشتری محوری متمرکز است و از منابع داخلی موجود و تازه در دسترس داده استفاده می کند. تجزیه و تحلیل کلان داده ها می تواند به ویژه برای شرکت هایی مفید باشد که به دنبال درک بهتر مشتریان ، ایجاد روابط معنی دار با مشتریان و بهبود عملکردهایی هستند که تجربه مشتری را افزایش می دهند [Schroeck,Schockley, Smart, Romero-Morales and Tufano, 2012]. تمرکز هرچه باشد ، ابتکارهای موفقیت آمیز کلان داده ها باید با مجموعه ای از اهداف خاص یا بطور دقیق تعریف شده به جای رویکرد"آن را بسازید و آنها خواهند آمد" شروع می شوند [Miller, et al., 2012].

حمایت مالی قوی و متعهد

بدون حمایت گسترده مالی ، موفقیت در هر پروژه IT دشوار است ، و این شامل پروژه های تجزیه و تحلیل کلان داده ها است. اگر پروژه اداری باشد ، حمایت مالی می تواند در سطح اداری باشد. با این حال ، پروژه هایی که استراتژیک تر و با سرمایه ی گسترده تر هستند باید پشتیبانی مدیریت ارشد داشته باشد.

یک مطالعه IBM نشان داد که در مراحل اولیه پذیرش کلان داده ها ، افسر ارشد اطلاعات اغلب حامی مالی است ، اما با ایجاد زیرساخت های فناوری و شناسایی فرصت های شغلی ، حمایت مالی به سمت یک مدیر خاص برای عملکرد مانند افسر ارشد بازاریابی یا مدیر ارشد مالی یا حتی مدیرعامل [Schroeck et al., 2012] .

همسویی بین استراتژی تجارت و تجزیه و تحلیل

مهم است که مطمئن شوید پروژه های تجزیه و تحلیل کلان داده ها از استراتژی تجارت پشتیبانی می کنند. به همین دلیل است که بیشتر پروژه ها بیشتر به جای فناوری اطلاعات باید توسط تجار هدایت شوند. در سازمانهای مبتنی بر تجزیه و تحلیل ، همسویی بین تجزیه و تحلیل و تجارت به طور خاصی نزدیک است. در واقع ، ممکن است تفکیک استراتژی های تجارتی و تجزیه و تحلیل غیر ممکن باشد. بدون تجزیه و تحلیل به عنوان یک فعال کننده ، استراتژی کسب و کار نمی تواند موفق شود.

خرده فروشان آنلاین بزرگ مانند Amazon.com و Overstock.com نمونه های خوبی از سازمان های مبتنی بر تجزیه و تحلیل هستند [Watson, Hofer and Wixom, 2009b]. مشهورترین نمونه های تجزیه و تحلیل در محل کار ، توصیه های مربوط به کالاهایی است که هنگام استفاده مشتریان از وب سایت هایشان ظاهر می شود. پیشنهادها نتیجه موتورهای پیشنهادی است که عبارات جستجو شده ، کلیک قبلی ، تحلیل سبد خرید سایر خریداران ، در دسترس بودن و سودآوری محصولات مختلف و آنچه که خریدار در گذشته در نظر گرفته یا خریداری کرده است را در نظر میگیرد. چیزی که کم پیدا تر است اما به همان اندازه مهم است برنامه های هوش تجاری است که گزارش گیری، داشبورد / کارت امتیازی ، پیش بینی تقاضا، قیمت گذاری، تجزیه و تحلیل کالای برگشتی، تجزیه و تحلیل بخش بندی بازار، مدیریت کمپین و بهینه سازی موتور جستجو را شامل میشود.

در گفتگو با پاتریک بیرن ، مدیر عامل شرکت Overstock.com ، این سال مطرح شد: " شرکت خود را چگونه توصیف می کنید؟ " بیرن پاسخ داد ، " یک شرکت هوش تجاری (تجزیه و تحلیل). "[Byrne, 2009]. تو همچنین توضیح داد که شرکت وی به خاطر هوش تجاری پیاده سازی شده به مشکل خورده بود و به خاطر این مسئله هوش تجاری دوباره طراحی شد. پاسخ وی بیانگر اهمیت تجزیه و تحلیل برای موفقیت Overstock.com و نیاز به همسویی نزدیک بین تجزیه و تحلیل و استراتژی های IT است.

یک فرهنگ تصمیم گیری مبتنی بر واقعیت

برای بهره مندی از تجزیه و تحلیل کلان داده ها، تصمیمات باید بر اساس "واقعیت ها" (تولید شده توسط تجزیه و تحلیل) باشد و باید آزمایش مداوم انجام شود تا ببیند چه چیزی بهترین نتیجه را دارد. تغییر فرهنگ سازمانی مرتبط با نحوه تصمیم گیری می تواند چالش برانگیز تر از حل مسائل فنی باشد. این مسئله در moneyball دیده شده که تیم Oakland Athletics و مدیر کل بیلی بین روایت میکند که مدیر کل از تجزیه و تحلیل برای تصمیمات پرسنلی و دیگر تصمیمات بیسبال استفاده میکرد [Lewis, 2003;Miller, 2011]. آقای بینز مجبور بود بر اقتدار و نفوذ مخالفانی که سالها تجربه بیس بال داشتند ، غلبه کند تا رویکرد تحلیلی جدید خود را عملی کند. اکنون ، همه تیم های ورزشی مهم برای انواع تصمیمات ، مانند زمان تغییر یک امتیاز در فوتبال، به تجزیه و تحلیل متکی هستند.

هارا از طریق استفاده از تجزیه تحلیل و برنامه Total Reward Loyalty به یک رهبر در صنعت بازی تبدیل شد.[Watson and Volonino, 2000]. قبل از معرفی تجزیه و تحلیل ، تصمیمات معمولاً بر اساس "Harrahism" بود - عملکردهایی که به اعتقاد مدیران خوب کار می کردند. پس از آنکه تجزیه و تحلیل به عادی تبدیل شد ، تصمیمات باید براساس واقعیات باشد. امروز گفته شده است که سه چیز باعث می شود شما به سمت Harrah’s اخراج شوید: سرقت ، آزار جنسی و عدم تصمیم گیری براساس واقعیت ها.

برای ایجاد فرهنگ تصمیم گیری مبتنی بر واقعیت ، مدیریت ارشد می تواند چندین کار انجام دهد. اول ، تشخیص دهید که بعضی از افراد نمی توانند یا نمیخواهند تنظیم شوند باید جایگزین شوند. اولین شرکت آمریکایی ، یک بانک منطقه ای با دفتر مرکزی در نشویل ، تنسی ، دچار مشکل مالی شد و تیم مدیریت جدیدی را به همراه آورد [Cooper, Watson, Wixom and Goodhue, 2000]. پس از در نظر گرفتن چندین استراتژی ، مدیریت در مورد استراتژی صمیمیت مشتری تصمیم گرفت که در آن بانک از تجزیه و تحلیل برای درک خوب مشتریان خود و طراحی محصولات و خدمات متناسب با نیازها و ترجیحات مشتریان و همچنین افزایش سود بانکی استفاده کند. این استراتژی بسیار موفقیت آمیز بود ، اما برخی از افراد نتوانستند خود را با تغییر وفق دهند. پیش از رویکرد مبتنی بر تجزیه و تحلیل برای اداره بانک ، بخش بازاریابی از 12 نفر تشکیل شده بود. پس از آن ، هنوز 12 نفر بودند ، اما هیچ یک از افراد اصلی هنوز در بازاریابی مشغول نبودند. آنها یا به سمت های دیگری رفته بودند یا بانک را ترک کرده بودند. همانطور که مدیر عامل شرکت توضیح داد: "ایده آنها از بازاریابی گروه های متمرکز در حال اجرا بود اما نشانه گذاری بسیار تحلیلی شد.".

مدیریت ارشد می تواند کارهای دیگری برای تغییر فرهنگ انجام دهد. یک نظرسنجی توسط واحد اقتصادی اکونومیست [2012] نشان داد که بهترین راهکارها در ارتقا فرهنگ داده محور ، هدایت از بالا به پایین و یا مجوز از سوی مدیران ، ارتقا شیوه های اشتراک داده ، افزایش دسترسی به آموزش در تجزیه و تحلیل داده ها و ارتباطات مزایای تصمیم گیری مبتنی بر داده. سایر استراتژی های مدیریتی که در این نظرسنجی گنجانده نشده اند ، تاکید بر این است که باید روشهای منسوخ را متوقف کرد ، پرسش برای دیدن اینکه چه تحلیلی برای تصمیم گیری انجام می شود ، و پیوند دادن انگیزه ها و جبران خسارت به رفتارهای مطلوب.

یک زیرساخت داده قوی

داده ها برای هوش تجاری و تجزیه و تحلیل مهم هستند. وقتی یک زیرساخت داده قوی وجود دارد ، برنامه ها اغلب می توانند در چند روز ساخته شوند. بدون وجود زیرساخت قوی داده ، برنامه ها هرگز کامل نمی شوند. فناوری اطلاعات اهمیت زیرساخت داده را درک می کند ، اما واحدهای تجاری گاهی فرض می کنند که این داده ای است و آنچه را که برای ایجاد و نگهداری آن لازم است کاملاً درک نمی کنند.

پیشرفت تکنولوژی

در آغاز قرن ، شرکت ها برای ذخیره کلان داده ها در تلاش بودند. خوشبختانه ، پیشرفت در ذخیره سازی و قابلیت های پردازنده ، همه با هزینه کمتر ، امروز را به ارمغان آورد.

اهمیت ظهور معماری گسترده به این صورت بود که در آن صدها یا هزاران سرور کالاهای کم هزینه به طور موازی قرار می گیرند. هر سرور دارای چندین پردازنده مرکزی و حافظه پنهان بزرگ و مشترک است. داده ها در سرورها پخش می شوند و پردازش به صورت موازی انجام می شود. این روش اجازه می دهد تا مقدار زیادی از داده ها به سرعت ذخیره و تجزیه و تحلیل شوند. در صورت نیاز به قدرت ذخیره سازی و پردازش بیشتر ، سرورهای اضافی به این ساختار پردازش موازی انبوه (MPP) اضافه می شوند. بستر های های کلان داده به معماری مقیاس پذیر متکی هستند.

رم ها و ssd ها از دیگر پیشرفت های مهم فناوری هستند. هر کدام از آنها با ذخیره سازی داده ها در حافظه و نه درایوهای دیسک سخت ، زمان پاسخ را بهبود می بخشند. گلوگاه اصلی عملکرد (به عنوان مثال ، زمان پاسخ) مدت زمانی است که برای دسترسی و بازگشت داده ها از درایوهای دیسک لازم است. این فن آوری های جدید به شدت این مانع را کاهش می دهد.

نیاز به ذخیره و تجزیه و تحلیل کلان داده ها باعث ایجاد انواع فناوری ها ، رویکردها و بستر ها شده است. بسیاری از آنها مکمل یکدیگر هستند. توجه ویژه ای به Hadoop / MapReduce داده خواهد شد و این به خاطر توجهاتی که با ان میشود و اهمیت بالقوه آن است.

انبار های داده

برای بسیاری از سازمان ها انبار های داده یک نسخه واحد یا منبع از واقعیت برای داده های پشتیبانی تصمیم گیریشان فراهم میکند. داده ها از سیستم های منبع (به عنوان مثال ، سیستم های عملیاتی ، ERP) استخراج می شوند ، تبدیل می شوند (به عنوان مثال ، قالب های سازگار) ، یکپارچه می شوند (به عنوان مثال ، در اطراف یک کلید مشترک ، مانند شناسه مشتری) ، و در انبار داده بارگیری می شوند. می توان داده ها را بسیار تمیز دانست و این به دلیل مراقبت های انجام شده برای اطمینان از صحت آن است. کاربران و برنامه ها برای پشتیبانی از تصمیم گیری به داده های موجود در انبار دسترسی پیدا می کنند. انبارهای داده در درجه اول برای ذخیره سازی و تجزیه و تحلیل داده های ساختار یافته طراحی شده اند - یعنی داده ها به راحتی در ردیف ها و ستون های پایگاه داده های رابطه ای ذخیره می شوند. آنها از معماری MPP استفاده می کنند تا ظرفیت ذخیره سازی گسترده ، مقیاس پذیر و قابلیت های تحلیلی قدرتمندی را فراهم کنند. داده ها برای س سوالات ، گزارشگری ، پردازش تحلیلی آنلاین (OLAP) ، داشبورد / کارت های امتیازی ، تجسم داده ها و الزامات نظارتی و انطباق استفاده می شود. این روند برای تجزیه و تحلیل توصیفی اما همچنین از تجزیه و تحلیل پیش بینی و تجویزی پشتیبانی می کند.

چهار شرکت بزرگ BI - IBM ، Oracle ، SAP و Microsoft - محصولات انبار داده را ارائه می دهند ، مانند Teradata ، یک بازیگر مهم در انتهای بازار! .IBM و Teradata مشتری هایی با بزرگترین انبار داده در جهان دارند.

لوازم خانگی دیتا مارت

لوازم خانگی "یک پشته" یکپارچه از سخت افزار ، نرم افزار و ذخیره سازی را در یک "جعبه" واحد فراهم می کنند. برای پردازش سریع پرسش ها ، آنها از ابتدا ساخته شده اند. از لوازم خانگی می توان به روش های مختلفی استفاده کرد. به عنوان مثال ، آنها می توانند یک سیستم مستقل باشند که نیازهای یک سازمان کوچکتر یا یک بخش را برآورده می کند. یا ، می توان آنها را به انبار داده گره زد و از آنها برای تخلیه داده ها و برنامه های خاص استفاده کرد. برخی از شرکت ها از لوازم خانگی به عنوان "جعبه شن" برای توسعه و آزمایش برنامه های جدید قبل از انتقال آنها به انبار استفاده می کنند. برخی از لوازم خانگی برای ترکیب داده های بدون ساختار با استفاده از Hadoop / MapReduce طراحی شده اند. برخی دیگر برای برنامه های خاص مانند داده های خرده فروشی و سوابق داده های تماس در شرکت های ارتباط از راه دور تنظیم شده اند.

لوازم خانگی به طرق مختلف عملکرد بالایی دارند. آنها از معماری MPP استفاده می کنند و بسیار مقیاس پذیر هستند. برخی از آنها مانند Vertica دارای پایگاه داده هایی هستند که ستونی هستند و نه مبتنی بر سطر. برخی دیگر مانند Teradata از ssd برای ذخیره داده ها استفاده می کنند. و برخی دیگر ، مانند Tradata Aster، معماری Hadoop/MapReduce را در معماری خود ادغام می کنند.

بسیاری از مردم می گویند که محصولات انبار داده Teradata اولین لوازم خانگی بودند زیرا اولین سیستم های هدفمندی بودند که به طور خاص برای ذخیره و پردازش مقدار زیادی داده طراحی شده بودند ، اما این شرکت هرگز محصولات خود را به عنوان لوازم خانگی توصیف نکرد. اولین شرکتی که از اصطلاحات لوازم خانگی استفاده کرد ، Netezza (اکنون یک شرکت IBM است و اخیراً به IBM PureData برای تجزیه و تحلیل تغییر نام داده است) در اوایل دهه 2000 بود. امروزه ، تمام فروشندگان عمده هوش تجاری و همچنین شرکت های دیگر مانند HP (به عنوان مثال ، Vertica) و EMC (به عنوان مثال ، Greenplum) لوازم خانگی را ارائه می دهند.

جعبه های ماسه ای تحلیلی

تجزیه و تحلیل پیشرفته می تواند از نظر محاسباتی بسیار فشرده باشد و در هنگام رقابت برای منابع محاسباتی ، مشکلات عملکردی را برای تجزیه و تحلیل توصیفی مانند گزارشات و داشبورد ایجاد کند. Query manager ها (بخشی از RDBMS) می توانند با اولویت قرار دادن ترتیب پردازش پرس و جو ها یا query ها، به شما کمک کنند ، اما راه حل کاملی ارائه نمی دهند. رویکرد دیگر ایجاد یک جعبه ماسه تحلیلی است که در آن مدل ها می توانند با تجزیه و تحلیل پیشرفته "بدون" تاثیر بر کاربران دیگر "بازی" کنند.

جعبه های شنی می توانند واقعی یا مجازی باشند. با یک جعبه ماسه واقعی ، از یک سکوی جداگانه مانند لوازم خانگی استفاده می شود. داده های مربوط به جعبه ماسه از انبار داده تهیه می شوند و احتمالاً توسط داده های دیگری که مدل ساز ها اضافه می کنند ، افزوده می شوند. در یک جعبه شن مجازی ، بخشی از انبار داده با داده های مورد نیاز مدلسازان بارگیری می شود. انبار داده و جعبه شن در یک نرم افزار پایگاه داده قرار دارند اما به عنوان سیستم های جداگانه کار می کنند. یک جعبه ماسه مجازی به نرم افزار ذخیره اطلاعات نیاز دارد که از ایجاد و استفاده از آن پشتیبانی می کند.

تجزیه و تحلیل در حافظه

مانعی برای پاسخ سریع به درخواست ها زمان مورد نیاز برای یافتن داده ها روی دیسک و خواندن آنها در حافظه است. این زمان را می توان با استفاده از تجزیه و تحلیل در حافظه در جایی که داده ها در حافظه دسترسی تصادفی (RAM) ذخیره می شوند و نه در یک دیسک فیزیکی ، از 10 تا 1000 بار کاهش دهید [Read, 2013]. با این فناوری نیازی به صفحه بندی داده ها در داخل و خارج از حافظه دیسک نیست.

فناوری تحلیل در حافظه در دو حالت وارد شد یکی به این صورت که مستقیما روی یک بستر قرار گیرد و دیگری به عنوان یک ابزار از هوش تجاری. هنگامی که روی بستر اجرا می شود ، سرور داده ها را در حافظه ذخیره می کند و توسط ابزار BI به داده ها دسترسی پیدا می شود. SAP’s Hana نمونه ای از تجزیه و تحلیل حافظه در یک بستر است. برخی از ابزارهای BI دسکتاپ مانند QlikView با حفظ داده ها در حافظه رایانه رومیزی ، تجزیه و تحلیل حافظه را فراهم می کنند. حداکثر یک ترابایت داده می تواند در رایانه های دارای سیستم عامل 64 بیتی ذخیره شود. ابزارهای در حافظه هوش تجاری همچنین داده ها را بین دیسک (به عنوان مثال ، در انبار داده) و حافظه دسکتاپ محلی منتقل می کنند تا بیشترین استفاده از داده (به اصطلاح "داده داغ") در حافظه موجود باشد.

برخی از برنامه ها به ویژه برای تجزیه و تحلیل در حافظه مناسب هستند. به عنوان مثال ، با OLAP (که اغلب در گزارش ها و داشبورد / کارت امتیازی گنجانده می شود) ، کاربران می خواهند داده ها را "تکه تکه کنند" و از منظرهای مختلف به تجارت نگاه می کنند ، مانند مقایسه فروش سال گذشته و مکان های مختلف. هنگامی که همه داده ها در حافظه هستند ، این تجزیه و تحلیل می تواند به سرعت انجام شود،ارائه تجزیه و تحلیل با سرعت فکر کردن انسان.

همه ی برنامه ها نیاز به تجزیه و تحلیل در حافظه ندارند یا نیازی به آن ندارند. برخی از برنامه ها ، مانند تجزیه و تحلیل سبد بازار که به صورت هفتگی اجرا می شود یا برنامه هایی که به داده های بیشتری نیاز دارند تا آنچه که توسط فن آوری های حافظه فعلی ارائه می شود ، برای این تکنولوژی مناسب نیستند. در حالی که هزینه و قابلیت اطمینان فناوری تجزیه و تحلیل در حافظه همچنان در حال بهبود است، اما هنوز هم نسبتاً گران است و مستعد خرابی است.

تجزیه و تحلیل در حافظه

تغییری در حال وقوع است که کجا تجزیه و تحلیل انجام شود. در گذشته ، داده ها به یک سرور منتقل می شدند (فکر کنید یک جعبه شنی باشد) و تجزیه و تحلیل در آنجا انجام شد. روند این است که تجزیه و تحلیل را بخشی از نرم افزار پایگاه داده قرار دهیم تا نیازی به انتقال داده ها نباشد. با استفاده از این روش ، قابلیت های تجزیه و تحلیلی بخشی از نرم افزار پایگاه داده است. SAS ، پیشرو در ارائه نرم افزار پیشرفته تجزیه و تحلیل ، با Oracle و Teradata همکاری کرده است تا تجزیه و تحلیل SAS را در محصولات خود ادغام کند.

چندین تجزیه و تحلیل در پایگاه داده وجود دارد. اولا نیازی به سرور جداگانه ندارد. همچنین همه داده های انبار داده، نه فقط زیرمجموعه معمولی، را برای تجزیه و تحلیل در دسترس قرار می دهد. این دقت مدل را بهبود می بخشد. هنگامی که مدل نهایی ایجاد می شود ، می توان از آن به راحتی با داده های انبار استفاده کرد. به عنوان مثال ، ممکن است یک مدل پیش بینی کننده تمایل به خرید ایجاد شود و سپس می توان به مشتریان امتیاز داد تا ارزیابی کنند که چه کسی را در یک کمپین بازاریابی هدف قرار دهند.

پایگاه داده ستونی

از لحاظ تاریخی ، RDBMS سوابق را در سطرها ذخیره می کند ، همانطور که در شکل 3 نشان داده شده است. این برای ورود ، به روزرسانی و حذف رکورد ها بسیار کارآمد است. با این وجود ، برای تجزیه و تحلیل که فقط چند ستون لازم است ، کارایی کمتری دارد (به عبارت WHERE در پرس و جو SQL فکر کنید) و جدول شاید صدها ستون دارد.

در پاسخ ، Sybase IQ (اکنون یک شرکت SAP است) در اواسط دهه 1990 اولین پایگاه داده ستونی را ارائه می دهد که سطرها و ستون ها را معکوس می کند ، همانطور که در شکل 3 نشان داده شده است. این روش سرعت پردازش بیشتری را برای پرس و جو ها و فرصتهای فشرده سازی داده فراهم می کند. یک پایگاه داده ستونی RDBMS است ، اما با ردیف ها و ستون ها معکوس است. پایگاه های داده ای ستونی توسط Vertica و ParAccel برنامه های خود و به وسیله Teradata در انبار داده ها و لوازم خود استفاده می شود.

موتورهای جریان و پردازش رویداد پیچیده (CEP)

ما در حال ورود به "اینترنت اشیا" هستیم که در آن دستگاه هایی مانند اتومبیل و کنتورهای برق به طور خودکار داده ها را از طریق اینترنت ارسال می کنند [Chui, Loffler, and Roberts, 2010]. برای مشاغل ، دریافت این داده ها ، پردازش آنها در زمان واقعی و اقدام فوری ارزش دارد. برنامه های با مشخصات بالا، تجارت خودکار سهام ، شناسایی تقلب در کارت های اعتباری ، مدیریت زنجیره تأمین و نظارت بر تجهیزات شامل میشوند.

موتورهای جریان و پردازش رویدادهای پیچیده (CEP) مانند Tibco StreamBase و BusinessEvents با مصرف مقادیر زیادی داده در زمان واقعی ، اطلاعات مداوم را فراهم می کنند. دسترسی به داده های تاریخی از پایگاه داده ها ، لوازم خانگی و انبارهای داده با کارایی بالا ؛ انجام محاسبات و همبستگی ها شناسایی الگوها و ناهنجاری ها. استفاده از قوانین تجارت در جریان داده های ورودی ؛ تهیه اطلاعات به کاربران ؛ و خودکار تصمیم گیری با پردازش رویداد جریان ، تنها یک منبع داده وجود دارد ؛ با CEP چندین منبع وجود دارد [Eckerson, 2011].

نظارت بر کارت اعتباری مثال خوبی از یک برنامه پخش جریانی را ارائه می دهد. یک اتفاق متقلبانه متداول ، کارت 5 دلاری بنزین در یک فروشگاه رفاهی است (دیدن کارت اعتباری خوب است) و پس از آن خرید هزاران دلار تجهیزات الکترونیکی در یک فروشگاه بزرگ. با شناسایی این جریان ، پرسنل فروشگاه از احتمال کلاهبرداری مطلع می شوند.

خدمات مبتنی بر ابر

ابر اکنون در جریان اصلی علم رایانه است. با استفاده از ابر ، منابع محاسباتی مجازی شده و به عنوان یک سرویس از طریق اینترنت ارائه می شوند. از مزایای بالقوه ابر می توان به دسترسی به منابع تخصصی ، استقرار سریع ، راحتی افزایش ظرفیت، امکان قطع سرویس ابری در صورت عدم نیاز به دیگر خدمات ، صرفه جویی در هزینه و پشتیبان گیری و بازیابی خوب اشاره کرد. همین مزایا ابر را برای کلان داده و تجزیه و تحلیل جذاب می کند.

خدمات مبتنی بر ابر به اشکال مختلفی ارائه می شوند. ابرهای عمومی توسط ارائه دهندگان شخص ثالث ارائه می شوند و ابرهای خصوصی در فایروال یک شرکت پیاده سازی می شوند. نگرانی در مورد امنیت داده دلیل اصلی این است که ابرهای خصوصی گاهی اوقات بر ابرهای عمومی ترجیح داده می شوند. ما درباره ابرهای عمومی بحث خواهیم کرد - اگرچه از همین روشها و فناوریها با ابرهای خصوصی نیز استفاده می شود.

سرویس های ابری بسته به نوع نرم افزار ارائه شده به صورت نرم افزار به عنوان سرویس (SaaS) ، پلتفرم به عنوان سرویس (PaaS) یا زیرساخت به عنوان سرویس (IaaS) در دسترس هستند.سرویس های ابری از این نظر هستند که داده های یک شرکت در ابر بارگذاری می شوند ، ذخیره می شوند و مورد تجزیه و تحلیل قرار می گیرند و نتایج برای کاربران و برنامه ها بارگیری می شود.

با SaaS ، فروشنده سخت افزار ، نرم افزار کاربردی ، سیستم عامل و فضای ذخیره سازی را فراهم می کند. کاربر داده ها را بارگذاری می کند و یا از نرم افزار کاربردی استفاده میکند و یا برنامه ای را توسعه می دهد (به عنوان مثال گزارش ها) یا به سادگی پردازش داده ها را با استفاده از نرم افزار انجام می دهد (به عنوان مثال ، امتیازدهی اعتبار). بسیاری از ارائه دهندگان تجزیه و تحلیل هوش تجاری ورژن ابری نرم افزار هایشان را پیشنهاد میدهند این شرکت ها عبارتند از : Cognos, Business Objects, MicroStrategy و SAS. نرم افزار به جای سرویس (SaaS) به ویژه برای شرکت هایی که از نظر منابع مالی یا انسانی کافی برای اجرای و نگهداری نرم افزار و برنامه های داخلی ندارند ، یک گزینه جذاب است.

فرق بین PaaS و SaaS این است ارائه دهندگان خدمات ابری نرم افزار را برای ساخت یا اجرای برنامه های خاص ارائه نمی دهد و این به شرکت بستگی دارد. فقط بستر اصلی فراهم شده است. از مزایای این روش می توان به عدم حفظ زیرساخت های محاسباتی برای برنامه های توسعه یافته اشاره کرد. دسترسی به زیرساخت قابل اعتماد و بسیار مقیاس پذیر ؛ چابکی بیشتر در توسعه برنامه های جدید. و صرفه جویی در هزینه های احتمالی. نمونه هایی از PaaS شامل Oracle Cloud Computing ، Microsoft Windows Azure و Google App Engine است.

با IaaS ، فروشنده قدرت محاسبه و ذخیره سازی خام را فراهم می کند. نه سیستم عامل و نه نرم افزار کاربردی گنجانده نشده است. مشتریان تصویری را بارگذاری می کنند که شامل برنامه و سیستم عامل است(اشاره به VMotion و upload یک virtual machine دارد). از آنجا که مشتری سیستم عامل را ارائه می دهد ، از سیستم های مختلفی می توان با برنامه های مختلف استفاده کرد. پیشنهادات فروشندگان IaaS شامل Amazon EC2 (بخشی از پیشنهادات خدمات وب آمازون) ، Rackspace و Google Compute Engine است.

چندین مثال جالب از سرویس های مبتنی بر ابر را در نظر بگیرید که شامل کلان داده ها است. آمازون، Amazon RedShift را در بهار 2013 به عنوان پیشنهادی در سرویس های وب آمازون (AWS) معرفی کرد. RedShift کار راه اندازی و راه اندازی انبار داده در فضای ابری را مدیریت می کند. هنگامی که انبار داده در محل قرار گرفت ، می توان از طریق query های SQL و برنامه های تحلیلی به داده ها دسترسی داشت. آنچه به ویژه جالب توجه است ، هزینه است - ذخیره ترابایت داده فقط 1000 دلار در سال است [Imhoff 2013]. همچنین در سال 2013 ، Jaspersoft ، یک پیشگام فروشنده منبع باز BI ، BI Professional را برای AWS پیشنهاد داد [Kavanagh, 2013]. این سرویس مبتنی بر ابر به راحتی تنظیم می شود ، هزینه آن کمتر از 1 دلار در ساعت است ، شامل اتصال به RedShift است و می توان آن را شروع ، متوقف و دوباره راه اندازی کرد.

مثال دوم zynga را شامل می شود، یک پیشگام در بازی های آنلاین اجتماعی با بازی هایی مثل FarmVille و Mafia Wars و همین اخیرا Candy Crush Saga. شرکت Zynga نمونه ای غیرمعمول اما موثر از یک تجارت مبتنی بر راهبرد یا استراتژی ابر ارائه می دهد [Babcock, 2011]. اکثر شرکت ها از ابر به عنوان مرکز داده خود استفاده می کنند و در صورت بیش از ظرفیت ذخیره سازی داده های داخلی ، کار را به ابر منتقل می کنند. Zynga به دلیل ماهیت صنعت بازی های آنلاین ، این استراتژی را برعکس می کند.

هنگامی که یک بازی جدید معرفی می شود ، عدم اطمینان زیادی در مورد جذب تعداد بازیکنان وجود دارد. در صورت محبوب شدن سریع بازی ، داشتن ظرفیت کافی مهم است. اگر Zynga برای تقاضا آماده نباشد ، بازیکنان خود را از دست میدهد. به همین دلیل ، Zynga بازی هایی را در زیرساخت Amazon2 EC2 به عنوان سرویس راه اندازی می کند و تنها پس از درک تقاضا ، بازی در داخل ZCloud شرکت Zynga وارد می شود. در یک زمان ، ترکیب Zynga از آمازون EC2 و Z Cloud به صورت 80/20 بود ، اما این به 20/80 تغییر یافته است زیرا Zynga آموخته است که چگونه از یک ابر که به طور سفارشی طراحی شده است بهره برداری کند تا نیازهای خاص خود را بدست آورد [Babcock, 2013].

بازی آنلاین بسیار وابسته به کلان داده ها و تجزیه و تحلیل است [Rudin, 2010]. شرکت Zynga حجم عظیمی از داده ها را جمع آوری می کند. هر روز بیش از 60 میلیون نفر بازی می کنند و هر کلیک ماوس ضبط می شود. مانند اکثر کلان داده ها ، تنها بخش کوچکی از داده ها شایسته ذخیره و تجزیه و تحلیل طولانی مدت هستند. هشدارها در عرض چند دقیقه ارسال می شوند که مشکلی از قبیل پایین آمدن بازی برای گروهی از بازیکنان وجود داشته باشد. گزارش هایی تولید می شود که شاخص های نمایشی مانند تعداد بازیکنان ، تعداد زیادی از آنها که امروز در آن ثبت نام کرده اند ، تعداد دفعات بازی آنها ، تعداد بازیکنانی که در 30 روز اخیر بازی نکرده اند و میزان درآمد تولید شده (تقریباً همه از خرید کالاهای مجازی) برای هر بازی. طراحان بازی به صورت هفتگی در بازی ها تغییراتی ایجاد می کنند و تحلیلگران با آنها کار می کنند تا نحوه جذابیت و سودآوری بیشتر بازی را بررسی کنند.

سایر شرکت های بازی سازی هم از ابزار تجزیه و تحلیل کلان داده ها استفاده می کنند. به عنوان مثال ، EA دریافت که 80٪ بازیکنانی که نارنجک خریده اند (یک کالای مجازی) در بازی محبوب Battlefield 3 خود را منفجر کردند [Cifio and Meley, 2011]. این برای بازیکنان یا برای فروش کالاهای مجازی جالب نبود. در پاسخ ، EA ایمیل های آموزشی را در مورد نحوه استفاده از نارنجک و بازخورد به سازندگان بازی در مورد این مشکل با بازی ارسال کرد.

پایگاه های غیر رابطه ای (NoSQL)

پایگاه های داده رابطه ای از دهه 1970 تاکنون یک پایه اصلی محاسبات بوده اند. داده ها در ردیف ها و ستون ها ذخیره می شوند و از طریق SQL queries می توان به آنها دسترسی داشت. در مقابل ، پایگاه داده های غیر رابطه ای - NoSQL - نسبتاً جدید هستند (1998) ، می توانند داده های هر ساختاری را ذخیره کنند و برای بازیابی داده به SQL اتکا ندارند اگر چه برخی از ان ها از SQL پشتیبانی میکنند ام بهتر است پایگاه داده های نه فقط SQL ای صدا زده شوند. داده هایی مانند XML ، متن ، صدا ، فیلم ، تصویر و پرونده های اسناد خاص برنامه اغلب "همانطور که هست" ذخیره و بازیابی می شوند از طریق جفت های مقدار کلید که از کلیدها برای ارائه پیوندهایی به محل ذخیره سازی پرونده ها روی دیسک استفاده می کنند. پایگاه داده های غیر SQL تخصصی وجود دارد که برای انواع خاصی از داده ها مانند اسناد و نمودارها طراحی شده اند و از روش های ذخیره سازی و بازیابی خود استفاده می کنند. پایگاه داده غیر رابطه ای مانند Apache Cassandra ، MongoDB و Apache Couchbaset تمایل دارند که منبع باز باشند. ذخیره داده ها در یک مقیاس گسترده ، معماری توزیع شده. و روی سرورهای ارزان قیمت کالا کار کنید. Hadoop / MapReduce که در ادامه بحث خواهد شد ، یکی از نمونه های پایگاه داده غیر رابطه ای است. از آنجا که پایگاه های داده غیر رابطه ای غالباً نسبتاً جدید و منبع باز هستند ، به اندازه RDBMS مستقر پشتیبانی نمی شوند. آنها همچنین از نظر امنیتی ضعیف تر هستند ، که می تواند مفید بودن آنها را برای برخی از برنامه ها مانند برنامه های مالی محدود کند.

Hadoop / MapReduce

از بین همه سیستم عامل ها و رویکردهای ذخیره سازی و تجزیه و تحلیل کلان داده ها ، هیچ یک بیشتر از Hadoop / MapReduce مورد توجه قرار نگرفته اند. ریشه آن به اوایل دهه 2000 برمی گردد ، زمانی که کمپانی هایی مانند google ، yahoo و facebook به توانایی ذخیره و تجزیه و تحلیل مقادیر زیادی داده از اینترنت نیاز داشتند. از آنجا که هیچ راه حل تجاری در دسترس نبود ، این شرکت ها و شرکت های دیگر مجبور شدند که راه حل های خود را توسعه دهند.

برای توسعه Hadoop / MapReduce شرکت های Doug Cutting و Mike Cafarella مهم بودند ، که در حال کار بر روی یک پروژه موتور منبع باز وب به نام Nutch بودند که google مقالاتی را در Google File System در سال 2003 و MapReduce در سال 2004 منتشر کرد. Cutting و Cafarella تحت تاثیر google مفاهیم را در Nutch گنجاندند. Cutting که خواهان فرصت های بیشتر برای ادامه کار خود بود ، برای yahoo کار کرد ، که پروژه های کلان داده ها خود را در دست اجرا داشت. با پشتیبانی yahoo شرکت Cutting, پروژه Hadoop به عنوان یک پروژه بنیاد نرم افزار Apache منبع باز ساخته شده شد [Harris, 2013].

نرم افزار Apache Hadoop یک framework نرم افزاری برای پردازش مقادیر زیادی داده در سرتاسر مجموعه های موازی سرور است. برای مثال ، yahoo بیش از 42000 سرور در نصب Hadoop دارد. Hadoop منبع باز است و می توانید آن را در www.apache.org دانلود کنید. مولفه اصلی Hadoop ، سیستم پرونده توزیع شده Hadoop یا (HDFS) است که داده های پخش شده در سرورهای مختلف را مدیریت می کند. به دلیل HDFS است که می توان بسیاری از سرورها را به طور موازی مدیریت کرد. HDFS مبتنی بر پرونده است و برای ذخیره و پردازش داده ها نیازی به مدل داده ندارد. این می تواند داده های هر ساختاری را ذخیره کند ، اما RDBMS نیست. HDFS می تواند ذخیره سازی و دسترسی به هر نوع داده ای را مدیریت کند (به عنوان مثال ، وبلاگ ها مربوط به وب ، فایلهای XML) تا زمانی که داده ها در یک فایل قرار گیرند و در HDFS کپی شوند.

زیرساخت Hadoop معمولاً برنامه های MapReduce (با استفاده از زبان برنامه نویسی یا اسکریپت مانند Java ، Python ، C ، R یا Perl) را به طور موازی اجرا می کند. MapReduce مجموعه کلان داده های را می گیرد ، داده های مفید را استخراج و تبدیل می کند ، داده ها را در سرورهای مختلفی که پردازش انجام می شود توزیع می کند و نتایج را در یک پرونده کوچکتر و با تجزیه و تحلیل آسان تر جمع آوری می کند. این به خودی خود تجزیه و تحلیل انجام نمی دهد. بلکه framework را فراهم می کند که برنامه هایی را کنترل می کند (اغلب به زبان جاوا نوشته می شوند) که تجزیه و تحلیل را انجام می دهند. در حال حاضر ، مشاغل فقط به صورت دسته ای قابل اجرا هستند که استفاده از Hadoop / MapReduce را برای برنامه های نزدیک به زمان واقعی محدود می کند. اگرچه درباره Hadoop و MapReduce بحث شده و به طور معمول با هم استفاده می شود ، اما می توان آنها را جداگانه استفاده کرد. یعنی می توان از Hadoop بدون MapReduce و بالعکس استفاده کرد. شکل 4 نحوه پردازش با Hadoop / MapReduce را نشان می دهد [van Groningen, 2009]. این یک کار پردازشی ساده است که با SQL و RDBMS نیز قابل انجام است ، اما نمونه خوبی از پردازش Hadoop / MapReduce را ارائه می دهد. در سمت چپ یک پرونده داده با سوابق حاوی گوزن ، خرس ، رودخانه و ماشین وجود دارد. هدف این است که تعداد دفعات بروز هر کلمه را حساب کنید. اولین قدم تقسیم سوابق و توزیع آنها در سرتاسر خوشه های سرورها است (در این مثال ساده فقط سه مورد وجود دارد). سپس این تقسیم ها توسط چندین برنامه نقشه مانند Java و R در سرورها پردازش می شوند. هدف در این مثال گروه بندی داده ها بر اساس تقسیم بر اساس کلمات است. سپس سیستم MapReduce نتایج مختلط / مرتب سازی را برای ورود به برنامه کاهش ادغام می کند ، و سپس تعداد دفعات بروز هر کلمه را خلاصه می کند. سپس این خروجی می تواند به یک انبار داده وارد شود که در آن ممکن است با داده های دیگر برای تجزیه و تحلیل ترکیب شود یا به طور مستقیم توسط ابزارهای مختلف هوش تجاری (به عنوان مثال ، Tableau ، MicroStrategy) به آنها دسترسی پیدا شود.


بسیاری از پروژه های مرتبط Apache بخشی از اکوسیستم Hadoop هستند. به عنوان مثال ، Pig یک زبان برنامه نویسی پردازش موازی سطح بالا است که برای نوشتن برنامه های MapReduce برای اجرا در framework پروژه Hadoop استفاده می شود. HBase یک پایگاه داده ستونی توزیع شده است که به Hadoop گزینه ذخیره داده برای جداول بزرگ را می دهد. Hive برای پرس و جوهای مشابه SQL و جمع بندی داده ها استفاده می شود. Mahout کتابخانه ای از الگوریتم های داده کاوی برای خوشه بندی ، طبقه بندی و فیلتر است. در مجموع ، این پروژه ها و سایر پروژه های Apache مجموعه ای از قابلیت های رو به رشد را برای پردازش و تجزیه و تحلیل کلان داده ها فراهم می کنند. پروژه های خاص (به عنوان مثال ، قسمت هایی از اکوسیستم Hadoop) که اجرا میشوند ، به برنامه های در نظر گرفته شده بستگی دارند و هوش تجاری یا پشته تحلیلی را تشکیل می دهند. اگرچه می توانید Apache Hadoop و سایر قسمت های اکوسیستم را به صورت رایگان بارگیری کنید ، یک مشاور گفت: "این مانند بارگیری کیسه ای پر از تیغ است." پروژه های مختلف مستقل هستند و اغلب از قابلیت های رقابتی ، برنامه های جداگانه برای انتشار برخوردارند و به خوبی ادغام نشده اند. به همین دلیل ، شرکتهایی مانند Cloudera ، Hortonworks (spinoff Yahoo!) و MapR نرم افزاری را نوشتند و ارائه می دهند که بخشهای مختلف را ادغام می کند. قابلیت های اضافی و ابزارهای اداری را فراهم کنید. و خدمات مشاوره ای ، آموزش و پشتیبانی را ارائه دهید.

شرکت ها از Hadoop / MapReduce به سه روش عمده استفاده می کنند [Eckerson, 2011]. یکی این است که شرکت ها بخاطر ظرفیت ذخیره سازی قابل ارتقا و هزینه پایین ، Hadoop را به عنوان بایگانی آنلاین استخدام کنند. ثانویه به عنوان یک سیستم منبع برای یک انبار داده. در این شرایط ، Hadoop / MapReduce داده های هر ساختاری را پردازش می کند و سپس پرونده خروجی را به انبار داده منتقل می کند و در آنجا می تواند همراه با داده های دیگر تجزیه و تحلیل شود. با استفاده از این ، Hadoop / MapReduce یک انبار داده را تکمیل می کند. سومین کاربرد یا برنامه های MapReduce یا ابزار تجزیه و تحلیل داده ها این است که با فایل خروجی کار می کنند تا برای تجزیه و تحلیل داده ها استفاده شود. این استفاده اخیر در حال رشد است زیرا فروشندگان این فرصت را می بینند که از تمایل شرکت ها برای تجزیه و تحلیل داده های نیمه ساختاری و غیره استفاده کنند.

در نظر گرفته شده است که Hadoop مقاومت در برابر خطا دارد. داده ها همیشه در سه سرور جداگانه تکرار می شوند و اگر گره ای خراب شود ، در دسترس نباشد یا به کندی انجام شود ، گره دیگری پردازش داده ها را بر عهده می گیرد. وقتی سروری بازیابی می شود یا به آن اضافه می شود ، سیستم به طور خودکار آن را تشخیص داده و اضافه می کند. یک نقطه ضعف NameNode است که درخت شاخه تمام پرونده ها را در سیستم فایل نگهداری می کند و در آن قسمت از خوشه داده های پرونده نگهداری می شود. در صورت عدم موفقیت ، خوشه Hadoop را پایین می آورد [Russom, 2013].

با گذشت زمان ، استفاده از Hadoop / MapReduce آسان تر خواهد شد زیرا انواع مختلفی از فروشندگان منبع باز و تجاری محصولات پیشرفته و مکمل را معرفی می کنند. به عنوان مثال ، فروشندگان برجسته ابزار هوش تجاری مانند MicroStrategy و Tableau محصولات خود را گسترش داده اند تا مستقیماً با Hadoop / MapReduce کار کنند و فروشندگان جدیدی مانند Datameer ظهور کرده اند. نرم افزار Datameer به طور خاص برای کار با Hadoop طراحی شده است و از تلفیق داده ها ، تجزیه و تحلیل ها و تجسم داده ها پشتیبانی می کند. از قابلیت های تحلیلی داخلی آن می توان به تجزیه و تحلیل وب ، امتیازدهی پیش بینی ، تحلیل رفتاری ، خوشه بندی ، درخت تصمیم گیری ، تجزیه و تحلیل وابستگی ستون و موتور توصیه اشاره کرد.

کدام بستر بهترین است

عبارت "کورس برای اسب" به این معنی است که برخی از اسب ها در انواع خاصی از پیست ها عملکرد بهتری دارند (به عنوان مثال کوتاه / بلند ، خشک / مرطوب) نسبت به دیگران. این مورد در مورد تجزیه و تحلیل کلان داده نیز صدق می کند. برخی از انواع کارها در برخی از سیستم عامل ها بهتر از برخی دیگر انجام می شود. به عنوان مثال ، گزارش و داشبورد / کارت امتیازی معمولاً به داده های انبار متکی هستند ، زیرا داده های "تمیز پاک" در آنجا ذخیره شده است.

هیچ فرمولی برای انتخاب بستر های مناسب وجود ندارد. با این حال ، مهمترین ملاحظات شامل حجم ، سرعت و تنوع داده است. برنامه هایی که از پلت فرم استفاده می کنند. کاربران چه کسانی هستند و اینکه آیا پردازش مورد نیاز بصورت دسته ای است یا زمان واقعی است. برخی کارها ممکن است نیاز به استفاده یکپارچه از چندین بستر داشته باشند. انتخاب های نهایی در نهایت به جایی برمی گردد که بتوان کار مورد نیاز را با کمترین هزینه انجام داد.

ادغام بستر های مختلف

تعداد فزاینده ای از سازمان ها از چندین بستر برای درک ارزش داده های کلان استفاده می کنند. اینکه چه سیستم عامل هایی اضافه می شوند بستگی به سیستم عامل ها ، برنامه هایی که از سیستم عامل ها استفاده می کنند و بلوغ سازمان در کار با سیستم عامل های مختلف بستگی دارد. به عنوان مثال ، ممکن است یک شرکت برای بارگیری برخی از برنامه های کاربردی محاسباتی (به عنوان مثال ، تجزیه و تحلیل های پیش بینی شده و تجویز شده) از یک انبار داده ، دستگاهی اضافه کند. یا ممکن است برای برنامه های خاص (به عنوان مثال ، تجسم داده ها و تجزیه و تحلیل ها) به SaaS تبدیل شود.

در بسیاری از سازمان ها ، یک مسیر تکاملی با ادغام بیشتر سیستم عامل ها در طول زمان وجود دارد. به عنوان مثال ، Hadoop / MapReduce ممکن است در ابتدا به صورت جداگانه برای سیستم های مبتنی بر RDBMS اجرا شود. به دلیل جدید بودن ، شرکت ها اغلب می خواهند این فناوری و ارزش بالقوه آن را آزمایش کنند. این خوب است ، Hadoop / MapReduce برای کارهایی که به بهترین وجه انجام می شود کار می کند. با این حال ، معمولاً آشکار می شود که تجزیه و تحلیل همه داده ها با هم ارزش زیادی دارد. به عنوان مثال ، مفید است که بتوانید نه تنها به آمار فروش بلکه به آنچه مشتریان در مورد محصولات می گویند نگاه کنید ، و این امر احتمالاً با استفاده از Hadoop / MapReduce به عنوان یک سیستم منبع برای انبار داده ، به بهترین وجه انجام می شود.

باید تعامل و همکاری سریع و بی نقص بین بستر های مختلف وجود داشته باشد. به عنوان مثال ، گزارشی که روی یک سیستم عامل اجرا می شود باید منعکس کننده گزارشی باشد که روی یک سیستم عامل دیگر اجرا می شود. یعنی داده ها باید همگام سازی شوند. تجزیه و تحلیل انجام شده بر روی یک بستر تخصصی باید بتواند به اطلاعات موجود در انبار داده (که یک سیستم منبع برای یک بستر تخصصی مانند Hadoop / MapReduce است) دسترسی داشته باشد. در صورت نیاز ، نتایج تجزیه و تحلیل بر روی یک بستر تخصصی باید در انبار داده ذخیره شود (بستر تخصصی یک سیستم منبع برای انبار است). فروشندگان اهمیت ادغام قطعات را درک می کنند و از راه حل های نرم افزاری برای انجام این کار استفاده می کنند. به عنوان مثال ، Teradata در حال حاضر بر معماری یکپارچه داده خود که خانواده محصولاتش را به هم پیوند میدهد ، تأکید دارد. با این حال ، این یکپارچه سازی شامل سیستم عامل های غیر Teradata نیست.

استفاده از زبانهای جستجوی SQL و SQL مانند یک روند مهم برای ادغام بستر های مختلف است و در نهایت ممکن است پایه و اساس ایجاد سیستم های منطقی منفرد باشد. SQL یک زبان پرسشی قدرتمند است که توسط بسیاری از متخصصان IT و هوش تجاری به خوبی شناخته شده است. بسیاری از شرکت هایی که Hadoop / MapReduce را اجرا می کنند به سرعت به Hive و زبان HiveQL آن روی می آورند زیرا افرادی که SQL را می دانند به سرعت آن را فرا می گیرند. بستر های نرم افزاری و همچنین فروشندگان ابزار هوش تجاری به سرعت در حال تکامل محصولات خود هستند تا بتوانند داده های هر ساختاری را با هم ترکیب کنند و با استفاده از برخی از انواع SQL به آنها دسترسی و تجزیه و تحلیل کنند.

شکل 5 نحوه ادغام و استفاده از سیستم عامل های مختلف را نشان می دهد. خط از وسط شکل آنچه را که اکرسون [2011] معماری از بالا به پایین و پایین به بالا می نامد تقسیم می کند. بالا معماری هوش تجاری سنتی است ؛ پایین معماری کلان داده جدید است. کاربران عادی - یعنی کاربران تجاری - از ابزارهای هوش تجاری برای دسترسی به گزارش ها ، داشبورد / کارت های امتیازی و تجسم داده ها اساساً بر اساس داده های ساختار یافته در داده ها و انبار (و موتورهای جدید ، جریان / CEP) استفاده می کنند. کاربران حرفه ای - تحلیلگران ، دانشمندان داده ها - به طرق مختلف ، از جمله SQL و میز کار تحلیلی ، به طیف گسترده ای از منابع داده ، از جمله کلان داده ها ، در سیستم عامل های مختلف دسترسی پیدا می کنند.

توجه داشته باشید که Hadoop و انبار داده با هم وجود دارند. یکی جایگزین دیگری نیست [Russom، 2013]. هر یک برای انواع خاصی از داده ها و وظایف پردازش بهترین است و مکمل یکدیگر هستند.


ابزارهای درست تجزیه و تحلیل

اگرچه فروشندگان هوش تجاری سنتی ادعا می کنند ابزارهایشان از داده کاوی / تجزیه و تحلیل پیش بینی کننده پشتیبانی می کند ، این همیشه درست نیست. برش دادن و ریز کردن داده ها و تجسم داده ها داده کاوی نیستند. داده کاوی نیاز به ابزاری دارد که الگوریتم ها و فرآیندهایی را در بر داشته باشد که به طور خاص برای یافتن روابط پنهان در داده ها طراحی شده اند.

شرکت های SAS و SPSS (اکنون یک شرکت IBM است) با محصولی مانند SAS Enterprise Miner و IBM SPSS Modeler از مدت ها پیش در این فضا پیشرو بوده اند. هر محصول یک میز کار فراهم می کند که در آن فرایند تجزیه و تحلیل با استفاده از یک رابط بصری کشیدن و رها کردن طراحی می شود و اجرای فرایند توسط میز کار به صورت خودکار انجام می شود. محبوب ترین ابزار برای داده کاوی R است ، یک زبان برنامه نویسی و محیط نرم افزاری برای محاسبات آماری و گرافیکی است. این همچنین در هسته بسیاری از محصولات منبع کاوی منبع باز است.

اکسل مدت زیادی است که توسط فروشندگان هوش تجاری نادیده گرفته می شود اما همچنان بین کاربران و تحلیلگران تجارت بسیار محبوب است ، از جمله برای استفاده با کلان داده ها [Healy, 2012]. اکسل می تواند یک میلیون ردیف داده را اداره کند ، می تواند تقریباً از هر پایگاه داده یا محصول هوش تجاری داده تهیه کند و دارای ویژگی های تحلیلی افزونه بومی یا شخص ثالث قدرتمند است. این افزونه ها شامل PowerPivot (برای قابلیت های پیشرفته جدول محوری) و داده کاوی (که به سرور SQL نیاز دارد) از مایکروسافت و Analyze-IT (برای آمار) ، Excellent Analytics (برای وارد کردن داده های تجزیه و تحلیل وب از Google Analytics) و Unistat ( برای آمار).

افرادی که در استفاده از تجزیه و تحلیل مهارت دارند

آخرین مورد برای موفقیت در تجزیه و تحلیل کلان داده ها ، داشتن افراد با مهارت های لازم است. در نظر گرفتن یک زنجیره از کاربران تجزیه و تحلیل ، که در یک انتهای کاربران ، تحلیلگران در وسط و دانشمندان داده در انتهای دیگر متصل می شود ، همانطور که در شکل 6 نشان داده شده است ، مفید است [Watson, 2013a]. هر گروه در مورد کار با کلان داده، از جمله ترکیبی از تخصص کسب و کار ، داده ها و تجزیه و تحلیل ، به مهارت های مختلفی نیاز دارد.

کاربران تجاری از طریق گزارش ها ، OLAP ، داشبورد / کارت های امتیازی و ابزارهای تجسم داده به اطلاعات مربوط به کلان داده ها دسترسی پیدا می کنند. آنها مصرف كننده اطلاعات هستند تا سازنده اطلاعات. دو چیز در مورد تجزیه و تحلیل کلان داده ها در مقایسه با تجزیه و تحلیل به طور کلی برجسته است. اولین مورد ، توانایی تجزیه و تحلیل و نمایش انواع اطلاعات بیش از هر زمان دیگری است. به عنوان مثال ، به مدیران ناوگان در Xpress ایالات متحده فکر کنید که شرایط کامیون های خود را در iPad ها کنترل می کنند و در صورت لزوم داده های حسگر ، آنها را برای سرویس هدایت می کنند. دوم توانایی تهیه زمینه اضافی برای تصمیم گیری از طریق ترکیب اطلاعات از چندین منبع است. برای توضیح ، به جای ارائه داده های فروش در مورد یک محصول جدید ، می توان آنچه را که مصرف کنندگان در مورد آن می گویند تجزیه و تحلیل کرد ، همانطور که قبلا در مثال استارباکس نشان داده شده است.

کاربران کسب و کار باید دانش دامنه تجاری گسترده ای داشته و پتانسیل تجزیه و تحلیل کلان داده ها را درک کنند. آنها باید بفهمند چه داده ای موجود است و بتوانند به آن دسترسی پیدا کنند ، آنها را به روشهای ساده دستکاری کنند و از آنها برای ایجاد ارزش تجاری استفاده کنند. نیازی نیست که آنها در جزئیات الگوریتم ها و مدل های مورد استفاده برای تجزیه و تحلیل کلان داده ها متخصص باشند.

دو دسته عمده تحلیلگران وجود دارد. تحلیلگران هوش تجاری بخشی از هوش تجاری یا بخش تجزیه و تحلیل هستند و در کل سازمان کار می کنند. از طرف دیگر ، تحلیلگران تجارت در یک واحد تجاری مانند بازاریابی کار می کنند و کارهای تجزیه و تحلیل خود را در آنجا انجام می دهند. هر دو دسته نمایندگان تولید اطلاعات هستند تا مصرف کنندگان اطلاعات. تحلیلگران هوش تجاری معمولاً اطلاعات سازمان و ابزارهای موجود را بهتر از تحلیل گران تجارت می دانند. به عنوان مثال ، آنها ممکن است یک سیستم کارت امتیازی در کل شرکت را پیاده سازی کنند. فارغ التحصیلان MIS مناسب این موقعیت هستند. با این حال ، تحلیلگران تجارت ، استفاده واحد تجارتی خود را از تجزیه و تحلیل بهتر درک می کنند. به عنوان مثال ، یک تحلیلگر زنجیره تامین ممکن است برای بهینه سازی فرآیندهای زنجیره تامین ، از تهیه مواد اولیه تا توزیع محصولات تا محل فروش ، کار کند. بسیاری از سازمان ها هر دو نوع تحلیلگر دارند که هم به طور جداگانه و هم به طور مشترک روی پروژه ها کار می کنند.


دانشمندان داده در سمت راست انتهایی پیوستار قرار دارند. این افراد حرفه ای بسیار آموزش دیده ، ماهر و باتجربه هستند که بینش جدیدی را در کلان داده ها کشف می کنند. اصطلاح دانشمندان داده نسبتاً جدید است و اغلب به D.J. Patil و Jeff Hammererbacher که به ترتیب مسئول داده ها و تجزیه و تحلیل در LinkedIn و Facebook هستند [Davenport and Patil, 2012]. دانشمند داده "جذاب ترین شغل قرن 21" نامیده شده است [Davenport and Patil, 2012].

وظیفه دانشمندان داده ها کشف الگوها و روابطی است که هیچ کس در مورد آنها چیزی ندیده و متعجب نشده است و این کشفیات را به اطلاعات عملی تبدیل می کند که برای سازمان ارزش ایجاد می کند. برای این کار نیاز به ترکیبی غنی از مهارت است. دانشمندان داده باید انواع مختلف کلان داده ها و نحوه ذخیره سازی آنها (به عنوان مثال ، RDBMS ، Hadoop) ، نوشتن کد (به عنوان مثال ، جاوا ، پایتون ، R) ، دسترسی به داده ها (به عنوان مثال ، SQL ، Hive) ، تجزیه و تحلیل آنها را درک کنند ( به عنوان مثال ، تجزیه و تحلیل رگرسیون ، شبکه های اجتماعی) ، و یافته ها را از نظر شغلی به مدیریت منتقل کنید (به عنوان مثال ، جلسات توجیهی ، گزارش ها). دانشمندان داده به طور معمول بسیار کنجکاو هستند ، دوست دارند مشکلات دشواری را حل کنند و دارای مدرک پیشرفته (اغلب PhD) در زمینه تحلیلی مانند آمار ، تحقیقات مدیریت علوم / عملیات ، علوم کامپیوتر و ریاضیات هستند به دلیل این نیازها ، دانشمندان داده کم هستند و دستمزدهای بالایی را کنترل می کنند. خوشبختانه سازمانها به بسیاری از آنها احتیاج ندارند.

بسیاری از دانشمندان داده ها مدرک تجاری ندارند. برای اثرگذاری ، آنها باید صنعت و سازمانی خاص را که در آن کار می کنند درک کنند. برای جبران این کمبود بالقوه ، معمولاً لازم است دانشمندان داده با افرادی در سازمان که دارای دانش حوزه کسب و کار هستند همکاری نزدیک داشته باشند.

کاربران تجزیه و تحلیل کلان داده ها یک زنجیره را تشکیل می دهند. دلیل آن وجود کاربران در تمام طول زنجیره است. بعنوان مثال ، برخی از کاربران نهایی در بخشهای خود به مصرف کننده برق تبدیل می شوند و نقش تحلیلگر مانند تهیه گزارش برای سایر کاربران را دارند. تجزیه و تحلیل گران بیشتر مهارت های خود را توسعه می دهند و قادر به انجام برخی از وظایف مرتبط با دانشمندان داده هستند ، به ویژه هنگامی که میز کار تحلیلی مانند SAS Enterprise Miner و IBM SPSS Modeler ارائه می شود.

در پیوست A نحوه پاسخگویی دانشگاه ها ، شرکت ها و فروشندگان برای پاسخگویی به تقاضای افراد ماهر در استفاده از تجزیه و تحلیل کلان داده ها ارائه شده است.

8. کلان داده و حریم خصوصی

جمع آوری ، ذخیره سازی و کاوش کلان داده ها فقط افزایش خواهد یافت. یک مسئله کلان داده که مورد توجه قرار گرفته و از اهمیت بیشتری برخوردار خواهد شد ، حفظ حریم خصوصی افراد است: دولت و سازمان ها چه داده هایی را باید جمع آوری کنند و چه تدابیر لازم برای نحوه استفاده از آنها وجود دارد؟ داستان هدف نگاه اجمالی به کاربردهایی دارد که باعث می شود برخی از مردم سرگرم شوند. سایر افراد با این استفاده از کلان داده ها مشکلی نمی بینند ، زیرا منجر به خدمات بهتر مشتری و پیشنهادات جذاب می شود.

در تابستان 2013 ، اخبار زیادی در مورد ادوارد اسنودن ، کارمند سابق CIA و مشاور NSA منتشر شد که اسرار را در مورد نحوه ردیابی تماس های تلفنی خصوصی افراد و استفاده از این اطلاعات توسط دولت ایالات متحده فاش کرد. بسیاری از مردم ، به ویژه دولت ، به اسنودن به عنوان خائنی نگاه می کردند که امنیت ملی کشور را در مبارزه با تروریسم به خطر می اندازد ؛ دیگران او را سوت کش می دانستند که مردم را در مورد عملی که آزادی های مدنی را تهدید می کند ، مطلع کرد.

شرکت Clemens Et al در سال 2014 سه روش مختلف برای توصیف حریم خصوصی و حمله آنلاین به حریم خصوصی را شناسایی کرد. راه اول ، نفوذ ناخوانده در فضای شخصی کاربر است. این شامل بازاریابی آنلاین ، تبلیغات هرزنامه ، پنجره های بازشو و سایت های حامی مالی در لبه های یک صفحه وب است. در مطالعه آنها ، بیشتر مردم این را برجسته ترین نوع حمله به حریم خصوصی می دانند ، حتی اگر عواقب بالقوه آن کمترین آسیب رسان باشد. جدیدترین تهدیدها معاملات جعلی تجارت الکترونیکی و تشخیص سرقت است. اگرچه این نگرانی ها است ، اما مردم نگران نیستند که این نوع فعالیت ها توسط شرکت های بزرگ داده ای مانند Google و Facebook انجام شود. سومین نوع حمله ، پروفایل شخصی برای منافع تجاری است. این اتفاق زمانی رخ می دهد که شرکت هایی مانند Google ، Facebook و Yahoo! صدها یا هزاران داده از منابع مختلف (یعنی ترکیب داده ها) را با هم ترکیب کنید تا بفهمید شما کی هستید ، کجا زندگی می کنید ، کجا می روید ، دوستانتان چه کسانی هستند ، چه چیزهایی می خرید و مواردی از این دست. این اطلاعات مخلوط ممکن است به سادگی از پیشنهادهای مشترکی استفاده شود که احتمالاً مورد توجه شما قرار می گیرند یا برای اهداف کم اهمیت مانند دانستن اینکه شما به یک سرگرمی پرخطر مشغول هستید و باید از آنها نرخ بالاتری از بیمه استفاده شود [Clemons Et al., 2014].

تحقیقات نشان می دهد که اکثر مردم درک و نگرانی بسیار کمی در مورد نحوه استفاده سازمانها از داده های کلان دارند [Clemens Et al., 2014]. با این حال ، همانطور که افراد کاربردهای بالقوه را بهتر درک می کنند ، نگرانی های آنها به سرعت افزایش می یابد. این نشان می دهد که هرچه شرکت ها به طور فزاینده ای از کلان داده ها تجزیه و تحلیل داده های مشتری استفاده می کنند ، نگرانی مردم بیشتر خواهد شد.

اگرچه برخی از قوانین فعالیت های شرکت های ارتباط از راه دور را محدود می کند (به عنوان مثال ، آنها نمی توانند به تماس های تلفنی گوش دهند) ، قوانین و مقررات کمی برای عصر دیجیتال جدید اعمال می شود و عمدتا برای شرکت های اینترنتی وجود ندارد. سیاست های حفظ حریم خصوصی این شرکت ها بیشتر از اینکه از حریم خصوصی افراد محافظت کند ، منافع تجاری آنها را تأمین می کند. ما به قوانینی درباره حریم خصوصی افراد نیاز داریم که به نظر مردم سازگار ، منطقی ، شفاف و قابل فهم باشد [Clemons et al., 2014].

جمع بندی

از منظر تاریخی ، داده های کلان را می توان به عنوان آخرین نسل در تکامل مدیریت داده های پشتیبانی تصمیم قلمداد کرد [Watson and Marjanovic 2013c]. نیاز به داده ها برای پشتیبانی از تصمیم گیری مبتنی بر رایانه حداقل از اوایل دهه 1970 با DSS وجود داشته است. این دوره را می توان به عنوان اولین نسل مدیریت داده های پشتیبانی تصمیم در نظر گرفت. این برنامه بسیار کاربردی بود و داده ها برای پشتیبانی از یک تصمیم واحد یا مجموعه ای از تصمیمات مرتبط سازمان یافته بودند. در دهه 1990 نیاز به پشتیبانی از طیف گسترده ای از هوش تجاری و برنامه های تحلیلی (به عنوان مثال گزارشگری ، سیستم های اطلاعاتی اجرایی) با داده ها وجود داشت. داشتن پایگاه داده های جداگانه (به عنوان مثال داده های مستقل برای هر برنامه) هزینه بر بود ، منجر به ناسازگاری داده ها در بین برنامه ها شد و در پشتیبانی از برنامه های کل شرکت موفق نبود. نتیجه ظهور انبارهای داده های سازمانی ، نسل دوم بود که نمایانگر رویکرد داده محوری برای مدیریت داده ها بود. نسل سوم انبار اطلاعات در زمان واقعی بود. فناوری تا سال 2000 بهبود یافته بود به طوری که امکان گرفتن داده در زمان واقعی و تغذیه آن با انبار داده وجود نداشت. اهمیت این تکامل این است که پارادایم را برای انواع تصمیمات قابل پشتیبانی تغییر داد. با داده های زمان واقعی ، می توان از تصمیمات و فرایندهای عملیاتی پشتیبانی کرد. کلان داده ها، چهارمین نسل از مدیریت داده های پشتیبانی کننده تصمیم گیری است. توانایی ضبط ، ذخیره و تجزیه و تحلیل داده های با حجم بالا ، سرعت بالا و تنوع بالا ، امکان پشتیبانی تصمیمات را به روش های جدید فراهم می کند. همچنین در حال ایجاد چالش های جدید مدیریت داده است.

برای سالهای متمادی ، شرکت ها انبارهای داده را به عنوان نقطه کانونی داده ها برای پشتیبانی از تصمیم گیری توسعه داده اند. با ظهور منابع داده جدید ، سیستم عامل ها و سرویس های مبتنی بر ابر ، این در حال تغییر است. در نتیجه ، داده ها بیشتر فدراسیون می شوند. یعنی داده ها از چندین مکان ذخیره و قابل دسترسی هستند. واحدهای تجاری مانند امور مالی و بازاریابی که نیازهای تجاری ، منابع و نفوذ سیاسی لازم را برای دستیابی به بستر ها، خدمات و ابزارهای خود دارند ، به این روند اضافه می شوند. سازمان های غیرمترقبه ، IT در حال کنترل کنترل مدیریت داده ها است. اگر منجر به چابکی بیشتر و عملکرد سازمانی بهتر شود ، این بد نیست. با این حال در پایین دست، شامل سیلوهای داده ای است که داده ها را به اشتراک نمی گذارند، ناسازگاری داده ها، ناکارآمدی در ذخیره سازی داده ها و تکثیر منابع است. سازمان ها می پذیرند که فدراسیون داده حداقل در کوتاه مدت و میان مدت به وجود آمده و کنترل های بیشتری بر روی شیوه های مدیریت داده خود اعمال می کنند. برخی بیشتر بر حاکمیت داده ها تأکید دارند (به عنوان مثال ، مهمان داده ، مدیریت فراداده و مدیریت داده اصلی).

آنها همچنین در حال ایجاد مراکز عالی هوش تجاری یا تجزیه و تحلیل برای ارائه جهت استراتژیک برای استفاده از داده ها و تجزیه و تحلیل ها ، اولویت بندی پروژه ها ، تأمین منابع قابل اشتراک ، ایجاد دستورالعمل ها و استانداردها ، شرکت در انتخاب ابزار ، مشکلات عیب یابی و موارد دیگر هستند [Russom, 2011]. این داده ها زمینه و بینش بیشتری در تصمیم گیری سازمانی به وجود می آورد. موفقیت در کلان داده ها تضمین نشده است ، زیرا شرایط خاصی وجود دارد که باید برآورده شوند. سازمانها باید با اهداف مشخص و محدود تعریف شده ، اغلب مربوط به درک بهتر و ارتباط با مشتری و بهبود عملیات باشند. باید حمایت مالی قوی و متعهدی وجود داشته باشد. بسته به پروژه (ها) ، حمایت مالی می تواند بخشی یا در سطح مدیریت ارشد باشد. مدیر ارشد اطلاعات معمولاً مسئول توسعه و نگهداری زیرساخت کلان داده ها است. برای برخی از شرکت ها (به عنوان مثال Google) ، همسویی بین استراتژی های کسب و کار و فناوری دوم ماهیت دوم است زیرا کلان داده ها همان چیزی است که تجارت به آن مربوط است. برای دیگران ، باید به دقت در مورد مسائل مربوط به ساختار سازمان توجه شود. حکومت؛ مهارت ها ، تجربیات و دیدگاه های پرسنل سازمانی ؛ چگونه نیازهای تجاری به پروژه های موفق تبدیل می شوند. و بیشتر. باید یک فرهنگ تصمیم گیری مبتنی بر واقعیت وجود داشته باشد که در آن کسب و کار توسط تعداد اداره می شود و آزمایشات مداوم برای دیدن بهترین نتیجه انجام می شود. ایجاد و حفظ این فرهنگ به مدیریت ارشد بستگی دارد. کلان داده ها ، انواع جدیدی از فناوری ها ، سیستم عامل ها و رویکردهای مدیریت داده را ایجاد کرده است. اینها باید با سیستم عامل های سنتی مانند انبارهای داده به گونه ای ترکیب شود که نیازهای سازمانی را از نظر هزینه مقرون به صرفه تامین کند. تجزیه و تحلیل کلان داده ها به ابزارهای سنتی مانند SQL ، میز تحلیلی مانند SAS Enterprise Miner و زبان های تجزیه و تحلیل و تجسم داده مانند R نیاز دارد. همه اینها هیچ چیز نیست ، مگر اینکه کاربران تجاری ، تحلیلگران و دانشمندان داده وجود داشته باشند که بتوانند با کلان داده ها کار کنند و از آنها استفاده کنند. از آنجا که سازمان ها از کلان داده ها بیشتر استفاده می کنند ، احتمالاً نگرانی ها و قوانین بیشتری در مورد مسائل مربوط به حریم خصوصی افراد وجود دارد.

منابع

یادداشت سردبیر: لیست مرجع زیر حاوی پیوندهایی به صفحات وب جهانی است. خوانندگانی که امکان دسترسی مستقیم به وب را از طریق پردازنده کلمات خود دارند و یا در حال خواندن مقاله در وب هستند ، می توانند دسترسی مستقیم به این منابع مرتبط داشته باشند. به خوانندگان هشدار داده می شود که:

  1. این پیوندها از تاریخ انتشار وجود داشته است اما تضمین نمی شود پس از آن کار کند.
  2. محتویات صفحات وب ممکن است با گذشت زمان تغییر کند. در مواردی که اطلاعات نسخه در منابع وجود دارد ، نسخه های مختلف ممکن است حاوی اطلاعات یا نتیجه گیری های ارجاع شده نباشند.
  3. نویسنده (ها) صفحات وب ، نه AIS ، مسئول صحت محتوای آنها هستند.
  4. نویسندگان این مقاله ، نه AIS ، مسئول صحت اطلاعات URL و نسخه هستند.

Ayers, I. (2007) Super Crunchers, New York: Bantam Books.

Babcock, C. (2011) “Zynga’s Unusual Cloud Strategy Is Key to Success", Information Week, http://www.informationweek.com/cloud-computing/infrastructure/zyngas-unusual-cloud-strategy-is-key-to/231000908(current March 7, 2014).

Babcock, C. (2013) “Zynga, Cloud Pioneer, Must Fix Revenue Woes", Information Week, http://www.informationweek.com/cloud-computing/software/zynga-cloud-pioneer-must-fix-revenue-woe/240156007(current March 7, 2014)

Brynjolfsson, E., L.M. Hitt and H.H. Kim (2011) “Strength in Numbers: How Does Data-Driven Decision-Making Affect Firm Performance?" Social Science Research Network, http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1819486(current March 7, 2014).

Byrne, P. (2009) Personal Communication

CGT(2012) “P&G Uses Downstream Data to Boost On-Shelf Availability", CGT, http://consumergoods.edgl.com/trends/P-G-Uses-Downstream-Data-to-Boost-On-Shelf-Availability80766(current March 7, 2014).

Chui, M., M. Loffler, and R. Roberts (2010) “The Internet of Things,” McKinsey Quarterly, March. http://www.mckinsey.com/insights/high_tech_telecoms_internet/the_internet_of_things(current March 7, 2014).

Chulis, K. (2012) “Big Data Analytics for Video, Mobile, and Social Game Monetization", developerWorks, IBM,http://www.ibm.com/developerworks/library/ba-big-data-gaming/(current March7, 2014).

Cifio, J. and C. Meley (2011) Presentation at the Teradata Universe Conference, Barcelona, Spain, April 11, 2011.

Clemons, E., J. Wilson, S. Barnett, F. Jinand C. Matt (2014) “Investigations into Consumers Preferences Concerning Privacy: An Initial Step Towards the Development of Modern and Consistent Privacy Protections Around the Globe", Proceedings of the Hawaii International Conference on Systems Sciences, Big Island, Hawaii,USAJanuary.

Cooper, B.L., H.J. Watson, B.H. Wixom and D.L. Goodhue (2000) "Data Warehousing Supports Corporate Strategy at First American Corporation", MIS Quarterly, (24)4, pp. 547-567.

Davenport, T.H. and J.G. Harris (2007) Competing on Analytics: The New Science of Winning, Boston: Harvard Business School Press.

Davenport, T.H., J.G. Harrisand R. Morison, (2010) Analytics at Work: Smarter Decisions, Better Results, Boston: Harvard Business School Press.
Davenport, T.H. and D.J. Patil (2012) “Data Scientist: The Sexiest Job of the 21stCentury", Harvard Business Review, October, pp. 2-8.

Duhigg,C.(2012) “How Companies Learn Your Secrets", New York Times, http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=all&_r=0(current March 7, 2014).

Eckerson, W. (2004) “Gauge Your Data Warehousing Maturity", DM Review,(14)11, pp.34.

Eckerson, W. (2011) “Big Data Analytics: Profiling the Use of Analytical Platforms in User Organizations", The Data Warehousing Institute, http://tdwi.org/login/default-login.aspx?src=%7bC26074AC-998F-431B-BC99-4C39EA400F4F%7d&qstring=tc%3dassetpg(current March 7, 2014).

Economist Intelligence Unit (2012) “Fostering a Data-driven Culture", The Economist, http://www.managementthinking.eiu.com/sites/default/files/downloads/Tableau_DataCulture_130219.pdf(current March 7, 2014).

Franks, B. (2012) Taming the Big Data Tidal Wave, New York: Wiley

Gartner (2012) “Gartner Says Big Data Creates Big Jobs: 4.4 Million IT Jobs Globally to Support Big Data By 2015", Gartner Press Release, http://www.gartner.com/newsroom/id/2207915(current March 7, 2014).

Harris, D. (2013) “The History of Hadoop: From 4 Nodes to the Future of Data",Gigaom, http://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/(current March 7, 2014).

Healy, M. (2012) “6 Big Data Lies", Information Week Research Report,http://twimgs.com/audiencedevelopment/JT/OE/LPs/SLP1_IBM/Webcast_SLP1_research-big-data-smart-data_59742.pdf(current March 7, 2014).

Hill, K. (2012) “How Target Figured Out a Teen Girl Was Pregnant Before Her Father Did", Forbeshttp://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/(current March 7, 2014).

IBM. (2010) “Asset and Service Management for Smarter Transportation", http://public.dhe.ibm.com/common/ssi/ecm/en/tiw10328usen/TIW10328USEN.PDF(current March 7, 2014).

IBM. (2013) “Exploiting Big Data in Telecommunications to Increase Revenue, Reduce Customer Churn and Operating Costs", http://www-01.ibm.com/software/data/bigdata/industry-telco.html(current March 7, 2014).

Imhoff, C. (2013) “Seeing RedShift: How Amazon Changed Data Warehousing Forever", Inside Analytics,http://archive.constantcontact.com/fs108/1104983460042/archive/1112865946329.html(current March 7, 2014).

Kavanagh, E. (2013) “Throwing Down the Gauntlet: Cloud Bi for $1/hr", Inside Analytics, http://insideanalysis.com/2013/07/throwing-down-the-gauntlet-cloud-bi-for-1hr/?utm_source=Throwing+Down+the+Gauntlet%3A+Cloud+BI+for+%241%2Fhr&utm_campaign=Advance&utm_medium=email(current March 7, 2014).

LaValle, S., E. Lesser. R. Shockley, M.S. Hopkins, and N. Kruschwitz (2011) “Big Data, Analytics and the Path from Insights to Value,” Sloan Management Review, (52)2, pp. 21-31. http://www.ibm.com/smarterplanet/global/files/in_idea_smarter_computing_to_big-data-analytics_and_path_from_insights-to-value.pdf(current March 7, 2014).

Lewis, M. (2003) Moneyball: The Art of Winning an Unfair Game, New York: W.W. Norton & Company.

Manyika, J., M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A.H. Byers (2011) “BigData: The Next Frontier of Innovation, Competition, and Productivity,” McKinsey Global Institute, May. http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation(current March 7, 2014).

Miller, B. ,J. M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A.H. Byers(2011) Moneyball, Columbia Pictures.

Mills, S., S. Lucas, L. Irakliotis, M. Ruppa, T. Carlson and B. Perlowitz (2012) “Demystifying Big Data: A Practical Guide to Transforming the Business of Government", Washington: TechAmerica Foundation. Available athttp://breakinggov.com/documents/demystifying-big-data-a-practical-guide-to-transforming-the-bus/, (current March 7, 2014).

Oracle. (2013) “Utilities and Big Data: Accelerating the Drive to Value", Oracle, http://www.oracle.com/us/industries/utilities/oracle-utilities-2013-report-1977336.pdf(current March 7, 2014).

Palfreyman, J. (2013) “Big Data –Vexed by Veracity?”,http://insights-on-business.com/government/big-data-vexed-by-veracity/(current March 7, 2014).

Power, D.J. (2007) “A Brief History of Decision Support Systems", DSSResources.com, http://DSSResources.COM/history/dsshistory.html, version 4.0(current March 7, 2014).

Read, K. (2013) “Is ‘In-Memory’ Always the Right Choice?” Business Intelligence Journal,(18)1, pp. 46-50.

Rose, S. (2013) “Telematics: How Big Data is Transforming the Auto Insurance Industry", SAS White Paper, SAS. http://www.sas.com/resources/whitepaper/wp_56343.pdf, (current March 7, 2014).

Rudin, K. (2010) “Actionable Analytics at Zynga: Leveraging Big Data to Make Online Games More Fun and Social", TDWI BI Executive Summit, San Diego,CA, USA,http://tdwi.org/videos/2010/08/actionable-analytics-at-zynga-leveraging-big-data-to-make-online-games-more-fun-and-social.aspx(current March 7, 2014).

Russom, P. (2011) “Big Data Analytics", TDWI Best Practices Report. Seattle: The Data Warehousing Institute, Fourth Quarter,http://tdwi.org/research/2011/09/best-practices-report-q4-big-data-analytics.aspx(current March 7, 2014).

Russom, P. (2013) “Integrating Hadoop into Business Intelligence and Data Warehousing", TDWI Best Practices Report. Seattle,WA, USA,The Data Warehousing Institute. Second Quarter,http://tdwi.org/research/2013/04/tdwi-best-practices-report-integrating-hadoop-into-business-intelligence-and-data-warehousing.aspx(current March 7, 2014).

Schroeck, M., R. Schockley, J. Smart, D. Romero-Morales and P. Tufano (2012) "Analytics: The Real-World Use of Big Data", IBM Institute for Business Value,http://www-935.ibm.com/services/us/gbs/thoughtleadership/ibv-big-data-at-work.html(current March 7, 2014).

Sicular, S. (2013) “Gartner's Big Data Definition Consists of Three Parts, Not to Be Confused with Three 'V's", Forbes, http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not-to-be-confused-with-three-vs/(current March 7, 2014).

van Groningen, M. (2009) “Introduction to Hadoop", TRIFORK Blog, http://blog.trifork.com/2009/08/04/introduction-to-hadoop/(current March 7, 2014).

Watson, H.J. and L. Volonino (2000) “Harrah’s High Payoff from Customer Information", W. Eckerson and H.J. Watson (eds.), Harnessing Customer Information for Strategic Advantage: Technical Challenges and Business Solutions", Seattle, WA, USA: The Data Warehousing Institute, www.teradataunivesitynetwork.com(current March 7, 2014).

Watson, H. J. (2009a) "Tutorial: Business Intelligence –Past, Present, and Future", Communications of the Association for Information Systems, (25)39,http://aisel.aisnet.org/cais/vol25/iss1/39(current March 7, 2014).

Watson, H.J., J.A. Hofer and B.H. Wixom (2009b) “RetailStore.com", Teradata University Network,http://teradatauniversitynetwork.com(current March 7, 2014).

Watson, H.J. and T. Leonard (2011) “U.S. Xpress: Where Trucks and BI Hit the Road", Business Intelligence Journal, (16)1, pp. 4-7.

Watson, H.J. (2012) “This Isn’t Your Mother’s BI Architecture", Business Intelligence Journal, (17)1, pp. 4-6

Watson, H.J. (2013a) “All about Analytics", International Journal of Business Intelligence Research,(4)2, pp.13-28.

Watson, H.J., B.H. Wixomand T. Ariyachandra (2013b) “Insights on Hiring for BI and Analytics", Business Intelligence Journal,(18)2, pp. 4-7.

Watson, H.J.and O. Marjanovic (2013c) “Big Data: The Fourth Data Management Generation", Business Intelligence Journal,(18)3, pp.4-7.

Williams, S. (2004) “Assessing BI Readiness: A Key to BI ROI", Business Intelligence Journal, Summer 2004.

Wyllie, D. (2013) “How ‘Big Data’ is Helping Law Enforcement", PoliceOne.com, http://www.policeone.com/police-products/investigation/articles/6396543-How-Big-Data-is-helping-law-enforcement/(current March 7, 2014).

پیوست A: پاسخگویی به تقاضای افراد دارای مهارت در تجزیه و تحلیل کلان داده ها

همانطور که قبلاً موسسه جهانی مک کینزی و مطالعات گارتنر عنوان کردند ، تقاضای فزاینده ای برای افرادی که می توانند با تجزیه و تحلیل و کلان داده ها کار کنند وجود دارد. دانشگاه ها ، شرکت ها و فروشندگان به روش های مختلفی پاسخ می دهند. بسیاری از دانشگاه ها دوره لازم در زمینه تجزیه و تحلیل (از جمله تجزیه و تحلیل کلان داده ها) را به برنامه های کارشناسی و کارشناسی ارشد خود اضافه می کنند. از دیدگاه تاریخی ، این مورد برای اعضای هیات علمی در مدارس بازرگانی جالب است زیرا بیشتر دانشکده های بازرگانی دوره ای در علوم مدیریت یا روش های کمی می خواستند اما زمانی که بازار به آن نیازی نداشت ، آن را به تدریج حذف می کردند. بدیهی است که مشاغل اکنون فارغ التحصیلانی با مهارت تحلیلی می خواهند. تغییر قابل توجه دیگر ظهور سریع برنامه های کارشناسی ، گواهینامه ها ، MBA و برنامه های کارشناسی ارشد در تجزیه و تحلیل است. برای نشان دادن رشد پیشنهادات تحلیلی ، یک نظرسنجی در پاییز 2012 نشان داد 59 دانشگاه دارای مدارک هوش تجاری / تجزیه و تحلیل تجارت ، با 22 دانشگاه در سطح کارشناسی هستند. فقط دو سال قبل ، یک نظرسنجی مشابه تنها 12 مدرسه را ارائه داد که مدارک BI / BA ارائه می دهند [Watson, Wixom and Ariyachandra, 2013b].

پیشنهادات تجزیه و تحلیل فارغ التحصیلان در سراسر دانشگاه ، از جمله در تجارت ، مهندسی و آمار واقع شده است. تحویل آموزشی از دانشگاه تا آنلاین متفاوت است. یکی از اولین و شناخته شده ترین برنامه ها ، کارشناسی ارشد علوم تجزیه و تحلیل در دانشگاه ایالتی کارولینای شمالی است. SAS مشارکت کننده مهمی در برنامه بوده است ، برنامه ای که از طریق موسسه تجزیه و تحلیل پیشرفته ارائه می شود و امکانات خاص خود را در دانشگاه دارد. Deloitte Consulting با همکاری دانشکده تجارت Kelly در دانشگاه ایندیانا برای ارائه گواهی تجزیه و تحلیل تجارتی برای متخصصان Deloitte همکاری کرد. سال گذشته ، دانشگاه نورث وسترن یک کارشناسی ارشد آنلاین علوم در تجزیه و تحلیل پیش بینی را که از طریق دانشکده مطالعات خود ادامه می دهد ، آغاز کرد. با این حال هنوز ناشناخته است که چه تعداد دانشجو برای مطالعه تجزیه و تحلیل کلان داده ها انتخاب می کنند ، زیرا این یک زمینه تحصیلاتی از نظر عقلی است.

شرکت ها به چندین روش پاسخ می دهند. یک روش ایجاد فرصت های آموزشی برای افرادی است که از قبل در آن حضور دارند (به عنوان مثال ، تحلیل گران تجارت و BI) و علاقه و استعداد بیشتری برای توسعه مهارت های خود از طریق برنامه های داخلی ، کنفرانس ها و دوره های دانشگاهی دارند. در گذشته ، پیش بینی های ناگواری از کمبود افراد با مهارت های خاص (حتی برنامه نویسان COBOL) وجود داشته است ، و افراد مهارت های لازم را کسب کرده و از فرصت ها استفاده می کنند [Healy, 2012].

برای شرکت هایی که می خواهند دانشمندان داده استخدام کنند ، Davenport و Patil در سال 2012 ایده های مفیدی برای چگونگی ادامه کار دارند ، از جمله اسکن رول های عضویت گروه های کاربر اختصاص داده شده به ابزارهای علم داده مانند R ؛ به دنبال آنها در LinkedIn. درگیر کردن آنها در کنفرانس هایی مانند Strata ، Structure: Data و Hadoop World. و میزبانی یک مسابقه در Kaggle یا TopCoder ، سایت های تجزیه و تحلیل و کدگذاری.

فروشندگان برجسته BI و تجزیه و تحلیل مانند IBM ، Oracle ، SAP ، Microsoft ، SAS و Teradata از برنامه های اتحاد دانشگاه حمایت مالی می کنند که نرم افزارها ، مطالعات موردی ، گزارش های پژوهشی و موارد دیگر را به صورت رایگان یا با حداقل هزینه در دسترس دانشگاه ها قرار می دهد. در کلاس های تجزیه و تحلیل ، مهم است که دانش آموزان تجربه عملی با نرم افزاری که در محل کار با آن روبرو می شوند ، داشته باشند و برنامه های اتحاد به ویژه برای رفع این نیاز بسیار مناسب است. به عنوان مثال ، Oracle پایگاه داده خود و همچنین نرم افزار گزارش و تجزیه و تحلیل (به عنوان مثال ، Hyperion) را در دسترس قرار می دهد. SAS نرم افزار تجزیه و تحلیل داده کاوی / پیش بینی خود را ارائه می دهد (به عنوان مثال ، SAS Enterprise Miner). شرکت IBM گزارش گیری و تجزیه و تحلیل Cognos و مدل SPSS که به منظور تحلیل داده و تجزیه و تحلیل پیشبینی است ارائه میدهد.

طی 13 سال گذشته ، نویسنده با شبکه دانشگاه Teradata (www.teradatauniversitynetwork.com) ، یک پورتال رایگان برای اساتید و دانشجویان با تجزیه و تحلیل ، هوش تجاری ، ذخیره سازی داده ها و پایگاه داده درگیر شده است. از طریق پورتال ، اساتید و دانشجویان می توانند به نرم افزار (به عنوان مثال Teradata ، MicroStrategy ، Tableau و SAS) ، مجموعه کلان داده ها (ارائه شده از طریق دانشگاه آرکانزاس) ، مقالات ، سمینارهای وب ، موارد ، تکالیف ، برنامه های درسی و سایر موارد دسترسی پیدا کنند. برنامه هایی برای افزودن Teradata Aster ، یک بستر بزرگ داده به پورتال وجود دارد.

درباره نویسنده

دکتر هیو جی واتسون استاد MIS و دارای مدرک C است. کرسی مدیریت بازرگانی هرمان و مری ویرجینیا تری در کالج بازرگانی تری در دانشگاه جورجیا را در دست دارد. هیو دانشمند و مرجع برجسته هوش تجاری و تجزیه و تحلیل است ، که دارای 24 کتاب و بیش از 150 مقاله در مجله علمی است. او به توسعه بنیاد مفهومی سیستم های پشتیبانی تصمیم در دهه 1970 کمک کرد ، در مورد توسعه و پیاده سازی سیستم های اطلاعاتی اجرایی در دهه 1980 تحقیق کرد و برای 20 سال گذشته در انبارداری داده ها ، هوش تجاری و تجزیه و تحلیل تخصص داشت. وی عضو انجمن سیستم های اطلاعاتی و TDWI است و سردبیر ارشد مجله Business Intelligence Journal است و عضو هیئت مشاوره CAIS است. Hughis مدیر بنیانگذار شبکه دانشگاه Teradata ، یک درگاه رایگان برای اساتیدی که BI / DSS ، تجزیه و تحلیل ، انبارداری داده ها و مدیریت پایگاه داده را تدریس و تحقیق می کنند.

حق چاپ © 2014 توسط انجمن سیستم های اطلاعاتی. اجازه ساخت نسخه های دیجیتالی یا چاپی کامل یا بخشی از این کارها برای استفاده شخصی یا در کلاس بدون هزینه داده می شود مشروط بر اینکه نسخه ها برای سود یا منافع تجاری ساخته یا توزیع نشوند و نسخه ها حاوی این اعلان و استناد کامل در صفحه اول باشند. حق چاپ برای اجزای این اثر متعلق به افراد دیگری غیر از انجمن سیستم های اطلاعاتی باید مورد احترام باشد. چکیده با اعتبار مجاز است. برای کپی کردن در غیر اینصورت ، برای انتشار مجدد ، ارسال به روی سرورها ، یا توزیع مجدد در لیست ها نیاز به اجازه و یا هزینه قبلی خاص است. درخواست مجوز انتشار از: دفتر اداری AIS ، P.O. جعبه 2712 Atlanta، GA، 30301-2712، Attn: چاپ مجدد ؛ یا از طریق پست الکترونیکی از ais@aisnet.org.

شاید از این پست‌ها خوشتان بیاید