اکثر خردهفروشان بزرگ مانند Costco، Wal-Mart، Target، و Amazon از کلان دادهها برای عملیات مختلف خود از جمله مدیریت اموال، توصیهی محصولات، ردیابی جمعیتشناسی مشتریان، و همچنین ردیابی و مدیریت تاثیرات منفی یادآوری محصولات استفاده میکنند. برخی از خردهفروشان نیز از دادههای مرتبط با مشتریها برای بهبود کیفیت سرویس خود و ارتقای وفاداری مشتریان استفاده نمودهاند.
یکی از استراتژیهای شناخته شدهای که شرکتهای خردهفروشی برای افزایش درآمد خود از آن استفاده میکنند، پیشنهاد محصولات به مشتریان است، این محصولات پیشنهاد شده بر اساس محصولاتی توصیه میشوند که مشتری در حال حاضر مشغول خرید آنها میباشد و از این رو ممکن است علاقمند به خرید محصولات پیشنهادی نیز باشد. این مورد نوعی از یک خردهفروشی الکترونیکی است که در آن، سیستمهای پایانی به اجرای موتورهای توصیهکنندهی محصولات میپردازند، این موتورها با استفاده از ارجاعات متقابل میان کالاهای فروخته شده به مشتریان مختلف، پیشنهاد خرید همان کالاها را به مشتریان دیگری میدهند که قصد خرید کالاهای مشابهی را دارند.
خردهفروشانی که حضور آنلاین و آفلاین (تجارت خشت و ملات) دارند، میتوانند از دادههای جمعآوری شده از کانالهای مختلف استفاده کنند و الگوهای خرید را یافته و محصولات را به صورت آنلاین پیشنهاد دهند. تحلیل مسیر و الگو برای تحلیل پیشینهی رفتار خرید مشتری در کانالهای مختلف مورد استفاده قرار میگیرد تا توصیههایی با کیفیت بالا تولید شوند. روشهای فیلتر کردن مشارکتی بر روی پیشینهی خریدهای یک مشتری و الگوهای جستجو به کار گرفته میشوند، تا با مقایسه با رفتار دیگر مشتریان، توصیههای بعدی پیشبینی شود.
روشهای فیلتر کردن مشارکتی در سیستمهای توصیهگر توسط خردهفروشان الکترونیکی از قبیل Amazon برای پیشنهاد محصولات مورد استفاده قرار میگیرند، همچنین روشهای فیلتر کردن مشارکتی توسط موتور توصیهگر فیلم نیز به کار گرفته میشود، همانطور که Netflix از آن استفاده میکند. از این روشها به صورت آفلاین نیز به کار گرفته میشوند تا تراکتهای آخر هفته، تبلیغات بر روی رسید فروشها، یا تبلیغ بر روی بستهی محصولات به منظور ارتقاء فروش به درستی ایجاد شوند.
خردهفروشان اطلاعات بسیار زیادی در مورد مشتریهای خود از جمله مکان، جنسیت، و سن آنها را در حین تراکنشهای مختلف معاملات خود جمعآوری میکنند. کاوش دادههای خردهفروشی میتواند به شناسایی الگوهای خرید مشتریان و گرایشات آنها کمک کند که این امر به نوبهی خود به شناسایی نیازهای مشتری برای برنامهریزی موثر در جهت تبلیغ محصولات و جذب مشتریان بیشتر و افزایش درآمد/سود کمک مینماید. تحلیل چند-بُعدی و ابزارهای بصریسازی مجموعهدادگان میتواند برای پیشبینی مورد استفاده قرار گیرند تا بتوانند به برنامهریزی تدارکات/حمل و نقل کالاهای مورد نیاز شرکت کمک کنند.
شرکتهای تولیدی در سراسر جهان به شدت رقابتی شدهاند و سود خالص نهایی در کسب و کار تجاری روز به روز کاهش مییابد. تولیدکنندگان همیشه به دنبال بهینهسازی هزینههای در حال اجرای کارخانهها هستند و در نتیجه هزینههای نهایی افزایش مییابند. همانطور که در ادامه شرح داده میشود، تحلیلهای کلان دادهها میتوانند در چندین حوزه مورد استفاده قرار گیرند .
در دنیای خودکار ساخت و تولید، حسگرها در هر جای ممکن برای نظارت بر خط مونتاژ مورد استفاده قرار میگیرند و بدین ترتیب خرابی سیستمها میتوانند به سرعت شناسایی و تعمیر شوند تا مدت زمانی که خط تولید کار نمیکند، به حداقل کاهش یابد. علت اصلی خرابی سیستمها میتواند به یک یا چند پارامتر متعدد بستگی داشته باشد که در زیرسیستمهای کوچکتری پخش شدهاند که این زیرسیستمها به خط مونتاژ متصل هستند. مقدار زیادی از دادههای حسگر همگی دادههای بدون ساختاری هستند که از سطح کارخانهی در حال اجرا و تولید جمعآوری شدهاند. سوابق تعمیر و نگهداری از زیرسیستمهای مختلف نیز به صورت دادههای نیمهساختیافته جمعآوری میشوند. مستنداتی مربوط به بهرهوری نسبت به حداکثر ظرفیت نیز به همراه سوابق تعمیر و نگهداری و دادههای حسگرها جمعآوری میشوند.
تحلیل سریهای زمانی بر روی زیرسیستمهای مختلف بر اساس دادههای حسگرهای مربوط به آن زیرسیستمها انجام میگیرد و عمل تطابق الگو برای یافتن خرابیهای احتمالی بر روی این دادهها اجرا میشود. همچنین، تحلیل مسیر و روشهای ایجاد نشست نیز برای ضبط رویدادهای بحرانی مورد استفاده قرار میگیرند تا بر اساس همبستگیهای موجود بین دادههای خوانده شده توسط حسگرها، سوابق تعمیر و نگهداری، و مستندات جمعآوری شده به پیشبینی خرابیهای احتمالی بپردازند. این امر کمک میکند تا اقدامات پیشگیرانهای انجام شود تا خط مونتاژ برای مدت زمان طولانی و بدون وقفه در حال اجرا باشد و همچنین به بهبود ایمنی عملیاتهای در حال اجرا نیز کمک میکند.
با توجه به این که سفارشات روز-به-روز به صورت پویا در حال تغییر هستند، مهمترین عامل در کسب و کارهایی که با صنعت تولید در ارتباط هستند، این است که از منابع به صورت بهینه استفاده شود. وقتی که پیشبینی فروش و زمانبندی به درستی انجام گیرد، آنگاه به برنامهریزی برای مواردی از قبیل به دست آوردن به موقع مواد اولیه، افزایش یا کاهش تولید، مدیریت انبار، و تدارکات حمل و نقل کمک خواهد کرد. در کوتاه مدت، اگر تخمین تقاضا بیش از حد زیاد در نظر گرفته شود، آنگاه سازنده را با محصولات به فروش نرفتهای مواجه میکند که میتواند تخلیه و خسارت مالی شدیدی به وی وارد نماید، همچنین اگر تخمین تقاضا بیش از حد کم در نظر گرفته شود، آنگاه منجر به از دست رفتن فرصتهای فروش زیادی خواهد شد. در بلند مدت، پیشبینی تقاضا نیازمند برنامهریزی بر روی سرمایهگذاریهای استراتژیک و رشد کسب و کار است. از این رو، اجرای موثر یک کسب و کار با حداکثر سودآوری به یک سیستم جامع پیشبینی نیاز دارد.
سریهای زمانی یک روش پیشبینی مشهور است که برای پیشبینی تقاضاها در آینده مورد استفاده قرار میگیرد و بر اساس دادههای سوابق فروش میباشد. وقتی که محیط با عواملی مانند نیازهای در حال تغییر مشتری و تاثیر رقابت به صورت پویا است، روش سادهی سریهای زمانی نمیتواند پیشبینی درستی از آینده داشته باشد.
مدلسازی پیشبینیکننده یک روش پیشرفتهتر و دقیقتر است که توانایی در نظر گرفتن تمام متغیرهایی را دارد که بر روی تقاضاهای آینده تاثیر میگذارند. این روش همچنین آزمایش سناریوهای متنوع را نیز ممکن ساخته و به درک روابط بین عوامل تاثیرگذار و نحوه تاثیر آنها بر روی تقاضای پایانی نیز کمک میکند.
. کاربردهای کلاندادهها در مخابرات
با گسترش سرویسهای مخابراتی در سراسر جهان، صنعت مخابرات در تلاش است با ارائهی سرویسهای گوناگون در زمینهی صدا، ویدئو، و دادهها به بازارهای مختلف وارد شود. با توسعهی فناوریها و سرویسهای جدید در میان کشورهای مختلف، بازار این صنعت نیز به سرعت در حال رشد است و بین فراهمکنندگان مختلف سرویس به شدت رقابت ایجاد شده است.
شکل 7 چارچوبی از تحلیل کلاندادهها را برای حوزهی مخابراتی نشان میدهد، که به عنوان پایهای برای فرموله کردن استراتژیها برای کسب و کار بهتر مورد استفاده قرار میگیرد. دیدگاههای تجاری برای بخشهای مختلف کسب و کار بر اساس دادههایی استخراج میشود که از بسترهای متنوع جمعآوری شدهاند. برخی از این موارد عبارتند از:
دادههای مشتری / مشترک: اطلاعات و پیشینهی رابطه با فراهمکننده.
الگوهای مصرف.
سوابق سرویس مشتری: شکایات مربوط به سرویس یا درخواست برای سرویسهای اضافی و بازخورد.
اظهارنظرهای نوشته شده در رسانههای اجتماعی.
در بخشهای زیر، ما به بررسی حوزههایی خواهیم پرداخت که در آنها، صنعت با استفاده از کلاندادهها در تلاش است تا راههایی را برای حفظ و تولید درآمد شناسایی کند.
به خوبی مشخص شده است که ریزش مشتری یک مشکل بزرگ برای تمام فراهمکنندگان سرویس مخابراتی میباشد. مشتریان فراهمکنندهی سرویس موجود را ترک نموده و در شرکت رقیب ثبتنام میکنند که باعث خسارت مالی و سوددهی میشود. به دست آوردن مشتریان جدید با استفاده از تبلیغات جدید، یک کار پُر هزینه است و بر روی افزایش هزینههای بازاریابی تاثیر دارد که به نوبهی خود بر روی سودآوری شرکت تاثیر خواهد داشت.
مطالعات نشان داده است که شناسایی عوامل کلیدی ریزش مشتری به صورت فعال و توسعهی استراتژیهای حفظ مشتری، برای به حداقل رساندن کاهش درآمد و سوددهی کمک میکند. پس از آن، فراهمکنندهی سرویس میتواند بر روی ارتقای زیرساخت شبکه در جهت کیفیت بهتر سرویس و پشتیبانی بهتر از سرویسها برای حفظ و رشد پایگاه مشتریان تمرکز کند.
به طور معمول برای شناسایی عوامل تحریکآمیز در ریزش مشتریها و اعمال این عوامل بر روی مشترکان موجود و ارزیابی فرصتهای لغو و انتقال سرویس آنها به فراهمکنندهی دیگر، روشهای متعدد تحلیل دادههای آماری مورد استفاده قرار میگیرند. با استفاده از دادههای رفتار مشتری که از کانالهای مختلف مانند پروفایلهای تماس، تماسهای شکایات مشتریان با مراکز تماس، اظهارنظرها از طریق پستالکترونیک، و بررسی بازخوردها جمعآوری شدهاند، میتوان پیشبینی ریزش بهتری برای شناسایی مشتریان با ریسک بالا انجام داد. به منظور تشخیص الگوهای رویدادهایی که منجر به ریزش مشتری میشوند، روشهای تحلیل مسیر مورد استفاده قرار میگیرند. با استفاده از دستهبند نایو بیزین برای تحلیل متن، یک مدل ایجاد میشود تا مشتریان با ریسک بالا شناسایی شود.
یک روش مشهور دیگر از موتورهای گراف استفاده میکند تا اتصالات بین کاربران را بر اساس سوابق جزئیات تماس نمایش دهد و سپس جوامع و افراد تاثیرگذار را در میان جوامع کاربران شناسایی کند. یکی از اقدامات اصلاحی برای مقابله با این مشکل، متعهد کردن مشتریانی است که احتمال ریزش آنها بالا میباشد و همچنین ایجاد انگیزه و تمدید قرارداد آنها برای مدت زمان بیشتر است.
فراهمکنندگان سرویس مخابراتی به طور مداوم به دنبال افزایش درآمد خود هستند و این کار را با پیشنهاد سرویسهای کمکی و بیشتر به مشتریان انجام میدهند، و این پیشنهاد بر این اساس صورت میگیرد که مشتریان بر اساس طرح اشتراک فعلی آنها ممکن است به سرویسهای پیشنهاد شده نیز علاقمند باشند. این پیشنهاد همچنین بر اساس تحلیل ارجاع متقابل میان مشتریانی صورت میگیرد که پرفایلهای مشابهی دارند. استراتژی دیگر، ارتقاء سرویس به بهترین طرح ممکن با افزایش اندک قیمت است. روشهای تحلیل دادههایی که برای این موتورهای توصیهگر مورد استفاده قرار میگیرند، به طور اساسی مشابه روشهایی است که برای کسب و کار خردهفروشی الکترونیکی (e-tailing) به کار گرفته میشوند.
استفاده از تحلیل کلاندادهها اهمیت زیادی در صنعت مراقبت از سلامتی به دست آورده است، علت این اهمیت نیز به مشخصات این حوزه از قبیل مجموعهدادهی عظیمی از پروندههای الکترونیکی افراد، ارائهی سرویس با کمترین هزینه، نیاز به پشتیبانی از اخذ تصمیمات مهم و بحرانی، و غیره مربوط میشود.
شکل 10 یک چارچوب معمول را برای کاربردهای کلاندادهها در صنعت مراقبت از سلامتی نشان میدهد که اجزای مختلف یک بستر معمولی در آن نمایش داده شده است. مقدار بسیار زیادی از دادههای جمعآوری شده از حوزهی مراقبت از سلامتی شامل دادههای بالینی از قبیل پروندههای آزمایشگاهی، نسخهی دکترها، مکاتبات پزشکی، پروندههای الکترونیکی پزشکی (EMRها)، درخواستها، و هزینهها میباشند. تحلیلهای پیشرفته بر رو این دادهها برای بهبود حفظ مشتری و نتایج، افزایش کارایی، و حفظ هزینهها در کمترین سطح ممکن مورد استفاده قرار میگیرند. این تحلیلها همچنین برای انجام تحقیقات کامل و تشخیص عوارض جانبی داروها مورد استفاده قرار میگیرند که این امر به رد صلاحیت و جمعآوری داروهای مضر سرعت میبخشد
در ادامه چند مثال از تحلیلهای کلاندادهها در صنعت مراقبت از سلامتی بیان میشود:
موسسات ملی بهداشت در ایالات متحده پایگاهدادههایی را نگهداری میکنند که شامل تمام مقالات پزشکی منتشر شده در حوزههای مختلف مراقبت از سلامتی میباشند و این مقالات را در دسترس تمام محققان علاقمند قرار میدهند. حجم این مجموعهدادهی متشکل از اسناد، بسیار بزرگ است و کاوش اطلاعات معنیدار و مفید در آن به یک چالش تبدیل شده است.
محققان از جستجوهای معنایی بر روی این پایگاهداده استفاده کردهاند تا روابط جدیدی را بین درمانها و نتایج آنها به دست آورند. تحلیل گراف توسط محققانی مورد استفاده قرار میگیرد که بر روی سرطان تمرکز دارند و به این حقیقت پی بردهاند که ایمونوتراپی بهتر از شیمیدرمانی در برخی از موارد خاص سرطان عمل میکند. روشهای نمایش بصری نیز برای یافتن سریع همبستگیها مورد استفاده قرار میگیرد.
استفاده از روشهای تحلیل مسیر و الگو بر روی دادههای به دست آمده از پروندهی بیمارانی با رویههای درمانی مختلف، این امکان را فراهم میآورد تا توالی رویدادها برای جراحیهای گران قیمت شناسایی شود (یعنی اینکه مشخص شود کدام عمل در ابتدا و کدامیک باید در ادامه انجام شود، و بدین صورت ترتیب رویدادهایی که باید انجام شوند، مشخص گردد). با استفاده از این اطلاعات، مراقبتهای پیشگیرانهی بهتری برای جلوگیری از جراحیهای پر هزینه و کمک به کاهش هزینههای پزشکی میتوانند ارائه شوند.
ارزیابی ادعاهای پزشکی شامل بررسی نسخهی دکترها، مدارک پزشکی، و مستندات رویهای صورتحساب است، به خصوص در مواردی که رویهی درمان پیچیده و شامل پروسههای متعدد است، انجام این کار بسیار وقتگیر و فرآیند دشواری میباشد. به منظور کاهش چنین تلاشی که باید به صورت دستی انجام شود، روشهای تحلیل متن، یعنی نگاشت فازی (Fuzzy Match) برای تعیین شیوههای پرداخت نادرست و همچنین سوءاستفادههای احتمالی، کلاهبرداری، یا فعالیتهای ناخواسته به کار گرفته میشوند.
برای کلان داده در ابتدا سه ویژگی (3 (vگفته میشد؛ اما حالا میگویند کلانداده دارای ۵ ویژگی زیر است.:
وقتی از دادههای کلان صحبت میکنیم، مشخص است که منظورمان چند صد ردیف مشخصات افراد در فایل اکسل باشگاه مشتریان نیست.
زمانی میتوان از اصطلاح کلانداده استفاده کرد که حجم دادههای جمع شده آنقدر بزرگ باشد که با ابزارهای معمولی نتوانیم آنها را تحلیل کنیم.در ضمن دقت کنید که استفاده از واحدهای اندازهگیری مثل ترابایت یا پتابایت هم برای تعریف حجم داده چندان درست نیست؛ چون وابسته به نوع داده است. مثلاً حجم فیلم و تصویر قابل مقایسه با نوشتار نیست.
در بسیاری از موارد جمعآوری دادهها به صورت مقطعی نیست. یعنی این دادهها همچنان تولید میشوند و حجم اطلاعات بزرگتر و بزرگتر میشود.
به لطف اینترنت و فناوریهای جمعآوری داده (از سنسورها بگیرید تا اپلیکیشنهای گوشی)، جمعآوری حجم زیاد اطلاعات کار آسانی شده است.
بهترین مثال از نرخ تولید بالای داده، شبکههای اجتماعی هستند. در هر ثانیه میلیونها نفر در شبکههای اجتماعی فعالیت میکنند..
همه این اطلاعات یکدست و یک نوع نیستند. برای مثال در شبکه اجتماعی توئیتر روزانه میلیونها نوشته، عکس، ویدیو و لینک به اشتراک گذاشته میشود. هرکدام از توئیتها خودشان حاوی دهها اطلاعات دیگر هستند؛ از اطلاعات سادهای مثل ساعت و تاریخ توئیت تا اطلاعات عمیقتر مثل موضوع محتوا و چگونگی واکنش کاربران به آن.
دادههایی را میتوان در رده بیگ دیتا قرار داد که از صحت آن مطمئن باشیم. این ویژگی کلان داده شاید بدیهی به نظر برسد اما همین اطمینان از صحت منابع، استاندارها و شاخصهای پیچیده و تخصصی دارد که به تحلیلگرها کمک میکند به خطا نروند.
در مرحله فیلتر کردن دادهها اطمینان یافتن از صحت خیلی مهم است. اگر دادهها صحت کافی نداشته باشند، همه مراحل بعدی تحت تاثیر قرار میگیرد و نتایج درستی حاصل نخواهد شد.
برای فهمیدن این که داده ارزش دارد یا نه، باید پاسخ یک سوال مهم را پیدا کرد:
چطور میتوان از دادهها برای استخراج چیزی بامعنی در راستای اهداف افراد یا کسبوکارها استفاده کرد؟
دادهای ارزشمند است که در رسیدن به این هدف کمک کند؛ واگرنه بیشتر دادهها بیارزش هستند. در بسیاری از سازمانها و شرکتها، روزانه حجم زیادی داده تولید میشود که شاید مدیران در نگاه اول فکر کنند با ارزش هستند اما در واقع دادههایی هرز باشند.
هدف تحلیل بیگ دیتا، به هدف کسبوکاری است که میخواهد آن را اجرا کند وابسته است. اما بههرحال خروجی هر تحلیل باید گزارش، الگو، روند، مدل یا پیشبینی باشد.
در کل میتوان انواع تحلیل مبتنی بر بیگ دیتا را به ۴ نوع تقسیم کرد.:
1. تحلیل توصیفی (Descriptive)
نتیجه تحلیل توصیفی یک نمودار، جدول یا هر نوع گزارش دیگر است که به مدیران کمک میکند بفهمند در یک نقطه معین چه اتفاقی در حال رخ دادن است. این نوع تحلیل، متمرکز بر رخدادهای گذشته است.
2. تحلیل تشخیصی(Diagnostic)
تحلیل تشخیصی به دنبال چرایی به وجود آمدن یک مشکل است. این نوع تحلیل نسبت به توصیفی پیچیدهتر و عمیقتر است و به همین دلیل در بیشتر موارد نیازمند سیستمهای مبتنی بر هوش مصنوعی و یادگیری ماشین است.
3. تحلیل پیشبینی (Predictive)
با در کنار هم قرار گرفتن الگوریتمهای پیشرفته و هوش مصنوعی میتوان قبل از وقوع مشکل آن را پیشبینی کرد. وقتی مشکلی قبل از وقوع پیشبینی شود میتوان تا حد زیادی در هزینهها صرفهجویی کرد.
4. تجویزی(Prescriptive)
این نوع از تحلیل پیچیدهترین و پرهزینهترین نوع تحلیل بیگ دیتا است. در این نوع تحلیل راهکار مشکلاتی که هنوز اتفاق نیافتادهاند هم مشخص میشود.
متخصصین علوم داده میگویند هر انسانی که در حال حاضر در شهری پیشرفته زندگی میکند و به لوازم دیجیتال دسترسی دارد در هر ثانیه حدود ۱/۵ مگابایت دادهتولید میکند. این رقم هر روز بزرگتر میشود و این دادهها با سرعت بیشتری ذخیره میشود.
بیگ دیتا در معنای دقیقش چیز عجیبی نیست. در واقع ما انسانها میدانستیم که با داشتن دادههای بیشتر میتوان ارتباط پدیدهها را کشف کرد، اما امکانات و بستری برای این کار نداشتیم.
به لطف اینترنت و ظهور سایر فناوریها این بستر فراهم شد و در آیندهای نزدیک با گسترش بیشتر اینترنت اشیاء سرعت و حجم تولید داده افزایش چشمگیری خواهد داشت.
در این که کسبوکارها ناچارند به سمت فرایندهای دادهمحور بروند شکی نیست اما آنهایی موفق خواهند شد که هرچه زودتر وارد این عرصه شوند.
اکثر شرکتهای بزرگ با مشکل پیدا کردن مقادیر در میان حجم زیادی از دادهها روبرو هستند، حجم عظیمی از دادهها که در طول سالها جمعآوری کردهاند. بسته به بخش کسب و کاری که تجارت مورد نظر با آن سروکار دارد، روشهای مختلفی برای تحلیل دادهها جهت شناسایی کسب و کارهای جدید، بهینهسازی بهرهوری عملیاتی و غیره مورد استفاده قرار گرفتهاند تا فروش کل را افزایش دهند.
ما در این مقاله سعی کردیم تا چندین حوزه از صنایع مختلفی را ارائه دهیم که کاربردهای کلان دادهها و تحلیلهای آن به طور موثری در این حوزهها مورد استفاده قرار گرفتهاند. شناسایی حوزههای جدید و بررسی راهحلهای جدید میتواند مسیر تمرکز مطالعاتی برای آینده باشد. شرکتها ارزش را در سرمایهگذاری بر روی استراتژیهای داده-محور دانسته و پی بردهاند که برای پیشرفت در میدان رقابت، استراتژی کلان دادهها یک جزء کلیدی در کسب و کار است.