بسم الله الرحمن الرحیم
موسسه آموزش عالی صدرالمتالهین
گروه مهندسی نرم افزار
عنوان: کاربرد Big Data
توسط: مجتبی آهنگری -951215271007
استاد: جناب آقای داوود یعقوبی تبار
خرداد 99
در طول چند دههی گذشته، سازمانهای بزرگ تجاری در زمینههای مختلف اقدام به جمعآوری دادهها از بخشهای متفاوت و در قالبهای متعدد کردهاند و تلاش نمودهاند تا مجموعهدادگان را به هم ارتباط داده و بر اساس آنها تصمیمات با ارزش تجاری اتخاذ نمایند. مانع کلیدی در اجرای این امر، ناتوانی سیستمهای موجود برای پردازش دادههای بزرگی است که بخشی از این دادهها دارای ساختار و بخشی دیگر بدون ساختار هستند. گامهای بلند فناوری در طول چند سال گذشته توانسته است تا ناتوانی پردازش مجموعهدادگان بزرگ را رفع کرده و توانایی کاوش و تحلیل دادههای بزرگ را فراهم نماید. شرکتهایی که در حوزهی انبار دادهها هستند، این روند را به عنوان فرصت بزرگی در جهت کمک به کاربران خود دیدهاند تا کاربران بتوانند به کاوش پیشینهی دادههای خود بپردازند و بر اساس دیدی که از کاوش دادههای جمع شدهی خود در طول دههها به دست میآورند، به کسب و کار خود ارزشهای تاکتیکی و استراتژیک بیفزایند. در این فصل، ما نمونههای کلی را خواهیم دید که چگونه کسب و کارهای مختلف به تحلیل دادههای خود میپردازند و با استفاده از آنها اهداف تجاری خود را ارتقا میدهند. ما چندین مثال در زمینههای خدمات مالی، خردهفروشی، ساخت و تولید، ارتباطات، رسانههای اجتماعی، و مراقبت از سلامتی ارائه خواهیم داد.
تمام شرکتهای بزرگ با محیطهای به شدت رقابتی و با فشار ثابت روبرو هستند تا سودآوری را با استفاده از شناسایی راهکارهای عملیاتی افزایش دهند و در عین حال خطر کسب و کار را نیز به حداقل برسانند. تمام کسب و کارهای بزرگ به اهمیت تحلیل پیشینه و سوابق دادهها پی بردهاند، پیشینهی دادهها در واقع دادههایی هستند که این شرکتها در طی سالیان دراز آنها را جمعآوری کردهاند، و تحلیل این دادهها به بخشی جداییناپذیر برای گرفتن تصمیمات استراتژیک در این شرکتها تبدیل شده است. بنابراین انگیزهی زیادی وجود دارد که سیستمهای یکپارچهای برای مدیریت دادهها راهاندازی شده و از هوش تجاری و روشهای تحلیل برای بهبود کسب و کار آنها استفاده شود.
در سالهای گذشته، تحلیلهای کلان دادهها توجه گستردهای را در کاربردهای متعدد و در حوزههای مختلف، هم در صنعت و هم در دانشگاه به خود جلب نموده است. اگر چه این حوزه در دههی گذشته پیشرفت چشمگیری داشته است، با این حال همچنان مشکلات چالشبرانگیزی وجود دارد و باید برای مسائل جدید و پیچیده در بازار رو به رشد این حوزه راهحلهایی یافته شوند. روشهای مختلفی در مدلسازی، تحلیل آماری، دادهکاوی، و یادگیری ماشین برای پیشبینی رویدادهای بعدی در آینده و پیشبینی رفتارهای مشتری مورد استفاده قرار میگیرند تا پس از آن بر اساس این موارد، اقدامات فعالانهای برای حفاظت و ارتقای اهداف کسب و کار انجام شوند.
در بخشهای زیر، ما بررسی سطح بالایی بر چالشهای مطرح شده توسط صنایع مختلف ارائه خواهیم داد و همچنین در این مورد بحث میکنیم که کلان دادهها چگونه برای حل این چالشها در بخشهای مربوط به کسب و کار آنها مورد استفاده قرار میگیرد. اگر چه تحلیلهای کلان دادهها پتانسیل استفاده شدن در صنایع حوزههای مختلفی را دارند، ولی ما بررسی خود را به تعداد کمی از این حوزهها، یعنی حوزهی بانکی و مالی (بخش 2)، خردهفروشی (بخش 3)، ساخت و تولید (بخش 4)، مخابرات (بخش 5)، رسانههای اجتماعی (بخش 6)، و مراقبت از سلامتی (سلامتی 7) محدود میکنیم.
شکل 1 چارچوب معماری سطح بالایی از یک سیستم معمولی کلان دادهها را نشان میدهد که شامل اجزای زیر است:
1. جمعآوری دادهها از منابع مختلف،
2. زیرساختی برای انجام تبدیلهای گوناگون بر روی دادهها،
3. ذخیرهسازی دادهها در مخازن مختلف،
4. اجرای موتورهای تحلیلی با عملکرد بالا،
مجموعه ابزار گزارشدهی و نمایش نتایج و فرآیندها.
منابع دادهها میتوانند برگرفته از سیستمهای عملیاتی باشند که ساختار خوبی دارند (مانند طرحها/ جداول/ ستونها/ غیره) یا میتوانند بدون ساختار باشند مانند دادههای رسانههای اجتماعی، دادههای جریان کلیک، رویدادهای ثبت شده، و دادههای چندرسانهای. اکثر دادههای با ساختار (ساختیافته) در محیطهای معمولی برای ذخیرهسازی دادهها ذخیره میشوند و دادههای نیمهساختیافته و بدون ساختار (غیر ساختیافته) نیز در خوشههای Hadoop ذخیره میشوند. دادهها در سیستمهای جمعآوریکنندهی دادهها از قبیل بازار دادهها و انواع مختلف موتورهای تحلیلی توزیع میشوند، کاربران در این اماکن میتوانند با استفاده از ابزارهای تحلیلی و گزارشدهی بر اساس SQL به پرس و جو (کوئری) بر روی این دادهها بپردازند و اطلاعات موردنیاز خود را بیابند. بسته به کاربرد مورد نظر، روشهای تحلیلی مختلفی از قبیل تحلیل همبستگی، تحلیل روند و الگو، فیلترسازی مشارکتی، تحلیل سریهای زمانی، تحلیل گراف، تحلیل مسیر، و تحلیل متن بر روی دادهها اجرا میشوند و این روشهای تحلیلی پیش از نمایش دادهها انجام میگیرند، نمایش دادهها بر روی پیشخوان با استفاده از روشهای متعدد بصریسازی و نمایش صورت میگیرد. بحث دقیقی بر روی این اجزاء در فصول قبلی ارائه شده است.
شرکتهای فروشندهی زیادی هستند که راهحلهایی را بر اساس معماری مرجع فوق ارائه میدهند، که Tera data و IBMدو نمونه از این شرکتها میباشند.
شکل 2 بستر تحلیل کلانداده را نشان میدهد که متعلق به شرکت Tera data است و بستر معماری داده واحد نامیده میشود [2] و قابلیتهای زیر را دارد:
1. ضبط و تبدیل دادهها از انواع منابع مختلفی که به صورت با ساختار، نیمهساختیافته، یا بدون ساختار هستند.
2. توانایی پردازش حجم عظیمی از دادهها با استفاده از Hadoop به همراه کشف دادهها و ادغام ذخایر دادهها.
3. پشتیبانی از توابع تحلیلی از پیش آماده در دستههایی به صورت تحلیل مسیر، تحلیل خوشه، تحلیل آماری، تحلیل پیشبینی، تحلیل متن، تحلیل رابطهای، و تحلیل گراف.
4. مقیاسپذیری و عملکرد بالا
اگر چه معماری مرجع نشان داده شده در شکل 1 به ارائهی مجموعهی کاملی از قابلیتهایی میپردازد که در هر برنامهی کاربردی کلاندادهها موردنیاز هستند، با این حال لازم به ذکر است که تمام زیرسیستمهای نشان داده شده در این مرجع لازم نیست که در هر برنامهی کاربردی حضور داشته باشند و داشتن تمام این اجزاء برای تمام کاربردها الزامی نیست. در ادامه در بخشهای زیر به ارائهی چارچوبها و اجزای آن برای کاربردهای خاص صنعت میپردازیم
1. کاربردهای کلاندادهها در بانکداری و صنایع مالی
مقادیر عظیمی از دادهها توسط صنایع مالی و بانکداری در حال تولید هستند، این دادهها از طریق سرویسهای مختلفی تولید میشوند، از قبیل حسابهای پسانداز/حسابرسی، بانکداری همراه، کارتهای اعتباری و بدهی، وامها، بیمه، و سرویسهای سرمایهگذاری که همگی این سرویسها توسط این صنایع ارائه میشوند. اکثر این دادههای تولید شده به صورت دادههای با ساختار (ساختیافته) هستند. همچنین، اکثر این سازمانها دارای شعب آنلاین نیز میباشند تا سرویسدهی و بازاریابی بهتری را ارائه دهند که مقادیر زیادی از دادهها نیز از این طریق جمعآوری میشوند. همانطور که در شکل 3 نشان داده شده است، برخی از کانالهای جمعآوری دادهها عبارتند از:
· تعاملات مشتری از طریق پستهای الکترونیکی و چتهای ثبت شده؛
· شبکههای اجتماعی از طریق توییتها و پُستها/فیدهای Facebook؛ و
دادههای نیمه-ساختیافته از طریق logهای ثبت شده از وب و عقاید مشتریها
اکثر دادههای جمعآوری شده مورد استفاده قرار نمیگیرند، و صنعت به دنبال فناوری جدیدی در زمینهی دادهکاوی و تحلیل تجاری است تا به درک و شناسایی نیازهای مشتری و پیشنهاد سرویسهای جدید کمک کند، که این امر فرصتهای کسب و کار آنها را ارتقا داده و سود خالص و میزان سودبخشی را افزایش خواهند داد. همچنین صنعت مالی به دنبال راهحلهایی در زمینهی مدیریت خطر و تشخیص کلاهبرداری نیز میباشد تا افشای اطلاعات محرمانهی تجاری را به حداقل برساند. یکی دیگر از زمینههای مورد علاقه برای صنعت در استفاده از تحلیلهای کلاندادهها، یافتن استراتژیهایی برای حفظ مشتریها میباشد.
در بخشهای زیر، ما در مورد نحوهی استفاده از تحلیلهای کلاندادهها در برخی از این حوزههای مهم با جزئیات بیشتری بحث میکنیم.
بررسیها و مطالعات متعدد نشان میدهند که صنعت سرویسهای مالی و بانکداری در میان صنایع مختلف، قربانی بسیاری از موارد کلاهبرداری میباشد. برخی از کلاهبرداریهایی که به طور گسترده در صنعت بانکداری شناخته میشوند، عبارتند از:
1. کلاهبرداری آنلاین بانکی: این نوع کلاهبرداری شامل کلاهبردارانی است که دسترسی به حساب قربانیان را در دست گرفته و تراکنشهایی را انجام میدهند تا وجوه بانکی را از حسابهای آنها خارج نمایند.
2. کلاهبرداری در کارت: این نوع کلاهبرداری شامل کلاهبردارانی است که اطلاعات کارت بانکی را ربوده و تراکتشهای تقلبی را انجام میدهند.
3. کلاهبرداری در داخل سیستم بانکی: این نوع شامل کلاهبرداریهایی است که توسط کارکنان بانک انجام میشوند.
4. پولشویی: جُرمی است که شامل تراکنشهایی عمدتا با بانکهای خارجی میباشد تا از این طریق ریشههای ثروتهای غیرقانونی را پنهان کنند.
رویکرد رایج و معمولی برای غربال این موارد، گزارش به صورت دستی و استفاده از قوانین مختلف است که این رویکرد تنها برای روند پذیرش عملیات بانکی مفید بوده و برای تشخیص کلاهبرداری و متوقف کردن خسارت مفید نمیباشد. صنعت مالی نیاز دارد که تشخیص کلاهبرداری به صورت بیدرنگ انجام شود تا تراکنشهای مربوط به کلاهبرداران به صورت بیدرنگ شناسایی شده و اجرای آنها متوقف شود .
استفاده از تحلیلها برای تشخیص الگوهای رفتار کلاهبرداری، عنصر کلیدی در تشخیص کلاهبرداری است. این امر نیاز به درک روشنی از رفتار گذشتهی مشتری از لحاظ ماهیت تراکنشها دارد تا بتوان تراکنشهای سالم و تراکنشهای مربوط به کلاهبرداری را به طور موثری تفکیک نمود، این کار با تحلیل تراکنشها بر اساس پروفایل مشتری صورت میگیرد، تراکنشهایی که ممکن است شامل یک نمره منفی (امتیاز خطر) باشد. این فرآیند امتیاز دادن به تراکنشها نیاز دارد که ماهیت غیرقابل پیشبینی بودن تراکنشها بر اساس رفتار مشتریهای مختلف در نظر گرفته شود، چرا که مجموعهی مشتریها شامل مشتریان عادی و مُجرمان است.
از این رو تشخیص کلاهبرداری شامل یک فرآیند دو مرحلهای است که عبارتند از:
ایجاد پروفایل مشتریان بر اساس سوابق تراکنشها و شناسایی الگوی تراکنشهایی که منجر به کلاهبرداری میشوند.
پروفایل مشتریان برای شناسایی هر گونه نمونهی پَرت یا تطابقی از توالیها / رویدادها با الگوهای از پیشتعریف شدهی کلاهبرداریها مورد استفاده قرار گرفته و از انجام تراکنشهای احتمالا مرتبط با کلاهبرداری پیشگیری شود.
ایجاد پروفایل مشتریان به صورت استفاده از روشهای آماری با استفاده از محاسبهی میانگین آماری، مقادیر بیشینه و کمینه، انحراف معیار و غیره بر روی سوابق تراکنشها است تا ترکیبی از تراکنشهای معمولی به دست آید. شکل دیگری از ایجاد پروفایل مشتریان به صورت به دست آوردن روابطی است که تراکنشها میان چه کسانی انجام شدهاند. روشهای گرافیکی برای ثبت روابط موجود در شبکه مورد استفاده قرار میگیرند و این کار را با استفاده از انطباق تراکنشها بین مشتریانی انجام میدهند که از روشهای پرداخت استفاده کردهاند. شکل 4 جریان ایجاد این الگوها و پروفایل مشتریان را نشان میدهد.
شکل 5 جریان تشخیص بیدرنگ کلاهبرداری و جداسازی آن در حین اجرای یک تراکنش را نشان میدهد. اگر تراکنش انجام شده از نظر مقدار تراکنش، اتصال تراکنش، و غیره با پروفایل مشتری مطابقت ندارد، آنگاه برای بررسیهایی در سطوح بالاتر تشخیص داده میشود. تشخیص آماری نمونهی پرت بر اساس سوابق آماری در پروفایل مشتری یکی از روشهای تشخیص تراکنش مشکوک است
تحلیل الگو در رویداد تراکنشها و مقایسهی آن با الگوهای از پیشتعریف شدهی فعالیتهای کلاهبرداری، روش محبوبی است که در شناسایی بیدرنگ هر گونه مشتری کلاهبردار مورد استفاده قرار میگیرد. روشهای تحلیل سریهای زمانی نیز برای شناسایی این مورد به کار گرفته میشود که آیا فعالیت مشتری با قوانین تجاری که عنوان کلاهبرداری تعریف شدهاند، مطابقت دارد یا خیر
پولشویی یک نوع کلاهبرداری پیچیدهتری است، و تشخیص آن نیاز به راهاندازی مراحل پیچیدهتر و ادغام سیستمهای چند-بُعدی پایگاهدادهها را دارد که دادههای هر یک از این پایگاهدادهها نیز از منابع مختلف مانند پایگاهدادههای تراکنشهای بانکی و اجرای قانون و غیره جمعآوری شدهاند.
شبکههای پیچیدهای از روابط میان اجزای مختلف با استفاده از پیوند دادن دادههای تولید شده بر روی منابع مختلف از قبیل تلفن، ایمیل، مرورگر وب، سوابق سفر و غیره شناسایی میشوند و بدین ترتیب پیوندهای موجود بین بازیگران آشنا و ناشناس تشخیص داده میشوند. گرافهایی از موسسات متصل بانکی، حسابهای بانکی مشتریها، و تراکنشهای انجام شدهی بانکی در زمانهای خاص با استفاده از وسایل خاص مورد استفاده قرار میگیرند تا به روشهای شناسایی بالقوه پولشویی کمک نمایند. روشهای تحلیل دادهها از قبیل خوشهبندی، دستهبندی، شناسایی دادههای پَرت، و ابزارهای بصریسازی دادهها نیز میتوانند برای تشخیص الگوها در تراکنشها مورد استفاده قرار گیرند، تراکنشهایی که شامل حجم عظیمی از جابهجایی پول بین مجموعهی خاصی از حسابها هستند. این روشها پتانسیل شناسایی الگوها و روابط بین فعالیتهای کلیدی را دارند که این امر میتواند به شناسایی موارد مشکوک جهت تحقیق و رسیدگی بیشتر کمک نماید.
به طور کلی، بانکها و موسسات مالی روشهایی برای اندازهگیری میزان خطر و کاهش آن دارند. نیروهای مختلف بازاری با انواع مختلف خطرها روبرو هستند، و درک درستی از ضررهای احتمالی برای تمام شرایط ممکن مورد نیاز است.
علاوه بر انواع مختلف خطرها در صنایع مالی ، پیشبینی اعتبار دادن وام و حسابهای کارت اعتباری نیز یکی از حوزههای مهمی است که به علت گستردگی این گونه حسابها و کاهش ضررهای ناشی از آنها، به یکی از مسائل اساسی در کسب و کارها تبدیل شده است. پیشبینی عوامل مختلفی که در دادن اعتبار نقش اساسی دارند با استفاده از روشهای دادهکاوی انجام میشوند، روشهایی که مربوط به انتخاب ویژگی و ارتباط ویژگی هستند (شکل 6). بر اساس نتایج به دست آمده از تحلیلها، بانکها میتوانند مشتریانی را شناسایی کنند که متعلق به دستهی کم-خطر هستند یا مبالغ پرداخت مناسب و قابل قبولی را به مشتریان پیشنهاد دهند.
در قسمت بعدی این مقاله به موارد دیگر کاربردهای کلان داده و ویژگی آن خواهیم پرداخت.