ویرگول
ورودثبت نام
مجتبی آهنگری
مجتبی آهنگری
خواندن ۱۴ دقیقه·۴ سال پیش

کاربرد big data قسمت اول


بسم الله الرحمن الرحیم

موسسه آموزش عالی صدرالمتالهین

گروه مهندسی نرم افزار

عنوان: کاربرد Big Data

توسط: مجتبی آهنگری -951215271007

استاد: جناب آقای داوود یعقوبی تبار

خرداد 99


چکیده

در طول چند دهه‌ی گذشته، سازمان‌های بزرگ تجاری در زمینه‌های مختلف اقدام به جمع‌آوری داده‌ها از بخش‌های متفاوت و در قالب‌های متعدد کرده‌اند و تلاش نموده‌اند تا مجموعه‌دادگان را به هم ارتباط داده و بر اساس آنها تصمیمات با ارزش تجاری اتخاذ نمایند. مانع کلیدی در اجرای این امر، ناتوانی سیستم‌های موجود برای پردازش داده‌های بزرگی است که بخشی از این داده‌ها دارای ساختار و بخشی دیگر بدون ساختار هستند. گام‌های بلند فناوری در طول چند سال گذشته توانسته است تا ناتوانی پردازش مجموعه‌دادگان بزرگ را رفع کرده و توانایی کاوش و تحلیل داده‌های بزرگ را فراهم نماید. شرکت‌هایی که در حوزه‌ی انبار داده‌ها هستند، این روند را به عنوان فرصت بزرگی در جهت کمک به کاربران خود دیده‌اند تا کاربران بتوانند به کاوش پیشینه‌ی داده‌های خود بپردازند و بر اساس دیدی که از کاوش داده‌های جمع شده‌ی خود در طول دهه‌ها به دست می‌آورند، به کسب و کار خود ارزش‌های تاکتیکی و استراتژیک بیفزایند. در این فصل، ما نمونه‌های کلی را خواهیم دید که چگونه کسب و کارهای مختلف به تحلیل داده‌های خود می‌پردازند و با استفاده از آنها اهداف تجاری خود را ارتقا می‌دهند. ما چندین مثال در زمینه‌های خدمات مالی، خرده‌فروشی، ساخت و تولید، ارتباطات، رسانه‌های اجتماعی، و مراقبت از سلامتی ارائه خواهیم داد.

1. مقدمه

تمام شرکت‌های بزرگ با محیط‌های به شدت رقابتی و با فشار ثابت روبرو هستند تا سودآوری را با استفاده از شناسایی راهکارهای عملیاتی افزایش دهند و در عین حال خطر کسب و کار را نیز به حداقل برسانند. تمام کسب و کارهای بزرگ به اهمیت تحلیل پیشینه و سوابق داده‌ها پی برده‌اند، پیشینه‌ی داده‌ها در واقع داده‌هایی هستند که این شرکت‌ها در طی سالیان دراز آنها را جمع‌آوری کرده‌اند، و تحلیل این داده‌ها به بخشی جدایی‌ناپذیر برای گرفتن تصمیمات استراتژیک در این شرکت‌ها تبدیل شده است. بنابراین انگیزه‌ی زیادی وجود دارد که سیستم‌های یکپارچه‌ای برای مدیریت داده‌ها راه‌اندازی شده و از هوش تجاری و روش‌های تحلیل برای بهبود کسب و کار آنها استفاده شود.

در سال‌های گذشته، تحلیل‌های کلان داده‌ها توجه گسترده‌ای را در کاربردهای متعدد و در حوزه‌های مختلف، هم در صنعت و هم در دانشگاه به خود جلب نموده است. اگر چه این حوزه در دهه‌ی گذشته پیشرفت چشمگیری داشته است، با این حال همچنان مشکلات چالش‌برانگیزی وجود دارد و باید برای مسائل جدید و پیچیده در بازار رو به رشد این حوزه راه‌حل‌هایی یافته شوند. روش‌های مختلفی در مدلسازی، تحلیل آماری، داده‌کاوی، و یادگیری ماشین برای پیش‌بینی رویدادهای بعدی در آینده و پیش‌بینی رفتارهای مشتری مورد استفاده قرار می‌گیرند تا پس از آن بر اساس این موارد، اقدامات فعالانه‌ای برای حفاظت و ارتقای اهداف کسب و کار انجام شوند.

در بخش‌های زیر، ما بررسی سطح بالایی بر چالش‌های مطرح شده توسط صنایع مختلف ارائه خواهیم داد و همچنین در این مورد بحث می‌کنیم که کلان داده‌ها چگونه برای حل این چالش‌ها در بخش‌های مربوط به کسب و کار آنها مورد استفاده قرار می‌گیرد. اگر چه تحلیل‌های کلان داده‌ها پتانسیل استفاده شدن در صنایع حوزه‌های مختلفی را دارند، ولی ما بررسی خود را به تعداد کمی از این حوزه‌ها، یعنی حوزه‌ی بانکی و مالی (بخش 2)، خرده‌فروشی (بخش 3)، ساخت و تولید (بخش 4)، مخابرات (بخش 5)، رسانه‌های اجتماعی (بخش 6)، و مراقبت از سلامتی (سلامتی 7) محدود می‌کنیم.

2. معماری مرجع کلان داده‌ها

شکل 1 چارچوب معماری سطح بالایی از یک سیستم معمولی کلان داده‌ها را نشان می‌دهد که شامل اجزای زیر است:

1. جمع‌آوری داده‌ها از منابع مختلف،

2. زیرساختی برای انجام تبدیل‌های گوناگون بر روی داده‌ها،

3. ذخیره‌سازی داده‌ها در مخازن مختلف،

4. اجرای موتورهای تحلیلی با عملکرد بالا،

مجموعه ابزار گزارش‌دهی و نمایش نتایج و فرآیندها.

شکل 1. معماری زیرساخت کلان داده‌ها
شکل 1. معماری زیرساخت کلان داده‌ها

منابع داده‌ها می‌توانند برگرفته از سیستم‌های عملیاتی باشند که ساختار خوبی دارند (مانند طرح‌ها/ جداول/ ستون‌ها/ غیره) یا می‌توانند بدون ساختار باشند مانند داده‌های رسانه‌های اجتماعی، داده‌های جریان کلیک، رویدادهای ثبت شده، و داده‌های چندرسانه‌ای. اکثر داده‌های با ساختار (ساخت‌یافته) در محیط‌های معمولی برای ذخیره‌سازی داده‌ها ذخیره می‌شوند و داده‌های نیمه‌ساخت‌یافته و بدون ساختار (غیر ساخت‌یافته) نیز در خوشه‌های Hadoop ذخیره می‌شوند. داده‌ها در سیستم‌های جمع‌آوری‌کننده‌ی داده‌ها از قبیل بازار داده‌ها و انواع مختلف موتورهای تحلیلی توزیع می‌شوند، کاربران در این اماکن می‌توانند با استفاده از ابزارهای تحلیلی و گزارش‌دهی بر اساس SQL به پرس و جو (کوئری) بر روی این داده‌ها بپردازند و اطلاعات موردنیاز خود را بیابند. بسته به کاربرد مورد نظر، روش‌های تحلیلی مختلفی از قبیل تحلیل همبستگی، تحلیل روند و الگو، فیلترسازی مشارکتی، تحلیل سری‌های زمانی، تحلیل گراف، تحلیل مسیر، و تحلیل متن بر روی داده‌ها اجرا می‌شوند و این روش‌های تحلیلی پیش از نمایش داده‌ها انجام می‌گیرند، نمایش داده‌ها بر روی پیشخوان با استفاده از روش‌های متعدد بصری‌سازی و نمایش صورت می‌گیرد. بحث دقیقی بر روی این اجزاء در فصول قبلی ارائه شده است.

شرکت‌های فروشنده‌ی زیادی هستند که راه‌حل‌هایی را بر اساس معماری مرجع فوق ارائه می‌دهند، که Tera data و IBMدو نمونه از این شرکت‌ها می‌باشند.

شکل 2 بستر تحلیل کلان‌داده را نشان می‌دهد که متعلق به شرکت Tera data است و بستر معماری داده واحد نامیده می‌شود [2] و قابلیت‌های زیر را دارد:

1. ضبط و تبدیل داده‌ها از انواع منابع مختلفی که به صورت با ساختار، نیمه‌ساخت‌یافته، یا بدون ساختار هستند.

2. توانایی پردازش حجم عظیمی از داده‌ها با استفاده از Hadoop به همراه کشف داده‌ها و ادغام ذخایر داده‌ها.

3. پشتیبانی از توابع تحلیلی از پیش آماده در دسته‌هایی به صورت تحلیل مسیر، تحلیل خوشه، تحلیل آماری، تحلیل پیش‌بینی، تحلیل متن، تحلیل رابطه‌ای، و تحلیل گراف.

4. مقیاس‌پذیری و عملکرد بالا

شکل 2. معماری داده‌ی واحد شرکت Tera data
شکل 2. معماری داده‌ی واحد شرکت Tera data

اگر چه معماری مرجع نشان داده شده در شکل 1 به ارائه‌ی مجموعه‌ی کاملی از قابلیت‌هایی می‌پردازد که در هر برنامه‌ی کاربردی کلان‌داده‌ها موردنیاز هستند، با این حال لازم به ذکر است که تمام زیرسیستم‌های نشان داده شده در این مرجع لازم نیست که در هر برنامه‌ی کاربردی حضور داشته باشند و داشتن تمام این اجزاء برای تمام کاربردها الزامی نیست. در ادامه در بخش‌های زیر به ارائه‌ی چارچوب‌ها و اجزای آن برای کاربردهای خاص صنعت می‌پردازیم

کاربرد Big Data

1. کاربردهای کلان‌داده‌ها در بانکداری و صنایع مالی

مقادیر عظیمی از داده‌ها توسط صنایع مالی و بانکداری در حال تولید هستند، این داده‌ها از طریق سرویس‌های مختلفی تولید می‌شوند، از قبیل حساب‌های پس‌انداز/حسابرسی، بانکداری همراه، کارت‌های اعتباری و بدهی، وام‌ها، بیمه، و سرویس‌های سرمایه‌گذاری که همگی این سرویس‌ها توسط این صنایع ارائه می‌شوند. اکثر این داده‌های تولید شده به صورت داده‌های با ساختار (ساخت‌یافته) هستند. همچنین، اکثر این سازمان‌ها دارای شعب آنلاین نیز می‌باشند تا سرویس‌دهی و بازاریابی بهتری را ارائه دهند که مقادیر زیادی از داده‌ها نیز از این طریق جمع‌آوری می‌شوند. همانطور که در شکل 3 نشان داده شده است، برخی از کانال‌های جمع‌آوری داده‌ها عبارتند از:

· تعاملات مشتری از طریق پست‌های الکترونیکی و چت‌های ثبت شده؛

· شبکه‌های اجتماعی از طریق توییت‌ها و پُست‌ها/فیدهای Facebook؛ و

داده‌های نیمه-ساخت‌یافته از طریق logهای ثبت شده از وب و عقاید مشتری‌ها

شکل 3. تحلیل‌های کلان‌داده‌ها در صنعت بانکداری
شکل 3. تحلیل‌های کلان‌داده‌ها در صنعت بانکداری

اکثر داده‌های جمع‌آوری شده مورد استفاده قرار نمی‌گیرند، و صنعت به دنبال فناوری جدیدی در زمینه‌ی داده‌کاوی و تحلیل تجاری است تا به درک و شناسایی نیازهای مشتری و پیشنهاد سرویس‌های جدید کمک کند، که این امر فرصت‌های کسب و کار آنها را ارتقا داده و سود خالص و میزان سودبخشی را افزایش خواهند داد. همچنین صنعت مالی به دنبال راه‌حل‌هایی در زمینه‌ی مدیریت خطر و تشخیص کلاهبرداری نیز می‌باشد تا افشای اطلاعات محرمانه‌ی تجاری را به حداقل برساند. یکی دیگر از زمینه‌های مورد علاقه برای صنعت در استفاده از تحلیل‌های کلان‌داده‌ها، یافتن استراتژی‌هایی برای حفظ مشتری‌ها می‌باشد.

در بخش‌های زیر، ما در مورد نحوه‌ی استفاده از تحلیل‌های کلان‌داده‌ها در برخی از این حوزه‌های مهم با جزئیات بیشتری بحث می‌کنیم.

1-1. تشخیص کلاهبرداری

بررسی‌ها و مطالعات متعدد نشان می‌دهند که صنعت سرویس‌های مالی و بانکداری در میان صنایع مختلف، قربانی بسیاری از موارد کلاهبرداری می‌باشد. برخی از کلاهبرداری‌هایی که به طور گسترده در صنعت بانکداری شناخته می‌شوند، عبارتند از:

1. کلاهبرداری آنلاین بانکی: این نوع کلاهبرداری شامل کلاهبردارانی است که دسترسی به حساب قربانیان را در دست گرفته و تراکنش‌هایی را انجام می‌دهند تا وجوه بانکی را از حساب‌های آنها خارج نمایند.

2. کلاهبرداری در کارت: این نوع کلاهبرداری شامل کلاهبردارانی است که اطلاعات کارت بانکی را ربوده و تراکتش‌های تقلبی را انجام می‌دهند.

3. کلاهبرداری در داخل سیستم بانکی: این نوع شامل کلاهبرداری‌هایی است که توسط کارکنان بانک انجام می‌شوند.

4. پولشویی: جُرمی است که شامل تراکنش‌هایی عمدتا با بانک‌های خارجی می‌باشد تا از این طریق ریشه‌های ثروت‌های غیرقانونی را پنهان کنند.

رویکرد رایج و معمولی برای غربال این موارد، گزارش به صورت دستی و استفاده از قوانین مختلف است که این رویکرد تنها برای روند پذیرش عملیات بانکی مفید بوده و برای تشخیص کلاهبرداری و متوقف کردن خسارت مفید نمی‌باشد. صنعت مالی نیاز دارد که تشخیص کلاهبرداری به صورت بی‌درنگ انجام شود تا تراکنش‌های مربوط به کلاهبرداران به صورت بی‌درنگ شناسایی شده و اجرای آنها متوقف شود .

استفاده از تحلیل‌ها برای تشخیص الگوهای رفتار کلاهبرداری، عنصر کلیدی در تشخیص کلاهبرداری است. این امر نیاز به درک روشنی از رفتار گذشته‌ی مشتری از لحاظ ماهیت تراکنش‌ها دارد تا بتوان تراکنش‌های سالم و تراکنش‌های مربوط به کلاهبرداری را به طور موثری تفکیک نمود، این کار با تحلیل تراکنش‌ها بر اساس پروفایل مشتری صورت می‌گیرد، تراکنش‌هایی که ممکن است شامل یک نمره منفی (امتیاز خطر) باشد. این فرآیند امتیاز دادن به تراکنش‌ها نیاز دارد که ماهیت غیرقابل پیش‌بینی بودن تراکنش‌ها بر اساس رفتار مشتری‌های مختلف در نظر گرفته شود، چرا که مجموعه‌ی مشتری‌ها شامل مشتریان عادی و مُجرمان است.

از این رو تشخیص کلاهبرداری شامل یک فرآیند دو مرحله‌ای است که عبارتند از:

ایجاد پروفایل مشتریان بر اساس سوابق تراکنش‌ها و شناسایی الگوی تراکنش‌هایی که منجر به کلاهبرداری می‌شوند.

پروفایل مشتریان برای شناسایی هر گونه نمونه‌ی پَرت یا تطابقی از توالی‌ها / رویدادها با الگوهای از پیش‌تعریف شده‌ی کلاهبرداری‌ها مورد استفاده قرار گرفته و از انجام تراکنش‌های احتمالا مرتبط با کلاهبرداری پیشگیری شود.

ایجاد پروفایل مشتریان به صورت استفاده از روش‌های آماری با استفاده از محاسبه‌ی میانگین آماری، مقادیر بیشینه و کمینه، انحراف معیار و غیره بر روی سوابق تراکنش‌ها است تا ترکیبی از تراکنش‌های معمولی به دست آید. شکل دیگری از ایجاد پروفایل مشتریان به صورت به دست آوردن روابطی است که تراکنش‌ها میان چه کسانی انجام شده‌اند. روش‌های گرافیکی برای ثبت روابط موجود در شبکه مورد استفاده قرار می‌گیرند و این کار را با استفاده از انطباق تراکنش‌ها بین مشتریانی انجام می‌دهند که از روش‌های پرداخت استفاده کرده‌اند. شکل 4 جریان ایجاد این الگوها و پروفایل مشتریان را نشان می‌دهد.

شکل 4. ایجاد پروفایل مشتری برای تشخیص کلاهبرداری
شکل 4. ایجاد پروفایل مشتری برای تشخیص کلاهبرداری

شکل 5 جریان تشخیص بی‌درنگ کلاهبرداری و جداسازی آن در حین اجرای یک تراکنش را نشان می‌دهد. اگر تراکنش انجام شده از نظر مقدار تراکنش، اتصال تراکنش، و غیره با پروفایل مشتری مطابقت ندارد، آنگاه برای بررسی‌هایی در سطوح بالاتر تشخیص داده می‌شود. تشخیص آماری نمونه‌ی پرت بر اساس سوابق آماری در پروفایل مشتری یکی از روش‌های تشخیص تراکنش مشکوک است

شکل 5. تشخیص بی‌درنگ کلاهبرداری با استفاده از پروفایل مشتری
شکل 5. تشخیص بی‌درنگ کلاهبرداری با استفاده از پروفایل مشتری

تحلیل الگو در رویداد تراکنش‌ها و مقایسه‌ی آن با الگوهای از پیش‌تعریف شده‌ی فعالیت‌های کلاهبرداری، روش محبوبی است که در شناسایی بی‌درنگ هر گونه مشتری کلاهبردار مورد استفاده قرار می‌گیرد. روش‌های تحلیل سری‌های زمانی نیز برای شناسایی این مورد به کار گرفته می‌شود که آیا فعالیت مشتری با قوانین تجاری که عنوان کلاهبرداری تعریف شده‌اند، مطابقت دارد یا خیر

1-2. پولشویی

پولشویی یک نوع کلاهبرداری پیچیده‌تری است، و تشخیص آن نیاز به راه‌اندازی مراحل پیچیده‌تر و ادغام سیستم‌های چند-بُعدی پایگاه‌داده‌ها را دارد که داده‌های هر یک از این پایگاه‌داده‌ها نیز از منابع مختلف مانند پایگاه‌داده‌های تراکنش‌های بانکی و اجرای قانون و غیره جمع‌آوری شده‌اند.

شبکه‌های پیچیده‌ای از روابط میان اجزای مختلف با استفاده از پیوند دادن داده‌های تولید شده بر روی منابع مختلف از قبیل تلفن، ایمیل، مرورگر وب، سوابق سفر و غیره شناسایی می‌شوند و بدین ترتیب پیوندهای موجود بین بازیگران آشنا و ناشناس تشخیص داده می‌شوند. گراف‌هایی از موسسات متصل بانکی، حساب‌های بانکی مشتری‌ها، و تراکنش‌های انجام شده‌ی بانکی در زمان‌های خاص با استفاده از وسایل خاص مورد استفاده قرار می‌گیرند تا به روش‌های شناسایی بالقوه پولشویی کمک نمایند. روش‌های تحلیل داده‌ها از قبیل خوشه‌بندی، دسته‌بندی، شناسایی داده‌های پَرت، و ابزارهای بصری‌سازی داده‌ها نیز می‌توانند برای تشخیص الگوها در تراکنش‌ها مورد استفاده قرار گیرند، تراکنش‌هایی که شامل حجم عظیمی از جابه‌جایی پول بین مجموعه‌ی خاصی از حساب‌ها هستند. این روش‌ها پتانسیل شناسایی الگوها و روابط بین فعالیت‌های کلیدی را دارند که این امر می‌تواند به شناسایی موارد مشکوک جهت تحقیق و رسیدگی بیشتر کمک نماید.

1-3. تحلیل خطر

به طور کلی، بانک‌ها و موسسات مالی روش‌هایی برای اندازه‌گیری میزان خطر و کاهش آن دارند. نیروهای مختلف بازاری با انواع مختلف خطرها روبرو هستند، و درک درستی از ضررهای احتمالی برای تمام شرایط ممکن مورد نیاز است.

علاوه بر انواع مختلف خطرها در صنایع مالی ، پیش‌بینی اعتبار دادن وام و حساب‌های کارت اعتباری نیز یکی از حوزه‌های مهمی است که به علت گستردگی این گونه حساب‌ها و کاهش ضررهای ناشی از آنها، به یکی از مسائل اساسی در کسب و کارها تبدیل شده است. پیش‌بینی عوامل مختلفی که در دادن اعتبار نقش اساسی دارند با استفاده از روش‌های داده‌کاوی انجام می‌شوند، روش‌هایی که مربوط به انتخاب ویژگی و ارتباط ویژگی هستند (شکل 6). بر اساس نتایج به دست آمده از تحلیل‌ها، بانک‌ها می‌توانند مشتریانی را شناسایی کنند که متعلق به دسته‌ی کم-خطر هستند یا مبالغ پرداخت مناسب و قابل قبولی را به مشتریان پیشنهاد دهند.

شکل 6. چارچوب تحلیل خطر مالی
شکل 6. چارچوب تحلیل خطر مالی

در قسمت بعدی این مقاله به موارد دیگر کاربردهای کلان داده و ویژگی آن خواهیم پرداخت.



مجتبی آهنگریدانشگاه صدرامهندسی نتکلان دادهمهندسی نرم افزار
شاید از این پست‌ها خوشتان بیاید