خواندن ۹ دقیقه·۳ سال پیش

مقایسه تکنیک های طبقه بندی به کار رفته برای تشخیص نفوذ (مقاله ترجمه شده)

چکیده

در تحقیق قبلی، یک سیستم ایمنی مصنوعی چندگانه برای شناسایی و طبقه‌بندی نفوذ شبکه پیشنهاد و آزمایش شد که در آن یک فرایند تشخیص و طبقه‌بندی چندلایه روی هر عامل برای هر میزبان در شبکه اجرا شد. در این مقاله، ما آزمایش‌هایی را انجام می‌دهیم که با طبقه‌بندی‌های مختلف طبقه‌بندی‌های مناسب را انتخاب کرده و آن‌ها را مقایسه می‌کنیم تا دقت تشخیص را افزایش دهیم و اطلاعات بیشتری در مورد ناهنجاری‌های تشخیصی به دست آوریم. نشان داده خواهد شد که به دلیل نرخ‌های مختلف طبقه‌بندی به‌دست‌آمده، هیچ طبقه‌بندی نمی‌بایست برای تمام انواع حملات استفاده شود. این به خاطر نمایش حملات در مجموعه سلسله و وابستگی بین ویژگی‌های مورداستفاده برای شناسایی آن‌ها است. همچنین نشان داده خواهد شد که یک طبقه‌بندی کننده ساده و اساسی مانند Naive Bayes دارای نتایج طبقه‌بندی بهتر در مورد حملات کم نشان داده‌شده است و درخت تصمیم‌گیری اولیه مانند درخت Naive-Bayes Tree و Best-First نتایج بسیار خوبی نسبت به J48 معروف (اجرای وکا C4.5) و درخت تصمیم‌گیری Random Forest ارائه می‌دهد. بر اساس این آزمایش‌ها و نتایج آن‌ها، طبقه‌بندی کننده‌های Naive Bayes و Best-First برای طبقه‌بندی ترافیک ناشناخته انتخاب شدند. نشان داده‌شده است که در مرحله تشخیص 90٪ ناهنجاری‌ها شناسایی‌شده و در مرحله طبقه‌بندی 88٪ از مثبت‌های کاذب با موفقیت به‌عنوان اتصالات ترافیکی عادی برچسب‌گذاری شده و 79٪ از حملات DoS و Probe به‌درستی توسط NB، NBTree و طبقه‌بندی کننده BFTree برچسب‌گذاری شده‌اند.

معرفی

امروزه دستگاه‌های کامپیوتری معمولاً به هم متصل هستند که به دستگاه‌های توزیع‌شده بزرگ وصل هستند که در دنیای محاسبات صنعتی ضروری هستند. دستگاه‌های نرم‌افزاری امروز نیازمند روندهایی مانند اتصالات، هوش و فراگیری هستند که همگی منجر به ایجاد دستگاه‌های چند عامل شد. دستگاه‌های چندگانه رفتار هوشمندانه انسان و نحوه ارتباط انسان‌ها با یکدیگر و با محیط آن‌ها برای دستیابی به اهداف خاص را تقلید می‌کند. یکی از دستگاه‌هایی که می‌تواند به‌صورت موفقیت‌آمیز و کارآمد به‌عنوان یک سیستم‌عامل چندگانه اجرا شود، دستگاه‌های ایمنی مصنوعی (AIS) است. سیستم ایمنی مصنوعی یک منطقه پژوهشی است که شامل ایمنی‌شناسی، علوم رایانه و مهندسی است. با الهام از دستگاه‌های ایمنی طبیعی، سه زمینه اصلی تحقیق تحت AIS قرار می‌گیرند: مدل‌سازی ایمنی، AIS های نظری و AIS های کاربردی. مدل‌سازی ایمن در مورد مدل‌های ایمنی و شبیه‌سازی سیستم ایمنی است. پژوهش AIS های نظری در مورد توضیح و نفوذ به جنبه‌های نظری الگوریتم‌های AIS، مدل‌های ریاضی و عملکرد و تجزیه‌وتحلیل پیچیدگی آن‌ها است. درنهایت، تحقیق AIS های کاربردی در مورد توسعه و اجرای الگوریتم‌ها و دستگاه‌های کامپیوتری الهام گرفته از دستگاه‌های ایمنی است که از آن‌ها برای انواع برنامه‌های کاربردی دنیای واقعی استفاده می‌شود.

با توجه به دستگاه‌های کامپیوتری می‌توانیم بفهمیم که مفهوم خود/ غیر خود در قالب فعالیت‌ها و عناصری معمولی/ غیرعادی اعمال می‌شود. دستگاه‌های تشخیص نفوذ (IDS) دستگاه‌های امنیتی قدرتمندی هستند که انواع مختلفی برای اهداف حفاظتی دارند. آن‌ها ابزار امنیتی خاصی را جایگزین نمی‌کنند، بلکه به‌جای آن، یک خط دفاعی در برابر نفوذها و تهدیدات از داخل سیستم (یک کامپیوتر یا یک شبکه) و همچنین از خارج- درست مانند سیستم ایمنی اضافه می‌کنند. IDS ها می‌توانند به روش‌های مختلف دسته‌بندی شوند، اما اساساً می‌توان آن‌ها را به IDS هایی مبتنی بر سوءاستفاده و ناهنجار تقسیم کرد. IDS های سوءاستفاده که همچنین به‌عنوان مبتنی بر امضا یا دانش شناخته می‌شوند، بستگی به تشخیص نفوذ با استفاده از الگوهای نشان‌دهنده حملات شناخته‌شده دارد. این الگوها یا امضاها با رویدادها برای یافتن نفوذهای ممکن مقایسه می‌شوند. IDS های غیرمتعارف که همچنین به‌عنوان IDS های مبتنی بر رفتار شناخته می‌شود، به ساخت یک نمایه بستگی دارد که رفتار طبیعی یک سیستم را با نظارت بر فعالیت‌های آن در طول زمان نشان می‌دهد. سپس هر انحراف از آن نمایه، یک ناهنجاری است. نمایه‌ها می‌توانند ایستا یا پویا باشند و با استفاده از بسیاری از ویژگی‌های سیستم توسعه می‌یابند.

فن‌های طبقه‌بندی داده‌ها

طبقه‌بندی فرآیند اختصاص یک برچسب طبقه به شی‌ء (اشیاء) طبقه‌بندی نشده بر اساس مجموعه‌ای از ویژگی‌های تعریف‌شده است. یک طبقه‌بندی کننده ابتدا باید آن دانش را با یادگیری ارائه دسته‌ها با استفاده از یک مجموعه داده‌شده از نمونه‌های طبقه‌بندی‌شده پیشین دریافت کند. یک طبقه‌بندی کننده می‌تواند به‌عنوان یک پیش‌بینی کننده برای اشیاء طبقه‌بندی نشده یا یک توصیفگر برای اشیاء طبقه‌بندی‌شده عمل کند. رویکردهای بسیاری مانند درختان تصمیم‌گیری، رویکردهای مبتنی بر قانون، طبقه‌بندی‌های بیزی، شبکه‌های عصبی، طبقه‌بندی کننده‌های ژنتیک، ماشین‌های بردار پشتیبانی و بسیاری دیگر وجود دارد. یک طبقه‌بندی کننده با دقت پیش‌بینی آن، سرعت، استحکام، مقیاس‌پذیری، تفسیرپذیری، سادگی و شاخص‌های کیفیت وابسته به دامنه ارزیابی می‌شود.

طبقه‌بندی کننده Bayes Naïve

این مطلب تئوری Bayes را با فرضیه‌های استقلال قوی به‌عنوان یک طبقه‌بندی کننده ساده احتمالی اعمال می‌کند. فرض بر این است که وجود یا فقدان یک ویژگی مستقل از وجود یا فقدان ویژگی‌های دیگر است - ویژگی‌ها نامرتبط هستند که اجرای آن‌ها ساده، بهینه و درست است. اگر برخی اطلاعات و داده‌های آموزشی داشته باشیم، می‌توان از طبقه‌بندی کننده NB استفاده کرد و ما باید احتمالات را از داده‌های محدود برآورد کنیم. مزیت اصلی آن این است که زمان زیادی برای آموزش نیاز ندارد.

سیستم تشخیص و طبقه‌بندی دولایه

سیستم چندلایه‌ای که قبلاً پیشنهادشده بود از دولایه تشکیل‌شده است که پیش از یک مرحله پیش‌پردازش می‌آیند. لایه اول - لایه تشخیص - روش انتخاب منفی را با استفاده از الگوریتم ژنتیک برای تشخیص نفوذ انحراف استفاده می‌کند، جایی که ردیاب‌ها برای شناسایی فعالیت‌های طبیعی آموزش می‌بینند تا هرگونه تفاوت (بیش از یک آستانه مشخص) را به‌عنوان یک ناهنجاری تشخیص دهند. لایه دوم - لایه طبقه‌بندی - از یک طبقه‌بندی کننده برای برچسب‌گذاری ترافیک با طبقه مناسب برای دسته‌های حمله و به حداقل رساندن هشدارهای نادرست استفاده می‌کند. هم ترافیک عادی و هم غیرعادی به طبقه‌بندی کننده داده می‌شود. روند در شکل 1 نشان داده‌شده است.

مرحله پیش‌پردازش داده

پیش‌پردازش داده‌ها شامل جایگزینی داده‌های نمادین مانند پروتکل و خدمات با مقادیر مجزا/ کامل و تقسیم‌بندی مقادیر به همگن و در حوزه‌ای محدود است. الگوریتم Binning Width برابر استفاده شد و مقادیر اصلی با اعداد باین مربوط به دامنه آن‌ها جایگزین شدند. اطلاعات بیشتر در مقاله قبلی موجود است.

آزمایش‌ها

این آزمایش با استفاده از مجموعه داده‌های ارزیابی IDS [21] NSL-KDDانجام شد. در تحقیقات پیشین، مجموعه داده KDD Cup 99 [15]بیشترین داده‌های معیار کاربردی برای ارزیابی عملکرد دستگاه‌های تشخیص نفوذ مبتنی بر شبکه بود. مشخص شد که مشکلاتی وجود دارد که الگوریتم یادگیری را منحرف می‌کند و نتایج به دلیل کپی کردن سوابق خود در هر دو مجموعه داده‌های آموزشی و آزمایشی نادرست است. مجموعه داده KDD Cup نیز برای ارزیابی بسیار وسیع است، بنابراین معمولاً بخش‌های کوچکی از داده‌ها برای ارزیابی مورداستفاده قرار می‌گیرند که منجر به نتایج نادرست نیز می‌شود؛ بنابراین، گروه محققین پرونده‌های اضافی را حذف کرده و مجموعه داده‌ها را به‌صورت متناسب برای به کسب تعادل انتخاب کردند و این امر به مجموعه داده NSL-KDD منجر شد. این تحقیق توسط بسیاری از محققین مورداستفاده قرارگرفته است، زیرا تعداد رکوردها برای داده‌های آموزشی و آزمون بسیار کمتر است، بنابراین کل مجموعه‌ها می‌توانند در آزمایش‌ها مورداستفاده قرار گیرند. چهار نوع عمومی حملات در مجموعه داده وجود دارد: رد خدمات (DoS)، کاوشگر، کاربر به ریشه (U2R) و دور به نزدیک (R2L). جدول 1 توزیع سوابق عادی و حملات در مجموعه داده NSL-KDD را نشان می‌دهد.

نتایج و بحث

دو مجموعه نتیجه از مرحله اول داریم، یکی مجموعه‌ای است که توسط آشکارسازهای تولیدشده با استفاده از اندازه‌گیری فاصله‌ای اقلیدسی و مجموعه‌ای دیگر توسط آشکارسازهای تولیدشده با استفاده از اندازه‌گیری فاصله Minkowski - هم برای مجموعه آموزشی و مجموعه آزمایش به دست می‌آید. فقط نتایج مجموعه آزمایش از طریق طبقه‌بندی کننده‌ها اجرا می‌شود.

نتایج طبقه‌بندی کننده‌ها

طبقه‌بندی کننده‌ها یک‌بار با استفاده از تنها 20 درصد مجموعه آموزشی و بار دیگر با استفاده از تمام مجموعه آموزشی آموزش‌دیده بودند. جدول 2 مقادیر دقت و فراخوانی برای هر طبقه‌بندی کننده را روی ترافیک ناهنجار حاصل از آشکارسازهای Minkowski نشان می‌دهد.

نتیجه‌گیری

در این مقاله، یک سیستم تشخیص نفوذ ترکیبی و سلسله مراتبی ارائه‌شده که مبتنی بر مفاهیم ایمنی است. طبقه‌بندی کننده‌های مختلف برای یافتن بهترین طبقه‌بندی کننده برای کسب اطلاعات بیشتر در مورد حملات شناخته‌شده و پیش‌بینی دسته حملات ناشناخته مورد آزمایش و مقایسه قرار گرفتند. می‌توانیم درک کنیم که به‌طورکلی، درخت‌های تصمیم‌گیری بهترین نتایج را ارائه می‌دهند، اما با توجه به هر دسته، طبقه‌بندی کننده‌ها نتایج مختلفی بر اساس ارائه این دسته‌ها در مجموعه داده‌ها و وابستگی بین ویژگی‌ها دارند. طبقه‌بندی کننده NBدارای بهترین نتایج در مورد حملات کم ارائه‌شده مانند R2L و U2Rاست. FT نتایج بسیار خوبی داشت، اما مدت‌زمان زیادی برای آموزش ساخت درختان تصادفی برای تصمیم‌گیری طبقه‌بندی نیاز داشت. NBTree و BFTree امتیازات بالاتری نسبت به J48 و RFTree داشتند؛ کاربرد آن‌ها بهتر است، زیرا زمان کمتری برای آموزش را نیاز دارند و در موارد ارائه بالای طبقات، تنها 20 درصد مجموعه آموزشی برای ارائه نتایج بسیار خوب کافی است.MLP بهترین نمرات را در طبقه‌بندی uhnd و DoSبرای ارائه بالای آن‌ها در مجموعه آموزشی به دست آورد، اما در موارد حملات U2R و R2L نمی‌توانند آن‌ها را طبقه‌بندی کنند - در بیشتر موارد صفر درصد به‌درستی طبقه‌بندی شدند.

می‌توانیم نتیجه‌گیری کنیم که نیازی به استفاده از طبقه‌بندی کننده‌های پیچیده برای کسب نمرات طبقه‌بندی بالا نیست- NB نرخ‌های تشخیص بالا در موارد دسته‌های حمله کم ارائه‌شده به دست می‌دهد. همچنین، یک طبقه‌بندی کننده تنها برای استفاده و برچسب‌گذاری و پیش‌بینی دسته‌های حملات کافی نیست، طبقه‌بندی کننده‌های چندگانه باید مورداستفاده قرار گیرند تا دقت طبقه‌بندی را افزایش دهند. اگر 20 درصد از اطلاعات آموزشی برای ارائه نمرات بالا کافی است- حتی اگر کمی کمتر از مورد کاربرد تمام اطلاعات آموزشی- سپس زمان کمتر برای آموزش در این مورد بهتر است. همان مجموعه ویژگی‌ها از طریق کل فرایند استفاده‌شده و نتایج رضایت‌بخش را به دست آورده است، بنابراین نیازی به یک مجموعه ویژگی خاص برای هر دسته حمله نیست. شاید برای طبقه‌بندی نوع حمله خاص تحت برچسب بزرگ دسته حمله موردنیاز باشد که جزو کار آینده برای بالا بردن نتایج سیستم خواهد بود. همان‌طور که در شکل 4 نشان داده‌شده است، طبقه‌بندی ترافیک شناسایی‌شده به‌طور عادی نتایج کلی طبقه‌بندی را افزایش داده است. این مورد می‌تواند برای تحقیقات آینده در نظر گرفته شود تا حملات رفتاری را به‌طور خاص در ترافیک شناسایی‌شده به‌صورت عادی شناسایی کند.

این مقاله در سال 2017 در نشریه الزویر و در مجله منطق کاربردی، توسط دانشکده کامپیوتر و اطلاعات منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله مقایسه تکنیک های طبقه بندی به کار رفته برای تشخیص نفوذ در سایت ای ترجمه مراجعه نمایید.