چکیده
در تحقیق قبلی، یک سیستم ایمنی مصنوعی چندگانه برای شناسایی و طبقهبندی نفوذ شبکه پیشنهاد و آزمایش شد که در آن یک فرایند تشخیص و طبقهبندی چندلایه روی هر عامل برای هر میزبان در شبکه اجرا شد. در این مقاله، ما آزمایشهایی را انجام میدهیم که با طبقهبندیهای مختلف طبقهبندیهای مناسب را انتخاب کرده و آنها را مقایسه میکنیم تا دقت تشخیص را افزایش دهیم و اطلاعات بیشتری در مورد ناهنجاریهای تشخیصی به دست آوریم. نشان داده خواهد شد که به دلیل نرخهای مختلف طبقهبندی بهدستآمده، هیچ طبقهبندی نمیبایست برای تمام انواع حملات استفاده شود. این به خاطر نمایش حملات در مجموعه سلسله و وابستگی بین ویژگیهای مورداستفاده برای شناسایی آنها است. همچنین نشان داده خواهد شد که یک طبقهبندی کننده ساده و اساسی مانند Naive Bayes دارای نتایج طبقهبندی بهتر در مورد حملات کم نشان دادهشده است و درخت تصمیمگیری اولیه مانند درخت Naive-Bayes Tree و Best-First نتایج بسیار خوبی نسبت به J48 معروف (اجرای وکا C4.5) و درخت تصمیمگیری Random Forest ارائه میدهد. بر اساس این آزمایشها و نتایج آنها، طبقهبندی کنندههای Naive Bayes و Best-First برای طبقهبندی ترافیک ناشناخته انتخاب شدند. نشان دادهشده است که در مرحله تشخیص 90٪ ناهنجاریها شناساییشده و در مرحله طبقهبندی 88٪ از مثبتهای کاذب با موفقیت بهعنوان اتصالات ترافیکی عادی برچسبگذاری شده و 79٪ از حملات DoS و Probe بهدرستی توسط NB، NBTree و طبقهبندی کننده BFTree برچسبگذاری شدهاند.
معرفی
امروزه دستگاههای کامپیوتری معمولاً به هم متصل هستند که به دستگاههای توزیعشده بزرگ وصل هستند که در دنیای محاسبات صنعتی ضروری هستند. دستگاههای نرمافزاری امروز نیازمند روندهایی مانند اتصالات، هوش و فراگیری هستند که همگی منجر به ایجاد دستگاههای چند عامل شد. دستگاههای چندگانه رفتار هوشمندانه انسان و نحوه ارتباط انسانها با یکدیگر و با محیط آنها برای دستیابی به اهداف خاص را تقلید میکند. یکی از دستگاههایی که میتواند بهصورت موفقیتآمیز و کارآمد بهعنوان یک سیستمعامل چندگانه اجرا شود، دستگاههای ایمنی مصنوعی (AIS) است. سیستم ایمنی مصنوعی یک منطقه پژوهشی است که شامل ایمنیشناسی، علوم رایانه و مهندسی است. با الهام از دستگاههای ایمنی طبیعی، سه زمینه اصلی تحقیق تحت AIS قرار میگیرند: مدلسازی ایمنی، AIS های نظری و AIS های کاربردی. مدلسازی ایمن در مورد مدلهای ایمنی و شبیهسازی سیستم ایمنی است. پژوهش AIS های نظری در مورد توضیح و نفوذ به جنبههای نظری الگوریتمهای AIS، مدلهای ریاضی و عملکرد و تجزیهوتحلیل پیچیدگی آنها است. درنهایت، تحقیق AIS های کاربردی در مورد توسعه و اجرای الگوریتمها و دستگاههای کامپیوتری الهام گرفته از دستگاههای ایمنی است که از آنها برای انواع برنامههای کاربردی دنیای واقعی استفاده میشود.
با توجه به دستگاههای کامپیوتری میتوانیم بفهمیم که مفهوم خود/ غیر خود در قالب فعالیتها و عناصری معمولی/ غیرعادی اعمال میشود. دستگاههای تشخیص نفوذ (IDS) دستگاههای امنیتی قدرتمندی هستند که انواع مختلفی برای اهداف حفاظتی دارند. آنها ابزار امنیتی خاصی را جایگزین نمیکنند، بلکه بهجای آن، یک خط دفاعی در برابر نفوذها و تهدیدات از داخل سیستم (یک کامپیوتر یا یک شبکه) و همچنین از خارج- درست مانند سیستم ایمنی اضافه میکنند. IDS ها میتوانند به روشهای مختلف دستهبندی شوند، اما اساساً میتوان آنها را به IDS هایی مبتنی بر سوءاستفاده و ناهنجار تقسیم کرد. IDS های سوءاستفاده که همچنین بهعنوان مبتنی بر امضا یا دانش شناخته میشوند، بستگی به تشخیص نفوذ با استفاده از الگوهای نشاندهنده حملات شناختهشده دارد. این الگوها یا امضاها با رویدادها برای یافتن نفوذهای ممکن مقایسه میشوند. IDS های غیرمتعارف که همچنین بهعنوان IDS های مبتنی بر رفتار شناخته میشود، به ساخت یک نمایه بستگی دارد که رفتار طبیعی یک سیستم را با نظارت بر فعالیتهای آن در طول زمان نشان میدهد. سپس هر انحراف از آن نمایه، یک ناهنجاری است. نمایهها میتوانند ایستا یا پویا باشند و با استفاده از بسیاری از ویژگیهای سیستم توسعه مییابند.
فنهای طبقهبندی دادهها
طبقهبندی فرآیند اختصاص یک برچسب طبقه به شیء (اشیاء) طبقهبندی نشده بر اساس مجموعهای از ویژگیهای تعریفشده است. یک طبقهبندی کننده ابتدا باید آن دانش را با یادگیری ارائه دستهها با استفاده از یک مجموعه دادهشده از نمونههای طبقهبندیشده پیشین دریافت کند. یک طبقهبندی کننده میتواند بهعنوان یک پیشبینی کننده برای اشیاء طبقهبندی نشده یا یک توصیفگر برای اشیاء طبقهبندیشده عمل کند. رویکردهای بسیاری مانند درختان تصمیمگیری، رویکردهای مبتنی بر قانون، طبقهبندیهای بیزی، شبکههای عصبی، طبقهبندی کنندههای ژنتیک، ماشینهای بردار پشتیبانی و بسیاری دیگر وجود دارد. یک طبقهبندی کننده با دقت پیشبینی آن، سرعت، استحکام، مقیاسپذیری، تفسیرپذیری، سادگی و شاخصهای کیفیت وابسته به دامنه ارزیابی میشود.
طبقهبندی کننده Bayes Naïve
این مطلب تئوری Bayes را با فرضیههای استقلال قوی بهعنوان یک طبقهبندی کننده ساده احتمالی اعمال میکند. فرض بر این است که وجود یا فقدان یک ویژگی مستقل از وجود یا فقدان ویژگیهای دیگر است - ویژگیها نامرتبط هستند که اجرای آنها ساده، بهینه و درست است. اگر برخی اطلاعات و دادههای آموزشی داشته باشیم، میتوان از طبقهبندی کننده NB استفاده کرد و ما باید احتمالات را از دادههای محدود برآورد کنیم. مزیت اصلی آن این است که زمان زیادی برای آموزش نیاز ندارد.
سیستم تشخیص و طبقهبندی دولایه
سیستم چندلایهای که قبلاً پیشنهادشده بود از دولایه تشکیلشده است که پیش از یک مرحله پیشپردازش میآیند. لایه اول - لایه تشخیص - روش انتخاب منفی را با استفاده از الگوریتم ژنتیک برای تشخیص نفوذ انحراف استفاده میکند، جایی که ردیابها برای شناسایی فعالیتهای طبیعی آموزش میبینند تا هرگونه تفاوت (بیش از یک آستانه مشخص) را بهعنوان یک ناهنجاری تشخیص دهند. لایه دوم - لایه طبقهبندی - از یک طبقهبندی کننده برای برچسبگذاری ترافیک با طبقه مناسب برای دستههای حمله و به حداقل رساندن هشدارهای نادرست استفاده میکند. هم ترافیک عادی و هم غیرعادی به طبقهبندی کننده داده میشود. روند در شکل 1 نشان دادهشده است.
مرحله پیشپردازش داده
پیشپردازش دادهها شامل جایگزینی دادههای نمادین مانند پروتکل و خدمات با مقادیر مجزا/ کامل و تقسیمبندی مقادیر به همگن و در حوزهای محدود است. الگوریتم Binning Width برابر استفاده شد و مقادیر اصلی با اعداد باین مربوط به دامنه آنها جایگزین شدند. اطلاعات بیشتر در مقاله قبلی موجود است.
آزمایشها
این آزمایش با استفاده از مجموعه دادههای ارزیابی IDS [21] NSL-KDDانجام شد. در تحقیقات پیشین، مجموعه داده KDD Cup 99 [15]بیشترین دادههای معیار کاربردی برای ارزیابی عملکرد دستگاههای تشخیص نفوذ مبتنی بر شبکه بود. مشخص شد که مشکلاتی وجود دارد که الگوریتم یادگیری را منحرف میکند و نتایج به دلیل کپی کردن سوابق خود در هر دو مجموعه دادههای آموزشی و آزمایشی نادرست است. مجموعه داده KDD Cup نیز برای ارزیابی بسیار وسیع است، بنابراین معمولاً بخشهای کوچکی از دادهها برای ارزیابی مورداستفاده قرار میگیرند که منجر به نتایج نادرست نیز میشود؛ بنابراین، گروه محققین پروندههای اضافی را حذف کرده و مجموعه دادهها را بهصورت متناسب برای به کسب تعادل انتخاب کردند و این امر به مجموعه داده NSL-KDD منجر شد. این تحقیق توسط بسیاری از محققین مورداستفاده قرارگرفته است، زیرا تعداد رکوردها برای دادههای آموزشی و آزمون بسیار کمتر است، بنابراین کل مجموعهها میتوانند در آزمایشها مورداستفاده قرار گیرند. چهار نوع عمومی حملات در مجموعه داده وجود دارد: رد خدمات (DoS)، کاوشگر، کاربر به ریشه (U2R) و دور به نزدیک (R2L). جدول 1 توزیع سوابق عادی و حملات در مجموعه داده NSL-KDD را نشان میدهد.
نتایج و بحث
دو مجموعه نتیجه از مرحله اول داریم، یکی مجموعهای است که توسط آشکارسازهای تولیدشده با استفاده از اندازهگیری فاصلهای اقلیدسی و مجموعهای دیگر توسط آشکارسازهای تولیدشده با استفاده از اندازهگیری فاصله Minkowski - هم برای مجموعه آموزشی و مجموعه آزمایش به دست میآید. فقط نتایج مجموعه آزمایش از طریق طبقهبندی کنندهها اجرا میشود.
نتایج طبقهبندی کنندهها
طبقهبندی کنندهها یکبار با استفاده از تنها 20 درصد مجموعه آموزشی و بار دیگر با استفاده از تمام مجموعه آموزشی آموزشدیده بودند. جدول 2 مقادیر دقت و فراخوانی برای هر طبقهبندی کننده را روی ترافیک ناهنجار حاصل از آشکارسازهای Minkowski نشان میدهد.
نتیجهگیری
در این مقاله، یک سیستم تشخیص نفوذ ترکیبی و سلسله مراتبی ارائهشده که مبتنی بر مفاهیم ایمنی است. طبقهبندی کنندههای مختلف برای یافتن بهترین طبقهبندی کننده برای کسب اطلاعات بیشتر در مورد حملات شناختهشده و پیشبینی دسته حملات ناشناخته مورد آزمایش و مقایسه قرار گرفتند. میتوانیم درک کنیم که بهطورکلی، درختهای تصمیمگیری بهترین نتایج را ارائه میدهند، اما با توجه به هر دسته، طبقهبندی کنندهها نتایج مختلفی بر اساس ارائه این دستهها در مجموعه دادهها و وابستگی بین ویژگیها دارند. طبقهبندی کننده NBدارای بهترین نتایج در مورد حملات کم ارائهشده مانند R2L و U2Rاست. FT نتایج بسیار خوبی داشت، اما مدتزمان زیادی برای آموزش ساخت درختان تصادفی برای تصمیمگیری طبقهبندی نیاز داشت. NBTree و BFTree امتیازات بالاتری نسبت به J48 و RFTree داشتند؛ کاربرد آنها بهتر است، زیرا زمان کمتری برای آموزش را نیاز دارند و در موارد ارائه بالای طبقات، تنها 20 درصد مجموعه آموزشی برای ارائه نتایج بسیار خوب کافی است.MLP بهترین نمرات را در طبقهبندی uhnd و DoSبرای ارائه بالای آنها در مجموعه آموزشی به دست آورد، اما در موارد حملات U2R و R2L نمیتوانند آنها را طبقهبندی کنند - در بیشتر موارد صفر درصد بهدرستی طبقهبندی شدند.
میتوانیم نتیجهگیری کنیم که نیازی به استفاده از طبقهبندی کنندههای پیچیده برای کسب نمرات طبقهبندی بالا نیست- NB نرخهای تشخیص بالا در موارد دستههای حمله کم ارائهشده به دست میدهد. همچنین، یک طبقهبندی کننده تنها برای استفاده و برچسبگذاری و پیشبینی دستههای حملات کافی نیست، طبقهبندی کنندههای چندگانه باید مورداستفاده قرار گیرند تا دقت طبقهبندی را افزایش دهند. اگر 20 درصد از اطلاعات آموزشی برای ارائه نمرات بالا کافی است- حتی اگر کمی کمتر از مورد کاربرد تمام اطلاعات آموزشی- سپس زمان کمتر برای آموزش در این مورد بهتر است. همان مجموعه ویژگیها از طریق کل فرایند استفادهشده و نتایج رضایتبخش را به دست آورده است، بنابراین نیازی به یک مجموعه ویژگی خاص برای هر دسته حمله نیست. شاید برای طبقهبندی نوع حمله خاص تحت برچسب بزرگ دسته حمله موردنیاز باشد که جزو کار آینده برای بالا بردن نتایج سیستم خواهد بود. همانطور که در شکل 4 نشان دادهشده است، طبقهبندی ترافیک شناساییشده بهطور عادی نتایج کلی طبقهبندی را افزایش داده است. این مورد میتواند برای تحقیقات آینده در نظر گرفته شود تا حملات رفتاری را بهطور خاص در ترافیک شناساییشده بهصورت عادی شناسایی کند.
این مقاله در سال 2017 در نشریه الزویر و در مجله منطق کاربردی، توسط دانشکده کامپیوتر و اطلاعات منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله مقایسه تکنیک های طبقه بندی به کار رفته برای تشخیص نفوذ در سایت ای ترجمه مراجعه نمایید.