چکیده
تخمین و پیش بینی حجم ترافیک شبکه موضوع تحقیقاتی مهمی است که توجه مداوم انجمن شبکه و انجمن یادگیری ماشین را جلب کرده است. اگر چه کار زیادی بر روی تخمین و پیش بینی ماتریس ترافیک با استفاده از مدل های سری زمانی، تجزیه ماتریس با رنک پایین وجود دارد، بر اساس آنچه ما و همکاران می دانیم کارهای کمی برای بررسی این مسئله که آیا ما می توانیم حجم شبکه مبتنی بر برخی آمارگان (آماره های) های ترافیک که جمع آوری آنها، کم هزینه تر هستند مانند جریان شمارش flow count ، تخمین زده یا پیش بینی کنیم. در این مقاله، مدلی برای ارتباط بین حجم ترافیک و آمارگان (آماره های) های ساده مانند جریان flows با استفاده مدل پنهان مارکف پیشنهاد می دهیم که بر اساس آن می توانیم از اندازه گیری مستقیم حجم داده اجتناب کنیم اما در عوض حجم ترافیک پنهان شده مبتنی بر آن آمارگان (آماره های) ساده جریان flow که به وسیله برخی تکنیکهای طراحی جمع آوری شده اند، تخمین زده و پیش بینی کنیم. سادگی و تاثیرگذاری روش پیشنهادی را با استفاده از تعدادی شبه شبیه سازی و نتایج تجربی حاصل از داده واقعی نشان می دهیم.
مقدمه
تخمین و پیش بینی حجم ترافیک شبکه یک مسئله مهم تحقیقاتی شبکه است. تخمین و پیش بینی دقیق حجم ترافیک ، به ویژه ماتریس ترافیک ، برای کنترل مسیریابی شبکه ، کنترل ازدحام ، تخصیص منابع شبکه و برنامه ریزی بلند مدت سودمند است و به این ترتیب در انجمن شبکه و انجمن یادگیری ماشین توجه زیادی را به خود جلب کرده است. در کارهای موجود عمدتا دو جریان اصلی از تحقیق وجود دارد. جریان اصلی اول فرض می کند که در هر بازه زمانی مشخص ، حجم ترافیک مجموع (تعداد بایت) بین یک جفت منبع مقصد معین که می تواند اندازه گیری شود، اتفاق می افتد و سپس یک مدل آنالیز سری زمانی مانند مدل های خطی شامل AR ، ARMA، ARIMA ، FARIMA [6] ، [7] ، [16] ، [14] و مدل های غیر خطی شامل ANN ، RNN ، GARCH [10]، [17] ، [2]، [8] برای پیش بینی ترافیک آینده استفاده شده است. محدودیت این دسته از رویکردها این است که لازم است به طور مستقیم حجم ترافیک بازه های زمانی قبلی را به منظور پیش بینی حجم های ترافیک برای بازه زمانی آینده اندازه گیری نماییم. با این وجود، اندازه گیری مستقیم حجم داده برای عملی شدن به ویژه در شبکه با سرعت خیلی بالا بسیار هزینه بر است، و بنابراین اگرچه این رویکرد ساده است اما در عمل، مقیاسپذیر نیست. مسیر اصلی دیگر رویکردها معمولاً توموگرافی شبکه نامیده می شوند [3] ، [1] ، [9] ، [4] که مکمل اولین رویکرد مسیر اصلی است. ایده توموگرافی شبکه برای تخمین حجم ترافیک شبکه مبتنی بر مشاهدات دیگری مانند استفاده از لینک link utilization است. استفاده از لینک link utilization ، حجم ترافیک مجموع از جریان هایی flow است که از طریق آن لینک عبور می کنند. در نتیجه، معمولاً یک سیستم خطی معین (قطعی) برای توصیف رابطه بین کاربرد لینک و حجم ترافیک پنهان وجود دارد. با این حال ، یکی از محدودیت های مهلک رویکرد توموگرافی شبکه این است که سیستم خطی همیشه نامعین است زیرا در یک شبکه تعداد لینک ها به مراتب کمتر از تعداد جفت های منبع مقصد است. بازیابی حجم ترافیک پنهان با استفاده ازمقدار محدودی از استفاده در لینک link utilizations بسیار دشوار است.
در این مقاله ، با توجه به محدودیت های قوی در کارهای موجود، احتمال حدس زدن حجم ترافیک را بر اساس برخی آمارگان (آماره های) های جریان مانند تعداد جریان های بازه زمانی معین که جمع آوری بسیار راحت تری دارند را بررسی می کنیم. می دانیم، کار ما در استخراج وابستگی بین شمارش های جریان flow count و حجم جریان به منظور تخمین و پیش بینی حجم ترافیک، پیشگام است. پیشنهاد می کنیم از مدل پنهان مارکف برای تشریح ارتباط شمارش جریان flow count و حجم جریان و هم چنین رفتار پویای موقت هر دو استفاده کنیم. ما از الکوریتم های بسیار جدیدی مانند قانون کرنل بیز و شبکه های عصبی بازگشتی با واحد حافظه طولانی کوتاه مدت (واحد LSTM) برای آموزش مدل و استفاده از مدل برای پیش بینی ترافیک آینده استفاده می کنیم.
تخمین و پیش بینی ترافیک شبکه
در دهه های گذشته، کارهای زیادی برای حل مشکل تخمین و پیش بینی ترافیک شبکه منتشر شده است. همانطور که در مقدمه بحث شد، آن کارها عمدتاً به دو دسته اصلی تقسیم می شوند. در یک مورد فرض می کنیم که ما می توانیم ترافیک شبکه مجموع در فواصل زمانی متوالی را مشاهده کنیم و یک مدل ریاضی برای پیش بینی ترافیک آینده را با روشی ساده به وجود آوریم[6]، [7]، [16]، [14]، [10 ] ، [17] ، [2] ، [8]. دسته دیگر روشهایی که به آن توموگرافی شبکه گفته می شود از اندازه گیری مستقیم ترافیک شبکه بین هر دو موردی که مورد مذکور جلوگیری می کند، اما در عوض سعی می کند با استفاده از برخی از link utilizations، حجم ترافیک پنهان را بازیابی کند. در این بخش، به طور مختصر در مورد فرمول ها و همچنین محدودیت های این دو گروه روش ها صحبت خواهیم کرد.
پیش بینی غلتان با استفاده از مشاهدات قبلی
این گروه از روشها [3] ، [1] ، [9] ، [4] فرض می کنند که ما قادریم حجم ترافیک را به صورت دنباله مشاهده کنیم. هدف ما پیش بینی ترافیک آینده بر اساس مشاهدات قبلی است. اساس این دسته از روشها، خود شباهتی در ترافیک شبکه است. به طور کلی، می توان از فرمول زیر برای توصیف روند پیش بینی استفاده کرد:
xt+1 = f(xt, ··· , xt−p+1, t, ··· , t−q+1) + t+1
حدس زدن و پیش بینی حجم ترافیک با استفاده از HMM ها
در این بخش، امکان حدس زدن[1]و پیش بینی حجم ترافیک را بر اساس برخی از آمارگان (آماره های) ساده سطح جریان ساده مورد بحث قرار می دهیم. این ایده مبتنی بر مشاهداتی است که وابستگی آماری قوی بین آن آمارگان (آماره های) ساده سطح جریان و کل حجم ترافیک وجود دارد که توسط شکل زیر که با تجزیه و تحلیل سری زمانی از ترافیک شبکه واقعی بدست آمده است، نشان داده شده است.
آزمایشات
در این بخش، آزمایش هایی با استفاده از داده های نیمه شبیه سازی و داده های ترافیک شبکه واقعی انجام می دهیم تا امکان حدس زدن و پیش بینی میزان ترافیک شبکه را بر اساس آمارگان (آماره های) ساده جریان مانند شمارش جریان (flow count) نشان دهیم. در آزمایش های زیر، هر دو سری زمانی را به گونه ای که دارای میانگین صفر و انحراف معیار صفر داشته باشند، نرمالیزه می کنیم.
شبه شبیه سازی
در این بخش، نیمه شبیه سازی را انجام می دهیم که از داده های بنچمارک (الگو) عمومی به نام داده های 2004 Abilene از Internet استفاده می کنیم.
این مجموعه داده شامل میانگین های 24 هفته 5 دقیقه ای برای 12 روتر (ماتریس 12 * 12) است. در این آزمایش، ما فقط از ترافیک درایه های (3 ، 3) ماتریس استفاده می کنیم.
نتیجه گیری
در این کار، چگونگی استفاده از چندین تکنیک یادگیری ماشین از جمله مدل پنهان مارکوف مبتنی بر فانون Kernel Bayes و همچنین شبکه عصبی بازشگتی را برای تخمین حجم ترافیک آینده و همچنین پیش بینی حجم ترافیک آینده بر اساس برخی از آماره های سطح جریان ساده که می تواند با روش راحت تر یعنی با استفاده از تکنیک های طراحی sketch جمع آوری می شود، توضیح دادیم. این رویکرد از اندازه گیری مستقیم حجم ترافیک جلوگیری می کند و بنابراین از لحاظ پیچیدگی و نیازمندی ذخیره سازی[1]بسیار کم هزینه تر است. این امر به ویژه در شبکه های بسیار پرسرعت (مقیاس بزرگ) مفید است که در آن اندازه گیری مستقیم حجم ترافیک برای همه جفت های مقصد مبدا تقریبا غیرممکن است و تخمین حجم ترافیک شبکه از بار لینک (لود لینک) بسیار دشوار است. انجام نيمه شبيه سازي و آزمايشات با استفاده از داده هاي ترافيك شبكه واقعي، نشان مي دهد كه استفاده از آمارگان سطح جريان ساده مانند شمارش جريان، اطلاعات مفيدي را براي پيش بيني حجم ترافيك فراهم ميكند. در کار بعدی، ما قصد داریم چارچوب پیشنهادی را برای مانیتورینگ شبکه واقعی و مهندسی ترافیک استفاده کنیم.
موارد باقی مانده دیگری وجود دارد که باید به آن اشاره کرد. یکی از آنها این است که آیا وابستگی بین حجم ترافیک و آمارگان سطح جریان ساده مانند شمارش جریان در کلیه شبکه ها مانند WAN و ترافیک مرکز interdata به اندازه کافی قابل توجه است. مسئله دوم عدم ثبات در ترافیک شبکه است. از آنجا که ترافیک شبکه به صورت پویا در حال تغییر است که بدان معنی است که رفتارهای تابع انتقال و تابع انتشار نیز می تواند تغییر کند. در این حالت، لازم است الگوریتم های یادگیری آنلاین را برای KBR و همچنین RNN را توسعه دهیم به گونه ای که مدل خود را با ترافیک پویای شبکه تنظیم و سازگار کند. سؤال قابل بحث سوم این است که علاوه برشمارش جریان چه آمارگان دیگری از سطح جریان می تواند برای بهبود دقت پیش بینی ممکن است، استفاده شود.
این مقاله در سال 2016 در نشریه آی تریپل ای و در کنفرانس بین المللی پروتکل های شبکه، توسط دانشگاه پوکفولام هنگ کنگ منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله پیش بینی ترافیک آینده با استفاده از مدل های مارکوف در سایت ای ترجمه مراجعه نمایید.