ПРИМЕНЕНИЕ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ NBTREE ДЛЯ ОБНАРУЖЕНИЯ ПРОНИКНОВЕНИЙ В СФЕРЕ КОМПЬЮТЕРНОЙ БЕЗОПАСНОСТИ

Бедняков А.И. 1, Андрюков А.А. 1

1Московский Технический Университет Связи и Информатики

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В статье кратко описывается методики обнаружения проникновения в компьютерную систему, модель системы, её признаки. Рассматривается метод NBTree, его анализ через Weka, проводится его оценка.

Введение

В современном мир неразрывно связан информационными технологиями, большинство данных хранится на серверах имеющих доступ в интернет, что не исключает возможность атаки на них извне. Под угрозой не только пользовательские данные представляющие интерес только для владельца, а также корпоративные и банковские данные утечка которых чревата последствиями для целых стран. Пугающие цифры утечек данных за последние несколько лет говорят о том, что организациям становится все труднее справляться с растущим числом угроз.

Поскольку предотвращение всех угроз, невозможно, ввиду их разнообразия, основной задачей является их прогнозирование. Эффективность прогнозирования напрямую завсисит от потраченного времени для обнаружения угрозы, а также количество ложных вызовов. Чем больше количество ложных аварийных сигналов, тем медленнее и дороже процесс обслуживания.

Наиболее перспективным методом защиты является обнаружение аномалии. Этод метод обнаруживает новые атаки в дополнение к предыдущим. Заметные моменты работы системы идут в основу паттерна безопасности. Он включает в себя контрольные журналы, сетевые датчики, системные вызовы, используются различные статистические методы для создания модели, а также лкласификации новых экземпляров. Недостатком данного метода является определение нормального поведения системы, для этого требуются значительные знания предметной области.

В данной работе предлагается пример работы гибридного алгоритма, используемого для изучения проникновений. NBTree [1] является гибридом дерева решений и Наивных Байесовых классификаторов [2]. NBTree - существенное улучшение по производительности традиционного Наивного Байесового классификатора с точки зрения его точности.

Определение обнаружения проникновения как задача машинного обучения.

Сформулируем обнаружение проникновения как задачу машинного обучения. Параметры, используемые, для определения задачи это опыт E, задача T и показатель производительности P.

Для обнаружения проникновения задача T - возможность обнаружить проникновения максимально точно. Хорошие и плохие соединения должны быть идентифицированы правильно. Опыт E - набор данных. Состоит из данных, которые определяют нормальное а также аварийное поведение. Показатель производительности P измерен с точки зрения точности классификации и других параметров как точность, отзыв, F-мера.Таким образом, для обнаружения проникновения, мы имеем,

Задача: обнаружить проникновения точным способом.
Опыт: набор данных с экземплярами, представляющими нормальный, а также данные атаки.
Показатель производительности: Точность с точки зрения корректной классификации событий проникновения и нормальных событий и других статистических метрик включая точность, отзыв, F-меру.

Анализ данных

Для моделирования атаки используется репозиторий машинного обучения UCI [3]. Он является одним из самых всесторонних архивов для изучения машинного обучения. Используемый набор данных, KDD Cup ’99 - набор данных используемый в программе Оценки Обнаружения проникновения DARPA.

Набор данных состоит из данных дампа TCP для моделирования LAN Военно-воздушных сил. В дополнение к нормальному моделированию LAN также атаки моделировались, и были собраны соответствующие данные TCP. Атаки проводились на три UNIX машины, узлы Windows NT, маршрутизатор с фоновым трафиком. Каждая запись в наборе данных представляет соединение по протоколу TCP т.е. последовательность пакетного запуска TCP конец которого определён, между которыми потоки данных перемещаються от исходного IP-адреса до целевого IP-адреса в соответствии с четко определенным протоколом. Каждое соединение было маркировано как нормальное или как определенный тип[4] атаки. Атаки попадают в одну из следующих категорий:

• DOS атакует (Атаки "отказ в обслуживании")

• Атаки R2L (несанкционированный доступ от удаленной машины)

• Атаки U2R (несанкционированный доступ к полномочиям суперпользователя)

• Зондирование атак

Подход NBTree

NBTree - это комбинация NBC (Naive Bayes Classificator) и дерева принятия решений. Идея состоит в том, что на основании значений некоторых атрибутов мы разделяем данные, так, что получается дерево. А затем в каждом листе этого дерева создаем локальный NBC.

Вершины - Байесовые классификаторы, а не узлы, предсказывающие единый класс. Полезность узла оцененивается точностью предсказаний NBC в этом узле, определяемая с помощью 5-кратной оценки точности перекрёстной проверки. Полезность разделения - взвешенная сумма полезностей узлов, получаемых в итоге разделения узлов. Веса узлов пропорциональны количеству попавших в них данных. Псевдокод NBTree показан ниже.

Ввод: ряд T маркированных экземпляров.Вывод: дерево решений с NB классификаторами в узлах

Для каждого атрибута оцените полезность разделения по атрибуту. Для непрерывных атрибутов также необходимо провести эту операцию.
Пусть, т.е. атрибут с самой высокой полезностью.
Если не значительно лучше, чем полезность текущего узла, создайте NBСдля текущего узла и вернуться на уровень выше(Разделение является значимым если относительное уменьшение ошибки не менее 5% и разделяемый атрибут содержит не менее 30 экземпляров).
Разделяем данные на основании
Для каждого дочернего узла рекурсивно вызвать алгоритм, на той части данных, которые совпадают со значение атрибута.

Пусть – множество тестовых атрибутов на пути к листу дерева, а множество оставшихся атрибутов, тогда

Где

Результаты NBTree

NBTree был оценен, приняв во внимание все функции набора данных. Результаты этой оценки получены в итоге в приведенной таблице 1. Для оценки было использована Weka[5] — библиотека алгоритмов машинного обучения для решения задач интеллектуального анализа данных (datamining). Система позволяет непосредственно применять алгоритмы к выборкам данных, а также вызывать алгоритмы из программ на языке Java.

Результаты оценки	Таблица 1
Метрики	Значения
Время, затраченное для создания модели	1115,05s
Точность	99,94%
Средняя точность	90.33 %
Средняя полнота	92.72 %
Среднее F-мера	91.14 %

Точность для некоторого класса – это доля верных предсказаний, полнота для класса – это количество объектов, распознанных, как принадлежащие классу, делённое на общее количество принадлежащих классу объектов. F-мера представляет собой удвоенное произведение точности и полноты, разделённое на сумму точности и полноты. По данному показателю можно судить об успешности работы алгоритма.

У NBTree четко есть очень высокоточный уровень классификации почти 99% правильных экземпляров. Кроме того, есть высокие значения точности и полноты, которые важны при обнаружении проникновения. Время, потраченное NBTree для построения модели, однако, больше, в сравнении с другими алгоритмами

Механизм выбора функции не влияет на точность классификации, точность и отзыв значения NBTree в значительной степени. NBTree также чрезвычайно чувствителен ко времени относительно количества используемых атрибутов. У F-меры также есть значительно высокое значение (выше 90% в обоих случаях).

Заключение

Используя Weka, проанализирован алгоритм и его пригодность для обнаружения проникновений, в зависимости от набора данных, содержащего контрольные данные. Машинное обучение может быть еффективно, для обнаружения новых проникновений. NBTreeс точностью в 99% обнаруживает проникновения, что делает его невероятно эффективным решением проблемы сетевой безопасности.

Список источников и литературы

Ron Kohavi. Увеличение масштаба точности Наивно-байесовых классификаторов: гибрид дерева решений. Вторая Международная конференция по вопросам Открытия Знаний и Анализа данных, страницы 202-207, 1996
Александр Сизов, Сергей Николенко. Наивный Байесовский классификатор. http://logic.pdmi.ras.ru/~sergey/teaching/mlstc12/sem01-naivebayes.pdf
Репозиторий машинного обученияUCIhttps://archive.ics.uci.edu/ml/
Калифорнийский университет. UCI архив KDD, университета Калифорния.http://kdd.ics.uci.edu/databases/kddcup99/task.html
Ian H. Witten, Eibe FrankАнализ данных - практические инструменты машинного обучения и методы, второй выпуск, Elsevier, 2005.

Просмотров работы: 445

Код для цитирования:

IX Международная студенческая научная конференция Студенческий научный форум - 2017

ПРИМЕНЕНИЕ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ NBTREE ДЛЯ ОБНАРУЖЕНИЯ ПРОНИКНОВЕНИЙ В СФЕРЕ КОМПЬЮТЕРНОЙ БЕЗОПАСНОСТИ

Студенческий научный форум - 2017
IX Международная студенческая научная конференция