ПРИМЕНЕНИЕ МЕТРИЧЕСКОГО АЛГОРИТМА КЛАССИФИКАЦИИ ДЛЯ ОЦЕНКИ СХОДСТВА ОБЪЕКТОВ

Кальчевская Т.А. 1

1Московский Технический Университет Связи и Информатики Москва

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В статье кратко описывается применение кластерного анализа данных, на примере метода k ближайших соседей в рамках изучаемой дисциплины «Machine Learning. Обучающиеся технические системы» на первом курсе магистратуры факультета информационных технологий МТУСИ (науч.рук. д. ф.-м. н., проф. Л.И.Воронова.).

Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных X₁,X₂, ..., Х_т.Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами [1]

При кластерном анализе в группировке участвуют все признаки, четкие границы не указаны, следовательно, в процессе образования группы выявляются внутренние связи между объектами, что позволяет построить четко обоснованные классификации.[9]

Для количественной оценки сходства некоторых объектов в кластерном анализе используется понятие метрика. [7] Установка сходства или различия исследуемых объектов происходит в зависимости от метрического расстояния между ними. [6]

Одним из методов оценивания сходства объектов является метод K ближайших соседей, в котором степень соответствия оценивается между ближайшими объектами кластеров. [5]

Постановка задачи:

Допустим, – множество элементов,

Исходные данные:

- обучающий набор данных,

множество элементов

Необходимо найти множество ответов:

для элементов

Применяемый способ решения:

На задается некоторая функция расстояния с помощью функции .

Для произвольно стоящего элемента , поместим элементы набора данных в порядке возрастания до x:

где – i-ыйсоседний элемент для х

Такое же обозначение используем для ответа на i-и элементе соответственно:

В наиболее общем виде алгоритм ближайших соседей имеет вид

где –функция для оценки важности i-го соседа при классификации объекта x. , а также не возрастает по i.

argmax – аргумент максимизации для выражения

Существует несколько методов ближайших соседей:

– простейший метод ближайшего соседа

– метод k ближайших соседей

– метод k экспоненциально взвешенных соседей, где q

Просмотров работы: 354

Код для цитирования:

IX Международная студенческая научная конференция Студенческий научный форум - 2017

ПРИМЕНЕНИЕ МЕТРИЧЕСКОГО АЛГОРИТМА КЛАССИФИКАЦИИ ДЛЯ ОЦЕНКИ СХОДСТВА ОБЪЕКТОВ

Студенческий научный форум - 2017
IX Международная студенческая научная конференция