Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных X1,X2, ..., Хт.Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами [1]
При кластерном анализе в группировке участвуют все признаки, четкие границы не указаны, следовательно, в процессе образования группы выявляются внутренние связи между объектами, что позволяет построить четко обоснованные классификации.[9]
Для количественной оценки сходства некоторых объектов в кластерном анализе используется понятие метрика. [7] Установка сходства или различия исследуемых объектов происходит в зависимости от метрического расстояния между ними. [6]
Одним из методов оценивания сходства объектов является метод K ближайших соседей, в котором степень соответствия оценивается между ближайшими объектами кластеров. [5]
Постановка задачи:
Допустим, – множество элементов,
,
Исходные данные:
- обучающий набор данных,
множество элементов
Необходимо найти множество ответов:
для элементов
Применяемый способ решения:
На задается некоторая функция расстояния с помощью функции .
Для произвольно стоящего элемента , поместим элементы набора данных в порядке возрастания до x:
где – i-ыйсоседний элемент для х
Такое же обозначение используем для ответа на i-и элементе соответственно:
В наиболее общем виде алгоритм ближайших соседей имеет вид
где –функция для оценки важности i-го соседа при классификации объекта x. , а также не возрастает по i.
argmax – аргумент максимизации для выражения
Существует несколько методов ближайших соседей:
– простейший метод ближайшего соседа
– метод k ближайших соседей
– метод k экспоненциально взвешенных соседей, где q