В алгоритме «Случайный лес» Брейман (автор) строит матрицу подобия следующим образом:
Посылайте все учебные примеры по каждому дереву в лесу
Если два примера попадают в один и тот же лист, увеличивайте соответствующий элемент в матрице подобия на 1
- Нормализовать матрицу количеством деревьев
Он говорит:
Близость между случаями n и k образует матрицу {prox (n, k)}. Из их определения легко показать, что эта матрица симметрична, положительно определена и ограничена сверху 1, с диагональными элементами, равными 1. Из этого следует, что значения 1-prox (n, k) являются квадратами расстояний в евклидовом Пространство измерения не больше, чем количество случаев. Источник
В своей реализации он использует sqrt (1-prox) , где prox - матрица подобия, чтобы преобразовать ее в матрицу расстояний. Я думаю, это как-то связано с «квадратными расстояниями в евклидовом пространстве», приведенными выше.
Может ли кто-то пролить немного света на то, почему из 1-прокс в квадрате евклидова пространства возводятся квадратные расстояния, и почему он использует квадратный корень для получения матрицы расстояний?