Ковариация / корреляция расстояний (= броуновская ковариация / корреляция) вычисляется в следующих шагах:
- Вычислительная матрица евклидовых расстояний между
N
случаями по переменной , а другая также матрица по переменной Y . Любая из двух количественных характеристик, X или Y , может быть многомерной, а не только одномерной.XYXY
- Выполните двойное центрирование каждой матрицы. Посмотрите, как обычно выполняется двойное центрирование . Однако, в нашем случае, когда делает это делать не квадратные расстояния первоначально и не делит на , в конце концов. Строка, среднее значение столбца и среднее значение элементов становятся равными нулю.−2
- Умножим две результирующие матрицы поэлементно и вычислим сумму; или, что то же самое, разверните матрицы в два вектора столбцов и вычислите их суммарное произведение.
- Среднее, деления на количество элементов,
N^2
.
- Возьми квадратный корень. Результатом является расстояние ковариации между и Y .XY
- Отклонения расстояния - это ковариации расстояния , Y с самим собой, вы также вычисляете их, точки 3-4-5.XY
- Корреляция расстояний получается из трех чисел аналогично тому, как корреляция Пирсона получается из обычной ковариации и пары дисперсий: делим ковариацию на квадратный корень из произведения двух дисперсий.
Ковариация расстояния (и корреляция) - это не ковариация (или корреляция) между самими расстояниями. Это ковариация (корреляция) между специальными скалярными произведениями (точечными произведениями), из которых состоят «двухцентровые» матрицы.
В евклидовом пространстве скалярное произведение - это сходство, однозначно связанное с соответствующим расстоянием. Если у вас есть две точки (векторы), вы можете выразить их близость в виде скалярного произведения вместо их расстояния без потери информации.
Однако, чтобы вычислить скалярное произведение, вы должны обратиться к исходной точке пространства (векторы приходят из источника). Как правило, источник можно разместить там, где ему нравится, но часто и удобно размещать его в геометрической середине облака точек, в среднем. Поскольку среднее принадлежит тому же пространству, что и облачное пространство, размерность не увеличится.
Теперь, обычное двойное центрирование матрицы расстояний (между точками облака) - это операция преобразования расстояний в скалярные произведения при размещении начала координат в этой геометрической середине. При этом «сеть» расстояний эквивалентно заменяется «взрывом» векторов определенной длины и попарных углов от начала координат:
[Созвездие на моем примере изображения плоское, которое выдает, что «переменная», скажем, , породив ее, была двумерной. Когда X - переменная, состоящая из одного столбца, все точки, конечно, лежат на одной строке.]XX
Немного формально об операции двойного центрирования. Пусть есть n points x p dimensions
данные (в одномерном случае ). Пусть D - матрица евклидовых расстояний между точками. Пусть C будет X с центрированными столбцами. Тогда S = двухцентровый D 2 равен C C ′ , скалярные произведения между рядами после центрирования облака точек. Основным свойством двойного центрирования является то, что 1Xp=1
Dn x n
n
CXS=double-centered D2CC′, и эта сумма равна сумме отрицанием извыключениядиагональных элементовS.12n∑D2=trace(S)=trace(C′C)S
Вернуться к расстоянию корреляции. Что мы делаем, когда вычисляем ковариацию расстояния? Мы преобразовали обе сети расстояний в соответствующие им группы векторов. И затем мы вычисляем ковариацию (и впоследствии корреляцию) между соответствующими значениями двух сгустков: каждое значение скалярного произведения (прежнее значение расстояния) одной конфигурации умножается на соответствующее значение другой конфигурации. Это можно рассматривать как (как было сказано в пункте 3) вычисление обычной ковариации между двумя переменными после векторизации двух матриц в этих «переменных».
Таким образом, мы коваризуем два набора сходств (скалярные произведения, которые являются преобразованными расстояниями). Любой вид ковариации является перекрестным произведением моментов: вы должны сначала вычислить эти моменты, отклонения от среднего значения - и этим вычислением было двойное центрирование. Это ответ на ваш вопрос: ковариация должна основываться на моментах, а расстояния не являются моментами.
Дополнительное взятие квадратного корня после (пункт 5) кажется логичным, потому что в нашем случае момент уже сам по себе был своего рода ковариацией (скалярное произведение и ковариация являются структурно конкурирующими ), и так получилось, что вы стали своего рода умноженными ковариациями дважды. Поэтому, чтобы вернуться обратно на уровень значений исходных данных (и чтобы иметь возможность вычислить значение корреляции), необходимо впоследствии получить корень.
Одно важное примечание должно наконец уйти. Если бы мы делали двойное центрирование по его классическому пути, то есть после возведения в квадрат евклидовых расстояний, то мы бы получили ковариацию расстояния, которая не является истинной ковариацией расстояния и бесполезна. Он будет казаться вырожденным в величину, точно связанную с обычной ковариацией (и дистанционная корреляция будет функцией линейной корреляции Пирсона). Что делает ковариацию / корреляцию расстояний уникальной и способной измерять не линейную ассоциацию, а общую форму зависимости , так что dCov = 0 тогда и только тогда, когда переменные независимы, - это отсутствие возведения в квадрат расстояний при выполнении двойного центрирования (см. пункт 2). На самом деле, любая степень расстояния в диапазоне сделал бы, однако, стандартная форма сделать это на власть 1 . Почему эта сила, а не сила 2 способствует тому, что коэффициент становится мерой нелинейной взаимозависимости, является довольно сложной (для меня) математической проблемой, имеющейхарактерные функциираспределений, и я хотел бы услышать кого-то более образованного, чтобы объяснить здесь механику расстояния ковариация / корреляция с возможно простыми словами (я однаждыпопытался, безуспешно).(0,2)12