Каковы расстояния между переменными, составляющими ковариационную матрицу?

У меня есть ковариационная матрица и я хочу разделить переменные на кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы). $n \times n$ $k$

Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной ковариационной матрицы)?

Или, если есть еще, есть хорошая ссылка на тему?

— Петр Мигдаль
источник

Почему вы хотите использовать иерархическую кластеризацию по переменным? Как правило, мы думаем о матрице данных

, с переменными в столбцах и наблюдениями в строках. Если вы хотите искать скрытые группировки, вы можете попробовать, например, иерархическую кластеризацию по строкам / наблюдениям или, например, факторный анализ по столбцам / переменным.

X

$X$

— gung - Восстановить Монику

@Piotr, да, ковариация (или корреляция или косинус) может быть легко и естественно преобразована в евклидово расстояние, потому что это скалярное произведение (= сходство углового типа). Знание ковариации между двумя переменными, а также их дисперсий автоматически подразумевает знание d между переменными:

d^{2} = σ_{1}^{2} + σ_{2}^{2} - 2 c o v

$d^2= \sigma_1^2+\sigma_2^2-2cov$

— ttnphns

@gung Это симметричная матрица, поэтому строки ~ столбцы. Для меня очень важно разделить его на наборы переменных, а не «вращать» их с помощью факторного анализа (на самом деле, я работаю не со стандартной матрицей, а со сложной (матрица плотности в квантовой механике)).

— Петр Мигдаль

@ttnphns Спасибо. Меня беспокоит то, что я хочу отделить некоррелированные переменные - отрицательная корреляция для меня (почти) так же хороша, как и положительная.

— Петр Мигдаль

Ответы:

$d_{ij}^2 = \sigma_i^2 + \sigma_j^2 −2cov_{ij}$ $d_{ij}^2$ прямо пропорционально обычному квадрату евклидова расстояния : вы получите последнее, если вместо дисперсий и ковариации будете использовать суммы квадратов и сумму перекрестных произведений. Обе переменные должны быть изначально центрированы: говорить о «ковариациях» - это псевдоним мышления о данных с удаленными средствами.)

Обратите внимание, что эта формула означает, что отрицательная ковариация - это большее расстояние, чем положительная ковариация (и это действительно так с геометрической точки зрения, т.е. когда переменные рассматриваются как векторы в предметном пространстве ). Если вы не хотите, чтобы знак ковариации играл роль, отмените отрицательный знак. Игнорирование отрицательного знака не является операцией «исправления вручную» и оправдано, когда это необходимо: если матрица cov положительно определена, матрица abs (cov) также будет положительно определена; и, следовательно, расстояния, полученные по вышеприведенной формуле, будут истинными евклидовыми расстояниями (евклидово расстояние - это особый вид метрического расстояния).

Евклидовы расстояния универсальны в отношении иерархической кластеризации : любой метод такой кластеризации действителен как с евклидовым, так и с евклидовым квадратом d . Но некоторые методы, например, средняя или полная связь, могут использоваться с любым различием или сходством (не только с метрическими расстояниями). Таким образом, вы можете использовать такие методы напрямую с матрицей cov или abs (cov) или - просто, например - с матрицей расстояния max (abs (cov)) - abs (cov) . Конечно, результаты кластеризации потенциально зависят от точного характера используемого (не) сходства.

— ttnphns
источник

d_{i j}^{2}

$d^2_{ij}$

d_{i j}^{2}

$d^2_{ij}$

@HelloGoodbye, да, я подразумеваю две переменные (векторы) с равными средствами - фактически, со средствами, удаленными, в первую очередь.

— ttnphns

Почему бы не использовать корреляционную матрицу для кластеризации? Предполагая, что ваши случайные переменные центрированы, вычисляя корреляцию между переменными, вы вычисляете расстояние сходства косинусов . Это расстояние также упоминается в вашей ссылке. Это расстояние можно использовать для иерархической кластеризации. Чем меньше 1 - | косинусное сходство |, тем больше ваши переменные.

— Хорхе Бануэлос
источник

d (i, j) = 1 - A_{i j}^{2} / (A_{i i} A_{j j})

$d(i,j)=1-A_{ij}^2/(A_{ii}A_{jj})$

Ах, извините за недоразумение. Лучший источник, о котором я знаю, это . Они изучают качество нескольких метрик (которые используют корреляцию) с иерархической кластеризацией. Для иерархической кластеризации я обычно пробую много метрик и вижу, какие из них лучше всего подходят для моей конкретной цели и данных.

— Хорхе Бануэлос

ссылка больше не работает?

— Матифу