d2ij=σ2i+σ2j−2covijd2ijпрямо пропорционально обычному квадрату евклидова расстояния : вы получите последнее, если вместо дисперсий и ковариации будете использовать суммы квадратов и сумму перекрестных произведений. Обе переменные должны быть изначально центрированы: говорить о «ковариациях» - это псевдоним мышления о данных с удаленными средствами.)
Обратите внимание, что эта формула означает, что отрицательная ковариация - это большее расстояние, чем положительная ковариация (и это действительно так с геометрической точки зрения, т.е. когда переменные рассматриваются как векторы в предметном пространстве ). Если вы не хотите, чтобы знак ковариации играл роль, отмените отрицательный знак. Игнорирование отрицательного знака не является операцией «исправления вручную» и оправдано, когда это необходимо: если матрица cov положительно определена, матрица abs (cov) также будет положительно определена; и, следовательно, расстояния, полученные по вышеприведенной формуле, будут истинными евклидовыми расстояниями (евклидово расстояние - это особый вид метрического расстояния).
Евклидовы расстояния универсальны в отношении иерархической кластеризации : любой метод такой кластеризации действителен как с евклидовым, так и с евклидовым квадратом d . Но некоторые методы, например, средняя или полная связь, могут использоваться с любым различием или сходством (не только с метрическими расстояниями). Таким образом, вы можете использовать такие методы напрямую с матрицей cov или abs (cov) или - просто, например - с матрицей расстояния max (abs (cov)) - abs (cov) . Конечно, результаты кластеризации потенциально зависят от точного характера используемого (не) сходства.