Требования к иерархической кластеризации
Иерархическая кластеризация может использоваться с произвольными мерами сходства и различий. (Большинство инструментов ожидают различий, но допускают отрицательные значения - вы сами должны убедиться, что предпочтение будет отдано малым или большим значениям.).
Только методы, основанные на центроидах или дисперсии (такие как метод Уорда), являются особыми и должны использоваться с евклидовым квадратом. (Чтобы понять, почему, пожалуйста, внимательно изучите эти связи.)
Одинарная связь, средняя связь, полная связь не сильно затронуты, она все равно будет минимальным / средним / максимальным из парных различий.
Корреляция как мера расстояния
Если вы предварительно обработаете свои данные ( N наблюдений, п признаков) так, что у каждого объекта есть μ = 0 и σ= 1 (что запрещает постоянные объекты!), Тогда корреляция уменьшается до косинуса:
Корр ( X, Y) = Cov ( X, Y)σИксσY= E [ ( X- μИкс) ( Y- μY) ]σИксσY= E [ XY] = 1N⟨ X, Y⟩
При тех же условиях квадрат евклидова расстояния также уменьшается до косинуса:
d2Евклид( X, Y) = ∑ ( Xя- Yя)2= ∑ X2я+ ∑ Y2я- 2 ∑ XяYя= 2 п - 2 ⟨ Х, Y⟩ = 2 н [ 1 - Корр. ( X,Y) ]
Поэтому, если ваши данные не вырождены, использование корреляции для иерархической кластеризации должно быть в порядке. Просто обработайте его, как описано выше, а затем используйте квадрат Евклидова расстояния.