Я использую иерархическую кластеризацию для анализа данных временных рядов. Мой код реализован с использованием функции MathematicaDirectAgglomerate[...]
, которая генерирует иерархические кластеры с учетом следующих входных данных:
матрица расстояний D
название метода, используемого для определения межкластерной связи.
Я рассчитал матрицу расстояний D, используя расстояние Манхэттен:
где и n ≈ 150 - количество точек данных в моем временном ряду.
У меня вопрос: можно ли использовать межкластерную связь Уорда с матрицей расстояний Манхэттена? Некоторые источники предполагают, что связь Уорда должна использоваться только с евклидовым расстоянием.
Обратите внимание, что для DirectAgglomerate[...]
расчета связи Уорда используется только матрица расстояний, а не исходные наблюдения. К сожалению, я не уверен, как Mathematica модифицирует оригинальный алгоритм Уорда, который (из моего понимания) работал, сводя к минимуму сумму ошибок квадратов наблюдений, вычисленных относительно среднего значения кластера. Например, для кластера состоящего из вектора одномерных наблюдений, Уорд сформулировал сумму ошибок квадратов как:
(Другие программные инструменты, такие как Matlab и R, также реализуют кластеризацию Уорда, используя только матрицу расстояний, поэтому этот вопрос не является специфическим для Mathematica.)