Как не использовать K-средства для таймсерий.
DTW не минимизируется средним значением; K-средства могут не сходиться и даже если они сходятся, это не даст очень хороший результат. Среднее - это метод наименьших квадратов по координатам. Он минимизирует дисперсию, а не произвольные расстояния, а k-means предназначен для минимизации дисперсии, а не произвольных расстояний .
Предположим, у вас есть два временных ряда. Две синусоидальные волны, одинаковой частоты и довольно длительного периода дискретизации; но они смещены на . Поскольку DTW выполняет деформацию времени, он может выровнять их так, чтобы они идеально совпадали, за исключением начала и конца. DTW назначит довольно небольшое расстояние этим двум сериям. Однако, если вы вычислите среднее значение двух рядов, это будет плоский 0 - они отменяются. Среднее значение не выполняет динамическую деформацию времени и теряет все значение, полученное DTW. На таких данных k-means может не сойтись , и результаты будут бессмысленными. K-средства действительно должны быть использованы только с дисперсией (= квадрат евклидова), или в некоторых случаях, которые эквивалентны (как косинус, на L2 нормализованы данные, где косинусного подобия являетсяπтак же, как квадрат евклидова расстояния)2 -
Вместо этого вычислите матрицу расстояний с использованием DTW, а затем запустите иерархическую кластеризацию, такую как одноканальная. В отличие от k-средних, серия может даже иметь разную длину.