К
Для простоты объяснения и ясности я бы загрузил кластеризацию.
В целом, вы можете использовать такие передискретизированные кластеры для измерения стабильности вашего решения: оно практически не меняется или полностью меняется?
Даже если у вас нет правды, вы можете, конечно, сравнить кластеризацию, которая возникает в результате разных запусков одного и того же метода (повторной выборки) или результатов разных алгоритмов кластеризации, например, путем суммирования:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
поскольку кластеры являются номинальными, их порядок может меняться произвольно. Но это означает, что вам разрешено изменять порядок, чтобы кластеры соответствовали. Затем диагональные * элементы подсчитывают случаи, которые назначены одному кластеру, и недиагональные элементы показывают, как изменились назначения:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Я бы сказал, что повторная выборка хороша, чтобы определить, насколько стабильна ваша кластеризация в каждом методе. Без этого не имеет большого смысла сравнивать результаты с другими методами.
я , я
Вы не смешиваете перекрестную проверку k-кратности и кластеризацию k-средних, не так ли?