Вот пример, если бы я делал это в mplus, что могло бы быть полезным и дополнить более полные ответы:
Скажем, у меня есть 3 непрерывные переменные, и я хочу определить кластеры на их основе. Я бы определил смешанную модель (более конкретно в данном случае модель скрытого профиля), предполагая условную независимость (наблюдаемые переменные являются независимыми, учитывая членство в кластере) как:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Я бы запускал эту модель несколько раз, каждый раз задавая разное количество кластеров, и выбирал решение, которое мне больше всего нравится (для этого сама по себе обширная тема).
Чтобы потом запустить k-means, я бы указал следующую модель:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Таким образом, членство в классе основывается только на расстоянии до средних значений наблюдаемых переменных. Как указано в других ответах, отклонения не имеют к этому никакого отношения.
Хорошая особенность этого в mplus - это то, что они являются вложенными моделями, и поэтому вы можете непосредственно проверить, приводят ли ограничения к худшему соответствию или нет, в дополнение к возможности сравнить расхождения в классификации между двумя методами. Кстати, обе эти модели могут быть оценены с использованием EM-алгоритма, так что разница действительно больше в модели.
Если вы думаете в трехмерном пространстве, 3 средства составляют точку ... и отклонения трех осей эллипсоида, проходящего через эту точку. Если все три отклонения одинаковы, вы получите сферу.