Если вы случайно разделите выборку на 5 подвыборок, ваши 5 средних будут почти совпадать. Какой смысл делать такие близкие точки начальными кластерными центрами?
Во многих реализациях K-средних выбор исходных центров кластеров по умолчанию основан на противоположной идее: найти 5 точек, которые находятся наиболее далеко друг от друга, и сделать их начальными центрами. Вы можете спросить, что может быть способом найти эти отдаленные точки? Вот что делает для этого K-means SPSS:
Возьмем любые k случаев (точек) набора данных в качестве начальных центров. Все остальные случаи проверяются на возможность замены их в качестве начальных центров следующими условиями:
- а) Если случай находится дальше от центра, ближайшего к нему, чем расстояние между двумя наиболее близкими друг к другу центрами, случай заменяет тот центр последних двух, к которому он ближе.
- б) Если корпус находится дальше от 2-го центра, ближайшего к нему, чем расстояние между центром, ближайшим к нему, и центром, ближайшим к этому последнему, корпус заменяет центр, ближайший к нему.
Если условие (а) не выполняется, условие (б) проверяется; если оно не удовлетворено, то и дело не становится центром. В результате такого прохождения случаев мы получаем k предельных случаев в облаке, которые становятся начальными центрами. Результат этого алгоритма, хотя и достаточно надежный, не полностью нечувствителен к начальному выбору «любых k случаев» и к порядку сортировки случаев в наборе данных; Итак, несколько случайных попыток запуска все еще приветствуются, как это всегда имеет место с K-средних.
Смотрите мой ответ со списком популярных методов инициализации для k-средних. Метод разбиения на случайные подвыборки (здесь и мной и другими), а также описанный метод, используемый SPSS - тоже есть в списке.