Как упоминается в OP, можно решить k-средних с использованием градиентного спуска, и это может быть полезно в случае крупномасштабных задач.
Существуют, безусловно, исторические причины преобладания алгоритмов в стиле EM для решения k-средних (то есть алгоритма Ллойда). Алгоритм Ллойда настолько популярен, что люди иногда называют его «алгоритмом k-средних» и даже могут не знать, что существуют другие подходы. Но эта популярность не является незаслуженной.
Bottou и Bengio (1995) показали, что алгоритм Ллойда эквивалентен оптимизации функции стоимости k-средних с использованием метода Ньютона. В общих задачах оптимизации методы второго порядка, такие как метод Ньютона, могут сходиться быстрее, чем методы первого порядка, такие как градиентный спуск, поскольку они используют информацию о кривизне целевой функции (а методы первого порядка - нет). В эксперименте с известным набором данных Iris они показали, что алгоритм Ллойда действительно сходился быстрее градиентного спуска. Было бы интересно увидеть это сравнение на более широком наборе данных.
Ссылки:
Ботту и Бенжио (1995) . Свойства сходимости алгоритмов k-средних.