Я читал, что алгоритм k-средних сходится только к локальному минимуму, а не к глобальному минимуму. Почему это? Я могу логически подумать о том, как инициализация может повлиять на окончательную кластеризацию, и есть вероятность неоптимальной кластеризации, но я не нашел ничего, что математически доказало бы это.
Кроме того, почему k-означает итеративный процесс? Разве мы не можем просто частично дифференцировать целевую функцию по центроидам, приравнять ее к нулю, чтобы найти центроиды, которые минимизируют эту функцию? Почему мы должны использовать градиентный спуск, чтобы шаг за шагом достичь минимума?