Данные реального мира иногда имеют естественное количество кластеров (попытка сгруппировать их в число кластеров, меньших, чем какое-либо волшебство k, приведет к значительному увеличению стоимости кластеризации). Сегодня я посетил лекцию доктора Адама Мейерсона, и он назвал этот тип данных «разделяемыми данными».
Какие еще формализации кластеризации, кроме K-средних, могут быть применимы к алгоритмам кластеризации (аппроксимациям или эвристике), которые используют естественную разделимость данных?