Предположим , что мы имеем множество элементов Е и сходство ( не расстояние ) функция сим (е, Ej) между двумя элементами Ei, Ej ∈ E .
Как мы можем (эффективно) кластеризовать элементы E , используя sim ?
к -средних, например, требует заданных к , Навес Кластеризация требует два пороговых значений. Что если мы не хотим таких предопределенных параметров?
Обратите внимание, что сим не обязательно является метрикой (то есть неравенство треугольника может или не может иметь место). Более того, не имеет значения, являются ли кластеры непересекающимися (разбиениями E ).
1-sim(ei, ej) = Distance
. С метрикой расстояния вы можете применять, например, иерархическую кластеризацию. Спустившись от корня, вы увидите, на каком уровне кластеров гранулярности будет иметь смысл для вашей конкретной проблемы.