У меня есть алгоритм кластеризации (не k-средних) с входным параметром (количество кластеров). После выполнения кластеризации я бы хотел получить количественную оценку качества этой кластеризации. Алгоритм кластеризации имеет одно важное свойство. Для если я введу точек данных без какого-либо существенного различия между ними в этом алгоритме, в результате я получу один кластер, содержащий точек данных, и один кластер с точкой данных. Очевидно, это не то, что я хочу. Поэтому я хочу рассчитать этот показатель качества, чтобы оценить целесообразность этой кластеризации. В идеале я смогу сравнить эти меры для разных . Так что я буду запускать кластеризацию в диапазонеи выберите тот, который имеет лучшее качество. Как рассчитать такой показатель качества?
ОБНОВИТЬ:
Вот пример, когда плохая кластеризация. Допустим, на плоскости есть 3 точки, образующие равносторонний треугольник. Разбить эти точки на 2 кластера, очевидно, хуже, чем разбить их на 1 или 3 кластера.