Ответ Сергея содержит критическую точку, которая заключается в том, что коэффициент силуэта количественно определяет качество достигнутой кластеризации - поэтому вам следует выбрать количество кластеров, которое максимизирует коэффициент силуэта.
Длинный ответ заключается в том, что лучший способ оценить результаты ваших усилий по кластеризации - это начать с фактического изучения - человеческого осмотра - сформированных кластеров и принятия решения на основе понимания того, что представляют данные, что представляет собой кластер, и что кластеризация предназначена для достижения.
Существует множество количественных методов оценки результатов кластеризации, которые следует использовать в качестве инструментов, с полным пониманием ограничений. Они имеют тенденцию быть довольно интуитивными по своей природе и, таким образом, имеют естественную привлекательность (например, проблемы с кластеризацией в целом).
Примеры: масса кластера / радиус / плотность, когезия или разделение между кластерами и т. Д. Эти концепции часто объединяются, например, отношение разделения к когезии должно быть большим, если кластеризация прошла успешно.
Способ измерения кластеризации определяется типом используемых алгоритмов кластеризации. Например, измерение качества полного алгоритма кластеризации (в котором все точки помещаются в кластеры) может сильно отличаться от измерения качества алгоритма нечеткой кластеризации на основе порогов (в котором некоторая точка может быть оставлена некластеризованной как «шум»). ).
Коэффициент силуэта является одной из таких мер. Это работает следующим образом:
Для каждой точки p сначала найдите среднее расстояние между p и всеми другими точками в том же кластере (это мера сцепления, назовите его A). Затем найдите среднее расстояние между p и всеми точками в ближайшем кластере (это мера отделения от ближайшего другого кластера, назовите его B). Коэффициент силуэта для p определяется как разность между B и A, деленная на большее из двух (max (A, B)).
Мы оцениваем коэффициент кластера каждой точки и из этого мы можем получить «общий» средний коэффициент кластера.
Интуитивно мы пытаемся измерить пространство между кластерами. Если сцепление кластера хорошее (А мало) и хорошее разделение кластера (В велико), числитель будет большим и т. Д.
Я построил пример здесь, чтобы продемонстрировать это графически.
На этих графиках одни и те же данные представлены пять раз; цвета обозначают кластеры, созданные кластеризацией с помощью k-средних, с k = 1,2,3,4,5. То есть я заставил алгоритм кластеризации разделить данные на 2 кластера, затем на 3 и т. Д. И соответствующим образом раскрасить график.
График силуэта показывает, что коэффициент силуэта был наивысшим при k = 3, что предполагает оптимальное количество кластеров. В этом примере нам повезло, что мы можем визуализировать данные, и мы можем согласиться с тем, что три кластера действительно лучше всего отражают сегментацию этого набора данных.
Если бы мы не смогли визуализировать данные, возможно, из-за более высокой размерности, силуэтный график все равно дал бы нам предложение. Тем не менее, я надеюсь, что мой довольно многословный ответ здесь также указывает на то, что это «предложение» может быть очень недостаточным или просто неверным в определенных сценариях.