Есть несколько вещей, о которых нужно знать.
Как и большинство внутренних критериев кластеризации , Calinski-Harabasz является эвристическим устройством. Надлежащим способом его использования является сравнение кластерных решений, полученных на одних и тех же данных, - решений, которые различаются либо количеством кластеров, либо используемым методом кластеризации.
Нет «приемлемого» порогового значения. Вы просто сравниваете значения CH на глаз. Чем выше значение, тем «лучше» решение. Если на линейном графике значений CH появляется, что одно решение дает пик или, по крайней мере, резкий отвод, выберите его. Если, наоборот, линия плавная - горизонтальная или восходящая или нисходящая, то нет никаких причин предпочитать одно решение другим.
Критерий CH основан на идеологии ANOVA. Следовательно, это подразумевает, что кластерные объекты лежат в евклидовом пространстве масштабных (не порядковых, двоичных или номинальных) переменных. Если кластеризованные данные были не объектами X переменных, а матрицей различий между объектами, то мерой различий должно быть (квадрат) евклидово расстояние (или, что хуже, другое метрическое расстояние, приближающееся к евклидову расстоянию по свойствам).
1
Давайте посмотрим на пример. Ниже приведена диаграмма рассеяния данных, которые были сгенерированы в виде 5 нормально распределенных кластеров, которые расположены довольно близко друг к другу.
Эти данные были сгруппированы методом иерархической средней связи, и все кластерные решения (членство в кластере) от 15-кластерного до 2-кластерного решения были сохранены. Затем были применены два критерия кластеризации для сравнения решений и выбора «лучшего», если таковой имеется.
Участок для Calinski-Harabasz находится слева. Мы видим, что - в этом примере - CH явно указывает 5-кластерное решение (помеченное CLU5_1) как лучшее. График для другого критерия кластеризации, C-Index (который не основан на идеологии ANOVA и является более универсальным в своем применении, чем CH), находится справа. Для индекса C более низкое значение указывает на «лучшее» решение. Как видно из сюжета, 15-кластерное решение формально является лучшим. Но помните, что с критериями кластеризации грубая топография важнее при принятии решения, чем сама величина. Обратите внимание, что в 5-кластерном решении есть колено; 5-кластерное решение все еще относительно хорошо, в то время как 4- или 3-кластерное решение ухудшается скачками. Поскольку обычно мы хотим получить «лучшее решение с меньшим количеством кластеров», выбор 5-кластерного решения представляется разумным и при тестировании C-Index.
PS В этом посте также поднимается вопрос о том, следует ли нам больше доверять фактическому максимуму (или минимуму) критерия кластеризации или, скорее, ландшафту графика его значений.
1
Обзор внутренних критериев кластеризации и как их использовать .