Как определить количество кластеров в кластеризации K-средних?

Есть ли способ определить оптимальное число кластеров или я должен просто попробовать разные значения и проверить частоту появления ошибок, чтобы выбрать лучшее значение?

clustering unsupervised-learning

— Беркай
источник

@berkay Как вы определяете частоту ошибок для этого неконтролируемого метода? (или вы имеете ввиду внутри СС?)

— chl

@chl, я могу использовать сумму квадратов ошибок для всех кластеров или общую точность (в этом случае я знаю метки классов.)

— berkay

@berkay Простой алгоритм поиска кластеров № состоит в том, чтобы вычислить среднее значение WSS для 20 прогонов k-средних на растущем числе кластеров (начиная с 2 и заканчивая, скажем, 9 или 10), и сохранить решение, которое имеет минимальный WSS над этим набором кластеров. Другим методом является статистика Gap . Но если у вас уже есть помеченные экземпляры, то почему вы пытаетесь использовать неконтролируемый метод?

— ЧЛ

@ CHL Спасибо, хороший вопрос, мы можем угадать кластеры в зависимости от особенностей экземпляров, я анализирую новые характеристики вторжения, имитация юридических приложений.

— Беркай,

Я ответил на аналогичный вопрос с полдюжины методов (используя R) здесь: stackoverflow.com/a/15376462/1036500

— Бен

Метод, который я использую, заключается в использовании CCC (Критерии кубической кластеризации). Я ищу, чтобы CCC увеличивался до максимума, когда я увеличивал количество кластеров на 1, а затем наблюдал, когда CCC начинает уменьшаться. В этот момент я беру количество кластеров в (локальный) максимум. Это было бы похоже на использование scree-графика для выбора количества главных компонентов.

Технический отчет SAS A-108 Критерий кубической кластеризации ( pdf )

= количество наблюдений = число в кластере = количество переменных = количество кластеров = матрица данных = матрица кластеров означает = индикатор кластера ( если obs . в кластере , 0противном случае) $n$
$n_k$ $k$
$p$
$q$
$X$ $n\times p$
$M$ $q\times p$
$Z$ $z_{ik}=1$ $i$ $k$

Предположим, что каждая переменная имеет среднее значение 0:
, $Z’Z = \text{diag}(n_1, \cdots, n_q)$ $M = (Z’Z)-1Z’X$

(общая) матрица = = (между кластерами) матрица = = (внутри кластеров) матрица = = $SS$ $T$ $X’X$
$SS$ $B$ $M’ Z’Z M$
$SS$ $W$ $T-B$

$R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}$
(trace = сумма диагональных элементов)

Стек столбцы в один длинный столбец. Регресс наКронекер продуктизсединичной матрицей Computeдля этой регрессии -же $X$
$Z$ $p\times p$
$R^2$ $R^2$

Идея CCC состоит в том, чтобы сравнить вы получаете для данного набора кластеров, с вы получите, кластеризовав равномерно распределенный набор точек в мерном пространстве. $R^2$ $R^2$ $p$

— Ральф Винтерс
источник

Есть и другие критерии, кроме ССС. Посмотрите Определение количества кластеров в наборе данных , чтобы увидеть основные из них.

— Винсент Лабатут