Как я должен интерпретировать статистику GAP?

Я использовал статистику GAP для оценки k кластеров в R. Однако я не уверен, правильно ли я ее интерпретирую. введите описание изображения здесь

Из приведенного выше графика я предполагаю, что я должен использовать 3 кластера.

введите описание изображения здесь

Из второго сюжета я должен выбрать 6 кластеров. Это правильная интерпретация статистики GAP?

Буду благодарен за любое объяснение.

clustering

— peterpeter
источник

Два вопроса - Что показывает первый сюжет? Это статистика GAP для тех же данных? Почему это выглядит иначе, чем второй (который я вижу, GAP). Какие функции R вы использовали? Второй вопрос: использовали ли вы правило «1-стандартная ошибка», чтобы выбрать 6 для второго графика?

— Deathkill14

Таким образом, существует два разных подхода к кластеризации. Первый, основанный на временных рядах - продажи за 26 недель, и я кластеризовал данные на основе динамического искажения времени. Второй подход заключался в параметрах кривой роста кластеров, также основанных на динамической временной деформации. Я использовал clusGapна основе globalmax, я не знал, как реализовать maxSE.

— peterpeter

$k$ $k$ $k=2$

Однако во многих реальных наборах данных кластеры не так четко определены, и мы хотим иметь возможность сбалансировать максимизацию статистики разрыва с экономией модели. Показательный пример: первое изображение ОП. Если мы максимизируя разрыв статистики в одиночку , то мы должны выбрать модель с 30 (или даже больше!) Кластеров. Если предположить, что этот график будет продолжать расти, результаты, конечно, будут менее полезными. Таким образом, Тибширани предлагает метод 1-стандартной ошибки :

Выберите размер кластера чтобы он был наименьшим таким, чтобы . $\hat{k}$ $k$ $\text{Gap}(k) \geq \text{Gap}(k + 1) - s_{k + 1}$

Что неофициально определяет точку, в которой скорость роста статистики разрыва начинает «замедляться».

Итак, в первом изображении OP, если мы берем красные полосы ошибок как стандартную ошибку, то 3 - это наименьшее , удовлетворяющее этому критерию: $k$

Однако для второго изображения OP вы увидите, что статистика разрыва сразу уменьшается при . Итак, первый $k > 1$ $k$ $1$

$k$ clusGap $k$ firstSEmax $k = 30$ $k = 19$

Источник: Роберт Тибширани, Гюнтер Вальтер и Тревор Хасти (2001). Оценка количества кластеров в наборе данных с помощью статистики разрыва.

— jayelm
источник

k

$k$

k

$k$

Спасибо за указание на компромисс между максимизацией статистики разрыва и получением экономии модели

— cloudcomputes