ККк = 2

Однако во многих реальных наборах данных кластеры не так четко определены, и мы хотим иметь возможность сбалансировать максимизацию статистики разрыва с экономией модели. Показательный пример: первое изображение ОП. Если мы максимизируя разрыв статистики в одиночку , то мы должны выбрать модель с 30 (или даже больше!) Кластеров. Если предположить, что этот график будет продолжать расти, результаты, конечно, будут менее полезными. Таким образом, Тибширани предлагает метод 1-стандартной ошибки :
Выберите размер кластера чтобы он был наименьшим таким, чтобы .К^КРазрыв ( k ) ≥ Разрыв ( k + 1 ) - ск + 1
Что неофициально определяет точку, в которой скорость роста статистики разрыва начинает «замедляться».
Итак, в первом изображении OP, если мы берем красные полосы ошибок как стандартную ошибку, то 3 - это наименьшее , удовлетворяющее этому критерию:К

Однако для второго изображения OP вы увидите, что статистика разрыва сразу уменьшается при . Итак, первыйk > 1К1
КclusGapКfirstSEmaxк = 30к = 19
Источник: Роберт Тибширани, Гюнтер Вальтер и Тревор Хасти (2001). Оценка количества кластеров в наборе данных с помощью статистики разрыва.