Как интерпретировать дендрограмму иерархического кластерного анализа


25

Рассмотрим пример R ниже:

plot( hclust(dist(USArrests), "ave") )
  1. Что именно означает ось Y "Высота"?

  2. Глядя на Северную Каролину и Калифорнию (скорее слева). Калифорния "ближе" к Северной Каролине, чем Аризона? Могу ли я сделать эту интерпретацию?

  3. Гавайи (справа) присоединяются к группе довольно поздно. Я могу видеть это, поскольку это "выше" чем другие государства. В общем, как я могу правильно интерпретировать тот факт, что метки «выше» или «ниже» в дендрограмме?

введите описание изображения здесь



3
Позиции надписей не имеют значения. Если вы не понимаете ось Y, то странно, что у вас сложилось впечатление, что вы хорошо понимаете иерархическую кластеризацию.
Стефан Лоран

1
Также имейте в виду, что иерархическая кластеризация обычно не дает иерархической (древовидной) классификации . Средний метод (который вы использовали) не, в частности. Смотрите последний пункт здесь .
ttnphns

1
Позиция этикетки имеет небольшое значение, хотя. Чем выше позиция, тем позже объект связывается с другими, и, следовательно, больше похоже на то, что это выброс или отклонение.
ttnphns

3
@ StéphaneLaurent Вы правы, что это звучит как противоречие. С другой стороны, я все еще думаю, что могу перехватить дендограмму данных, которые я хорошо знаю. Кроме того, положение меток имеет небольшое значение, как указывают ttnphns и Питер Флом. Наконец ваш комментарий не был конструктивным для меня.
Рик

Ответы:


17

1) Ось Y является мерой близости отдельных точек данных или кластеров.

2) Калифорния и Аризона в равной степени отдалены от Флориды, потому что CA и AZ находятся в кластере, прежде чем присоединиться к FL.

3) Гавайи присоединяются довольно поздно; около 50. Это означает, что кластер, к которому он присоединяется, ближе друг к другу, прежде чем HI присоединится. Но не намного ближе. Обратите внимание, что кластер, к которому он присоединяется (тот, который расположен полностью справа), формируется только около 45. Тот факт, что HI присоединяется к кластеру позже, чем любое другое состояние, просто означает, что (с использованием любой выбранной вами метрики) HI не так близко к любое конкретное состояние.


Таким образом, «высота» дает мне представление о значении критерия связи (как здесь ) - в моем случае среднее расстояние кластеров друг к другу. Это правильно? Благодарность!
Рик

Разве ось Y не является мерой несходства между кластерами и точками? Т.е. отрицательная близость, потому что она самая большая, когда вещи самые разные, а не наоборот @PeterFlom
Фелипе Алмейда

21

У меня были те же вопросы, когда я пытался изучить иерархическую кластеризацию, и я обнаружил, что следующий PDF очень полезен.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Даже если Ричард уже знает об этой процедуре, другие, кто просматривает вопрос, могут, вероятно, использовать pdf, его очень простой и понятный esp для тех, у кого недостаточно математического фона.


3
Просто хочу повторить, что связанный PDF очень хорош.
Гейзенберг

Ссылка: Климберг, Рональд К. и Б. Д. Маккалоу. 2013. «Глава 7: Иерархический кластерный анализ». Основы прогнозной аналитики с JMP. Cary, NC: SAS Institute.
jay.sf

1

Горизонтальная ось представляет кластеры. Вертикальная шкала на дендрограмме представляет расстояние или различие. Каждое соединение (слияние) двух кластеров представлено на диаграмме разбиением вертикальной линии на две вертикальные линии. Вертикальная позиция разделения, показанная короткой полосой, дает расстояние (различие) между двумя кластерами.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.