Сравнение иерархических кластерных дендрограмм, полученных разными расстояниями и методами


28

[Первоначальный заголовок «Измерение подобия для деревьев иерархической кластеризации» был позже изменен @ttnphns, чтобы лучше отражать тему]

Я выполняю ряд иерархических кластерных анализов на базе данных записей пациентов (например, аналогично http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

Я экспериментирую с разными мерами расстояния , разными весами параметров и разными иерархическими методами , чтобы понять их влияние на конечные кластеры / структуру / вид дерева (дендрограмма). Мой вопрос, существует ли стандартное вычисление / мера для вычисления разницы между различными иерархическими деревьями, и как реализовать это в R (например, для количественной оценки того, что некоторые деревья почти идентичны, а некоторые кардинально отличаются).

Ответы:


44

Для сравнения сходства двух иерархических (древовидных) структур используются меры, основанные на идее копенетической корреляции. Но правильно ли проводить сравнение дендрограмм, чтобы выбрать «правильный» метод или меру расстояния в иерархической кластеризации?

Есть некоторые моменты - скрытые препятствия - в отношении иерархического кластерного анализа, которые я считаю весьма важными :

  • Никогда не сравнивайте (чтобы выбрать метод, дающий более сильное разбиение) дендрограммы, полученные различными методами агломерации визуально. Это не скажет, какой метод "лучше" в этом. Каждый метод имеет свой собственный «прототипный» вид дерева: деревья будут последовательно отличаться, даже если данные не имеют кластерной структуры или имеют случайную кластерную структуру. (И я не думаю, что существует стандартизация или мера, которая бы убрала эти внутренние различия.). Однако вы можете сравнить результаты дендрограммы результатов, полученных одним и тем же методом, но с разными данными. Максим: прямой, внешний вид сравнения дендрограмм после разных методов недопустим .
  • 1 Максим: выбор уровня среза путем созерцания внешнего вида дендрограммы, хотя и возможен, не лучший способ выбора раздела, и для некоторых методов он может вводить в заблуждение . Вместо этого рекомендуется опираться на некоторый формальный внутренний критерий кластеризации .
  • Хотя никто не может запретить вам «экспериментировать» с дистанционными мерами или агломерационными методами, лучше выбирать дистанцию ​​и метод осознанно , а не слепые попытки. Расстояние должно отражать аспекты различий, которые вас интересуют, а метод - нужно знать - подразумевает конкретный архетип кластера (например, метафора кластера Уорда, я бы сказал, типа ; кластер после полной связи будет быть кругом [по хобби или сюжету]; кластер за одиночной связью будет спектром [цепочкой]; метод кластера за центроидом будет близостью платформ [политики]; средняя кластерная связь концептуально наиболее недифференцирована и будет в целом единым классом ).
  • Некоторые методы требуют правильных измерений расстояния и / или правильного типа данных. Уорд и центроид, например, логически требуют (квадрат) евклидова расстояния - потому что эти методы участвуют в вычислении центроидов в евклидовом пространстве. А вычисление геометрических центроидов несовместимо, например, с двоичными данными; данные должны быть масштабными / непрерывными. Максим: данные / расстояние / метод допущений и соответствие очень важны и не так просты.
  • Предварительная обработка (такая как центрирование, масштабирование и другие формы преобразования переменных / признаков) перед вычислением матрицы расстояний и выполнением кластеризации также является чрезвычайно важным вопросом. Это может существенно повлиять на результаты. Подумайте над тем, что предварительная обработка может помочь вам и будет иметь смысл с точки зрения интерпретации. Кроме того, никогда не стесняйтесь тщательно проверять свои данные графически, прежде чем пытаться выполнить кластерный анализ.
  • Не все методы агломерационной кластеризации можно рассматривать как иерархическую классификацию ... по философским соображениям. Например, метод центроида действительно дает иерархию в некотором смысле, потому что центр кластера является возникающим и определяющим признаком кластера в целом , и объединение кластеров управляется этим свойством. Полная связь, с другой стороны, «отбрасывает» оба подкласса, когда объединяет их - благодаря дистанционированию между отдельными объектами обоих. Таким образом, полная дендрограмма сцепления - это просто история сбора, а не род-дочерний вид таксономии .Максим: иерархический агломерационный кластерный анализ, как правило, предполагает, что вы создаете раздел на основе его результата, а не рассматриваете результат как иерархическую таксономию.
  • Иерархическая кластеризация является типичным жадным алгоритмом, который делает лучший выбор среди альтернатив, появляющихся на каждом этапе, в надежде приблизиться к оптимальному решению в конце. Однако «лучший» выбор, появляющийся на шаге высокого уровня, вероятно, будет хуже, чем глобально оптимальный теоретически возможный на этом шаге. Чем больше шаг, тем больше субоптимальность, как правило. Учитывая, что мы обычно хотим несколько кластеров, последние шаги важны; и, как только что сказано, ожидается, что они будут относительно бедными, если число шагов велико (скажем, тысячный шаг). Вот почему иерархическая кластеризация обычно не рекомендуется для больших выборок объектов (насчитывающих тысячи объектов), даже если программа может обрабатывать матрицу такого большого расстояния.

ИксяJYяJ


1 реализации), а не накапливать. Повторим еще раз: такие различия влияют только на общую форму / внешний вид дендрограммы, а не на результаты кластеризации. Но внешний вид дендрограммы может повлиять на ваше решение о количестве кластеров. Мораль состоит в том, что было бы безопасно вообще не полагаться на дендрограмму в методе Уорда, если вы точно не знаете, каковы эти коэффициенты в вашей программе и как их правильно интерпретировать.


5
Я могу подкрепить почти все это. Два момента, которые я хочу добавить: A) то, что вы делаете, это своего рода переоснащение . Благодаря систематической оценке мер, весов и методов, существует высокий риск того, что параметры, с которыми вы работаете, в высшей степени специфичны для ваших текущих данных и могут оказаться бесполезными для других данных или даже более поздних данных. Б) Как хорошо знать сходство дендрограмм. Подумайте, что вы хотите сделать с ними потом, а затем попробуйте оценить конечный результат. Оценка промежуточных результатов может вводить в заблуждение.
Anony-Mousse

1
Если вы все еще интересуетесь этой темой, я подумал, что вам может пригодиться мой недавний ответ о DS SE , тем более что он предлагает, хотя и ограниченный, охват как частых, так и байесовских подходов к иерархическим тематическим моделям (со встроенной информацией о классе). и выбор мер сходства .
Александр Блех

@ttnphns, Не могли бы вы объяснить более подробно, как использовать «коэффициент коллизии» для сравнения двух иерархических классификаций?
Бассир
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.