В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние подходит?
В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние подходит?
Ответы:
Одним из способов является использование коэффициента подобия Гауэра, который является составной мерой ; он принимает количественные (такие как рейтинговая шкала), бинарные (такие как присутствующие / отсутствующие) и номинальные (такие как работник / учитель / делопроизводитель) переменные. Позже Podani добавил опцию для определения порядковых переменных.
Коэффициент легко понять даже без формулы; Вы вычисляете значение сходства между людьми по каждой переменной, принимая во внимание тип переменной, а затем усредняете по всем переменным. Обычно программа вычисления Gower позволяет вам взвешивать переменные, то есть их вклад, в составную формулу. Тем не менее, правильное взвешивание переменных различного типа является проблемой , четких руководящих принципов не существует, что делает Гауэра или другие «составные» показатели близости близкими.
Грани сходства Гауэра ( ):
(Список типов можно легко расширить. Например, можно добавить слагаемое для переменных подсчета, используя нормализованное расстояние хи-квадрат, преобразованное в сходство.)
Коэффициент находится в диапазоне от 0 до 1.
« Расстояние Гауэр ». Без порядковых переменных (т.е. без использования параметра Подани) ведет себя как евклидово расстояние, оно полностью поддерживает евклидово пространство. Но только метрическая (поддерживает треугольное неравенство), а не евклидова. При наличии порядковых переменных (с использованием параметра Подани) является только метрической, а не евклидовой; и вообще не метрический. Смотрите также .
С евклидовыми расстояниями (расстояниями, поддерживающими евклидово пространство) подойдет практически любой классический метод кластеризации. Включая K-средние (если ваша программа K-средних может, конечно, обрабатывать матрицы расстояний), а также методы Уорда, центроида и медианы иерархической кластеризации . Использование K-средних или других тех методов, основанных на евклидовом расстоянии с неевклидовым по-прежнему метрическим расстоянием , возможно, эвристически допустимо. При неметрических расстояниях такие методы не могут быть использованы.
В предыдущем пункте , если переговоры о K-средних или Уорд или такая кластеризацией является законной или нет с Гоуэром расстоянием математически (геометрический). С точки зрения шкалы измерения («психометрической») не следует вычислять среднее значение или отклонение от евклидова расстояния от него в любых категориальных (номинальных, двоичных, а также порядковых) данных; поэтому с этой позиции вы просто не можете обрабатывать коэффициент Гауэра с помощью K-средних, Уорда и т. д. Эта точка зрения предупреждает, что даже если присутствует евклидово пространство, оно может быть гранулированным, а не гладким ( см. связанный ).
Гауэр Дж.С. Общий коэффициент подобия и некоторые его свойства // Биометрия, 1971, 27, 857-872
Подани, Дж. Расширение общего коэффициента сходства Гауэра с порядковыми знаками // Таксон, 1999, 48, 331-340
Если вы натолкнулись на этот вопрос и задаетесь вопросом, какой пакет загрузить для использования метрики Gower в R , в cluster
пакете есть функция daisy () , которая по умолчанию использует метрику Gower всякий раз, когда используются смешанные типы переменных. Или вы можете вручную установить его для использования метрики Гауэра.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.