Технически, чтобы вычислить меру несоответствия между индивидами по номинальным атрибутам, большинство программ сначала перекодируют каждую номинальную переменную в набор фиктивных двоичных переменных, а затем вычисляют некоторую меру для двоичных переменных. Вот формулы некоторых часто используемых бинарных мер сходства и различий .
Что такое фиктивные переменные (также называемые «горячими»)? Ниже 5 человек, две номинальные переменные (A с 3 категориями, B с 2 категориями). 3 манекена созданы вместо А, 2 манекена созданы вместо В.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Нет необходимости исключать одну фиктивную переменную как «избыточную», как мы обычно делаем это при регрессии с фиктивными переменными. Это не практикуется при кластеризации, хотя в особых ситуациях вы можете рассмотреть этот вариант.)
aa+b+c
- а - количество манекенов 1 для обоих лиц
- б - количество манекенов 1 для этого и 0 для этого
- c - количество манекенов 0 для этого и 1 для этого
- d - количество манекенов 0 для обоих
bcaa2a2a+b+cрасстояние. Посмотрите, сколько синонимов - вы обязательно найдете что-то подобное в своем программном обеспечении!
Интуитивная достоверность коэффициента подобия костей основана на том факте, что это просто пропорция совпадения (или относительное согласие ). Для приведенного выше фрагмента данных возьмите номинальный столбец A
и вычислите 5x5
квадратную симметричную матрицу либо 1
(оба человека попадали в одну и ту же категорию), либо 0
(не в одну и ту же категорию). Вычислите аналогично матрицу для B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Суммируйте соответствующие записи двух матриц и разделите на 2 (количество номинальных переменных) - здесь вы с матрицей коэффициентов Dice. (Таким образом, на самом деле вам не нужно создавать фиктивные элементы для вычисления Dice, с матричными операциями вы, вероятно, можете сделать это быстрее, как только что описано.) См. Связанную тему Dice для ассоциации именных атрибутов .
Хотя кубики являются наиболее очевидной мерой, которую нужно использовать, когда вы хотите (не) использовать функцию сходства между случаями, когда атрибуты являются категориальными, можно использовать другие двоичные меры - если найти их формулу, удовлетворяющую соображениям о ваших номинальных данных.
a+da+b+c+dddb+cdd2=p(1−SM)p
Но ...
d
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Поскольку во многих приложениях матрицы близости, например во многих методах кластерного анализа, результаты не изменятся или будут плавно меняться при линейном (а иногда даже при монотонном) преобразовании близости, кажется, что это может быть оправдано для огромного числа бинарные меры, кроме Dice, чтобы получить такие же или похожие результаты. Но вы должны сначала рассмотреть / изучить, как конкретный метод (например, связь в иерархической кластеризации) реагирует на данное преобразование ближайших сторон.
Если ваша запланированная кластеризация или анализ MDS чувствительны к монотонным преобразованиям расстояний, вам лучше воздержаться от использования мер, отмеченных как «монотонные» в таблице выше (и, следовательно, да, не рекомендуется использовать сходство по Джакарду или евклидово расстояние без квадратов с фиктивной , т. е. прежние именные, атрибуты).