Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?


12

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал коэффициент Джакарда . Однако что если значения номинального атрибута не равны 2? что если в этом атрибуте есть три или четыре значения?

Какую функцию расстояния я должен использовать для номинальных атрибутов?


1
Я нашел этот пост полезным, по статистике Крамера V и Чи в квадрате.
KarthikS

Ответы:


18

Технически, чтобы вычислить меру несоответствия между индивидами по номинальным атрибутам, большинство программ сначала перекодируют каждую номинальную переменную в набор фиктивных двоичных переменных, а затем вычисляют некоторую меру для двоичных переменных. Вот формулы некоторых часто используемых бинарных мер сходства и различий .

Что такое фиктивные переменные (также называемые «горячими»)? Ниже 5 человек, две номинальные переменные (A с 3 категориями, B с 2 категориями). 3 манекена созданы вместо А, 2 манекена созданы вместо В.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Нет необходимости исключать одну фиктивную переменную как «избыточную», как мы обычно делаем это при регрессии с фиктивными переменными. Это не практикуется при кластеризации, хотя в особых ситуациях вы можете рассмотреть этот вариант.)

aa+b+c

  • а - количество манекенов 1 для обоих лиц
  • б - количество манекенов 1 для этого и 0 для этого
  • c - количество манекенов 0 для этого и 1 для этого
  • d - количество манекенов 0 для обоих

bcaa2a2a+b+cрасстояние. Посмотрите, сколько синонимов - вы обязательно найдете что-то подобное в своем программном обеспечении!

Интуитивная достоверность коэффициента подобия костей основана на том факте, что это просто пропорция совпадения (или относительное согласие ). Для приведенного выше фрагмента данных возьмите номинальный столбец Aи вычислите 5x5квадратную симметричную матрицу либо 1(оба человека попадали в одну и ту же категорию), либо 0(не в одну и ту же категорию). Вычислите аналогично матрицу для B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Суммируйте соответствующие записи двух матриц и разделите на 2 (количество номинальных переменных) - здесь вы с матрицей коэффициентов Dice. (Таким образом, на самом деле вам не нужно создавать фиктивные элементы для вычисления Dice, с матричными операциями вы, вероятно, можете сделать это быстрее, как только что описано.) См. Связанную тему Dice для ассоциации именных атрибутов .

Хотя кубики являются наиболее очевидной мерой, которую нужно использовать, когда вы хотите (не) использовать функцию сходства между случаями, когда атрибуты являются категориальными, можно использовать другие двоичные меры - если найти их формулу, удовлетворяющую соображениям о ваших номинальных данных.

a+da+b+c+dddb+cdd2=p(1SM)p

Но ...

d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Поскольку во многих приложениях матрицы близости, например во многих методах кластерного анализа, результаты не изменятся или будут плавно меняться при линейном (а иногда даже при монотонном) преобразовании близости, кажется, что это может быть оправдано для огромного числа бинарные меры, кроме Dice, чтобы получить такие же или похожие результаты. Но вы должны сначала рассмотреть / изучить, как конкретный метод (например, связь в иерархической кластеризации) реагирует на данное преобразование ближайших сторон.

Если ваша запланированная кластеризация или анализ MDS чувствительны к монотонным преобразованиям расстояний, вам лучше воздержаться от использования мер, отмеченных как «монотонные» в таблице выше (и, следовательно, да, не рекомендуется использовать сходство по Джакарду или евклидово расстояние без квадратов с фиктивной , т. е. прежние именные, атрибуты).


да, вы правы значения .. поэтому один атрибут имеет три возможных значения
Джейн Доу

2
Предположим, у меня есть два значения одного и того же атрибута, «ball», «nall», «pall», и я преобразовал это в 11 01 и 00. Я хочу измерить расстояние Джакарта между 11 и 00. В этом случае, тогда расстояние 1? так как a = 0 b = 2 c = 0 и d = 0? пожалуйста, дайте мне знать!
Джейн Доу

Я скучаю по сути вашего последнего комментария. Пожалуйста, спросите ясно. Или используйте приведенные выше данные примера с 5 людьми и 2 номинальными атрибутами и скажите, с каким человеком вы хотите, чтобы я сравнил его, и по какому показателю (сходству) он измеряется.
ttnphns
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.