Коэффициенты подобия для двоичных данных: почему Жаккар предпочел Рассела и Рао?


20

Из энциклопедии статистических наук я понимаю, что, учитывая дихотомических (двоичных: 1 = присутствующих; 0 = отсутствующих) атрибутов (переменных), мы можем сформировать таблицу сопряженности для любых двух объектов i и j выборки:п

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Мы можем вычислить из этих значений коэффициентов сходства между любой парой объектов, в частности, Jaccard коэффициент и коэффициент Рассела и Рао а

aa+б+с
aa+б+с+dзнак равноaп,

d

Ответы:


14

Таких коэффициентов существует много (большинство выражено здесь ). Просто попытайтесь размышлять о том, каковы последствия различий в формулах, особенно когда вы вычисляете матрицу коэффициентов.

Представьте, например, что объекты 1 и 2 похожи, как объекты 3 и 4. Но 1 и 2 имеют много атрибутов в списке, в то время как 3 и 4 имеют только несколько атрибутов. В этом случае Рассел-Рао (отношение ко-атрибутов к общему количеству рассматриваемых атрибутов) будет высоким для пары 1-2 и низким для пары 3-4. Но Jaccard (отношение ко-атрибутов к совокупному количеству атрибутов, которые имеют оба объекта = вероятность того, что если у какого-либо объекта есть атрибут, то у обоих он будет) будет высоким для обеих пар 1-2 и 3-4.

(aa+б+aa+с)/2

aa+бaa+с
бс

PS

Это просто потому, что для некоторых наборов данных одновременное отсутствие обоих атрибутов (d) не передает никакой информации?

d

Также обратите внимание, что если вы хотите вычислить сходство между объектами на основе 1+ номинальных атрибутов (дихотомических или политомных), перекодируйте каждую такую ​​переменную в набор фиктивных двоичных переменных. Тогда рекомендуемой мерой подобия для вычисления будет Dice ( которая при вычислении для наборов фиктивных переменных 1+ эквивалентна Ochiai и Kulczynski-2).


2
Предполагаемая аналогия с «дихотомическими» для различных классификаций включает более двух категорий. «Polytomous» предпочтительнее лингвистически, чем «polychotomous», что основано на неверном предположении, что «дихотомический» разделяется на два греческих корня, «di» и «chotomous». «Мультихотомные» соединения составляют эту ошибку с использованием латинского корня. Хотя слова с отдельными латинскими и греческими корнями пережили пренебрежение лингвистов (например, «телевидение»), я советую использовать здесь «политомный».
Ник Кокс

Спасибо, что напомнили. Я действительно знал, о чем ты говоришь, и сам пытался быть пуристическим ... когда я не спешу. Я отредактирую это.
ttnphns

3

Полезность коэффициента Танимото по сравнению с традиционной точностью (т. Е. Рассел-Рао) очевидна при анализе изображений при сравнении сегментации с золотым стандартом. Рассмотрим эти два изображения:

введите описание изображения здесь

В каждом из этих изображений, которые являются двоичными «масками», у нас есть два объекта одинакового размера, но размещенных в немного разных местах, и мы хотим оценить, насколько эти объекты идентичны по форме и положению, оценивая их наложение. Обычно один (например, фиолетовая маска) представляет собой сегментацию (производимую с помощью компьютерного алгоритма), например, это может быть попытка определить местонахождение сердца по медицинскому изображению. Другой (например, зеленый) является золотым стандартом (т. Е. Сердцем, определенным опытным врачом). Там, где есть белый цвет, две фигуры перекрываются. Черные пиксели являются фоном.

Эти два изображения идентичны (т. Е. Результаты алгоритма сегментации, а также золотой стандарт одинаковы на обоих изображениях), за исключением большого количества "отступов" фона на втором изображении (например, это может представлять два эксперимента с две разные рентгеновские аппараты, где вторая машина имела более широкий луч, покрывающий большую площадь тела, но в остальном размер сердца одинаков в обоих наборах изображений).

Очевидно, что поскольку сегментация и золотой стандарт на обоих изображениях идентичны, если мы оценим точность сегментации по золотому стандарту, мы бы хотели, чтобы наша метрика выявила одинаковый результат «точности» в обоих экспериментах.

Однако, если мы попытаемся оценить качество сегментации с использованием подхода Рассела-Рао, мы получим ошибочно высокую точность для правильного изображения (около 100%), поскольку «фоновые пиксели, правильно определенные как фоновые пиксели», вносят вклад в Общая точность наборов и фоновых пикселей непропорционально представлены во втором наборе. Объекты, чье наложение мы хотим оценить в медицинской сегментации, часто представляют собой крошечные пятнышки на массивном фоне, поэтому это не очень полезно для нас. Кроме того, это привело бы к проблемам, если бы мы попытались сравнить точность одного алгоритма сегментации с другим, и оба были оценены на изображениях разного размера! (или, что то же самое, в разных масштабах).Масштабирование / размер встраиваемого изображения не должны влиять на оценку сегментации по золотому стандарту! ,

Напротив, коэффициент tanimoto не заботится о пикселях фона, что делает его инвариантным для «масштаба». Таким образом, что касается коэффициента танимото, сходство обоих этих наборов будет идентичным, что делает его гораздо более полезным показателем сходства, который мы можем использовать для оценки качества алгоритма сегментации.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.