Имеет ли смысл вычислять корреляцию Пирсона или Спирмена между двумя булевыми векторами?

42

Есть два булевых вектора, которые содержат только 0 и 1. Если я вычислю корреляцию Пирсона или Спирмена, они значимы или разумны?

— Чжилун цзя
источник

2

Если обе переменные дихотомические, Пирсон = Спирмен = Тау Кендалла. Да, это может иметь смысл. С действительно двоичными (булевыми) данными также имеет смысл вычислять «Пирсон» на данных без центрирования, что было бы косинусом.

— ttnphns

1

... и = Phi (стандартизированный хи-квадрат), который ведет нас от шкалы до таблицы непредвиденных обстоятельств.

— ttnphns

34

Соотношение Пирсона и Спирмена определяется при условии, что у вас есть с, а некоторые $0$ $1$ с для обеих двух двоичных переменных, скажем, $y$ и $x$ . Легко получить хорошее качественное представление о том, что они имеют в виду, подумав о точечной диаграмме двух переменных. Ясно, что существует только четыре варианта $(0,0), (0,1), (1, 0), (1,1)$ (так что дрожание для встряхивания одинаковых точек для визуализации является хорошей идеей). Например, в любой ситуации, когда два вектора идентичны, при условии, что в каждом есть несколько нулей и несколько единиц, то по определению $y = x$ и корреляция обязательно равна $1$ . Аналогично, возможно, что и тогда корреляция равна . $y = 1 -x$ $-1$

Для этой установки нет места для монотонных отношений, которые не являются линейными. При получении рангов с и с в соответствии с обычным соглашением среднего уровня ранги представляют собой просто линейное преобразование исходных с и с, и корреляция Спирмена обязательно идентична корреляции Пирсона. Следовательно, нет никакой причины рассматривать корреляцию Спирмена отдельно здесь или даже вообще. $0$ $1$ $0$ $1$

Корреляции возникают естественным образом для некоторых задач, связанных с $0$ с и $1$ с, например, при исследовании бинарных процессов во времени или пространстве. В целом, однако, будут лучшие способы думать о таких данных, в значительной степени зависящих от основного мотива такого исследования. Например, тот факт, что корреляции имеют большое значение, не означает, что линейная регрессия является хорошим способом для моделирования бинарного отклика. Если одна из двоичных переменных является ответом, то большинство статистиков начнут с рассмотрения модели логита.

— Ник Кокс
источник

1

Означает ли это, что в этой ситуации коэффициент корреляции Пирсона или Спирмена не является хорошим показателем подобия для этих двух двоичных векторов?

— Чжилун Цзя

Да в том смысле, что он не измеряет сходство и не определен для всех 0 или всех 1 для любого вектора.

— Ник Кокс

Случай двух одинаковых или «противоположных» векторов мне не понятен. Если x = c (1,1,1,1,1) и y = (0,0,0,0,0), то y = 1-x, и звучит так, будто вы говорите, что это должно иметь место по определению , подразумевая корреляцию -1. В равной степени у = х-1, подразумевая корреляцию +1. На диаграмме рассеяния имеется только 1 точка (5 повторов), поэтому через нее можно провести любую прямую линию. Такое ощущение, что в данном случае корреляция не определена. Извините, если я неправильно понял, что вы имели в виду. @NickCox

— ЛС.

2

Нет; Я не говорю, что, как я отмечаю в моем первом предложении, вы должны иметь комбинацию 0 и 1 для определения корреляции. В противном случае, если SD любой переменной равен 0, тогда корреляция не определена. Но я отредактировал свой ответ, чтобы упомянуть об этом дважды.

— Ник Кокс

15

Существуют специализированные метрики подобия для двоичных векторов, такие как:

Jaccard-Needham
Игральная кость
святки
Рассел-Рао
Сокаль-Michener
Роджерс-Танимото
Kulzinsky

и т.п.

Подробности смотрите здесь .

— Digio
источник

5

Конечно, есть много более надежных и полных ссылок. Даже на уровне получения правильных имен авторов, обратите внимание на Kulczyński и Tanimoto. См., Например, Hubálek, Z. 1982. Коэффициенты ассоциации и сходства, основанные на двоичных данных (присутствие-отсутствие): оценка. Биологические обзоры 57: 669–689.

— Ник Кокс

5

Они явно ошиблись «Танимото», но «Кульзинский» был преднамеренно упрощен. Ваша ссылка, несомненно, заслуживает доверия, но доступна не всем.

— Дигио

1

Я бы не советовал использовать коэффициент корреляции Пирсона для двоичных данных, см. Следующий контрпример:

set.seed(10) 
a = rbinom(n=100, size=1, prob=0.9) 
b = rbinom(n=100, size=1, prob=0.9)

в большинстве случаев оба дают 1

table(a,b)

> table(a,b)
   b
a    0  1
  0  0  3
  1  9 88

но корреляция не показывает это

cor(a, b, method="pearson")

> cor(a, b, method="pearson")
[1] -0.05530639

Мера двоичного сходства, такая как индекс Жакара, показывает, однако, гораздо более высокую связь:

install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")

> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966

Почему это? Смотрите здесь простую двумерную регрессию

plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))

график ниже (добавлен небольшой шум, чтобы сделать количество точек более четким)

— Арне Йонас Варнке
источник