Связь между коэффициентами корреляции Фи, Мэтьюса и Пирсона


13

Являются ли коэффициенты корреляции фи и Мэтьюса одним и тем же понятием? Как они связаны или эквивалентны коэффициенту корреляции Пирсона для двух двоичных переменных? Я предполагаю, что двоичные значения равны 0 и 1.


Корреляция Пирсона между двумя случайными величинами Бернулли и :уxy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

где

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Коэффициент Фи из Википедии:

В статистике коэффициент phi (также называемый «среднеквадратичным коэффициентом непредвиденных обстоятельств» и обозначаемый как ϕ или rϕ ) является мерой ассоциации для двух двоичных переменных, введенных Карлом Пирсоном. Эта мера похожа на коэффициент корреляции Пирсона в своей интерпретации. Фактически, коэффициент корреляции Пирсона, оцененный для двух двоичных переменных, вернет коэффициент фи ...

Если у нас есть таблица 2 × 2 для двух случайных величин x и y

введите описание изображения здесь

Коэффициент фи, который описывает ассоциацию x и y равен

ϕ=n11n00n10n01n1n0n0n1

Коэффициент корреляции Мэтьюса из Википедии:

Коэффициент корреляции Мэтьюса (MCC) может быть вычислен непосредственно из матрицы путаницы с использованием формулы:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

В этом уравнении TP - это число истинных положительных результатов, TN - количество истинных отрицательных значений, FP - количество ложных положительных результатов, а FN - количество ложных отрицательных. Если любая из четырех сумм в знаменателе равна нулю, знаменатель может быть произвольно установлен в единицу; это приводит к нулевому коэффициенту корреляции Мэтьюса, который может быть показан как правильное предельное значение.

Ответы:


14

Да, они одинаковы. Коэффициент корреляции Мэтьюса является лишь частным применением коэффициента корреляции Пирсона к таблице путаницы.

Таблица непредвиденных обстоятельств - это просто сводка базовых данных. Вы можете преобразовать его обратно из подсчетов, показанных в таблице непредвиденных обстоятельств, в одну строку для наблюдений.

Рассмотрим пример матрицы путаницы, используемой в статье в Википедии: 5 истинных положительных результатов, 17 истинных отрицательных, 2 ложных положительных и 3 ложных отрицательных

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

Спасибо, Питер! Математически, почему фи и Мэтью эквивалентны Пирсону для двух двоичных случайных величин?
Тим

Если вы берете определение корреляции Пирсона и манипулируете им так, что оно относится к подсчетам, а не к суммам различий между отдельными наблюдениями и средними, вы получите формулу Мэтьюса. На самом деле я этого не делал, но это должно быть достаточно просто.
Питер Эллис

2

Во-первых, в вопросе произошла ошибка опечатки: - это не а скорееE[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

Во- вторых, ключ к показывая , что являетсяρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.