Корреляция значима в каждой группе, но незначительна для всех?

9

Предположим , мы тестируем корреляции Пирсона между переменной и в группах и . Возможно ли, чтобы корреляция была значимой в каждом из и , но незначительной, когда данные из обеих групп объединены? В этом случае, не могли бы вы дать объяснение этому. $x$ $y$ $A$ $B$ $(x,y)$ $A$ $B$

correlation

— QED
источник

21

Да, это возможно, и это может произойти всеми способами. Одним очевидным примером является случай, когда членство в A и B выбрано таким образом, который отражает значения x и y. Возможны и другие примеры, например, комментарий @ Macro предлагает альтернативную возможность.

Рассмотрим приведенный ниже пример, написанный на R. x и y - это стандартные нормальные переменные, но если я распределю их по группам на основе относительных значений x и y, я получу название, которое вы назвали. Внутри группы A и группы B существует сильная статистически значимая корреляция между x и y, но если игнорировать структуру группировки, корреляции не будет.

введите описание изображения здесь

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

— Питер Эллис
источник

+1. Это очень умный пример, который мне не приходил в голову.

— Макро

13

Одна возможность состоит в том, что эффекты могут идти в разных направлениях в каждой группе и отменяются при их агрегировании . Это также связано с тем, что когда вы пропускаете важный термин взаимодействия в регрессионной модели, основные эффекты могут вводить в заблуждение.

$\rm A$ $y_i$ $x_i$

Е (Y_{я} | {Икс}_{я}, г р о U п A) знак равно 1 + {Икс}_{я}

$E(y_i|x_i, {\rm Group \ A}) = 1 + x_i$

$\rm B$

Е (Y_{я} | {Икс}_{я}, г р о U п В) знак равно 1 - {Икс}_{я}

$E(y_i|x_i, {\rm Group \ B}) = 1 - x_i$

п (г р о U п A) знак равно 1 - п (г р о U п В) знак равно п

$P({\rm Group \ A}) = 1-P( {\rm Group \ B}) = p$

E (y_{i} | x_{i})

$E(y_i|x_i)$

\begin{aligned} Е (Y_{я} | {Икс}_{я}) знак равно Е (Е (Y_{я} | {Икс}_{я}, г р о U п)) & знак равно п (1 + {Икс}_{я}) + (1 - п) (1 - {Икс}_{я}) \\ знак равно п + п {Икс}_{я} + 1 - {Икс}_{я} - п + п {Икс}_{я} \\ знак равно 1 - {Икс}_{я} (2 п - 1) \end{aligned}

$\begin{align*} E(y_i | x_i) = E( E(y_i|x_i,{\rm Group}) ) &= p(1+ x_i) + (1-p)(1-x_i) \\ &= p + px_i + 1 - x_i - p + px_i \\ &= 1 - x_i(2p-1) \end{align*}$

$p = 1/2$ $E(y_i | x_i) = 1$ $x_i$ $x_i$ $y_i$

$p$

Примечание. При обычных ошибках значимость коэффициента линейной регрессии эквивалентна значению корреляции Пирсона, поэтому в этом примере показано одно объяснение того, что вы видите.

— макрос
источник