Пример сильного коэффициента корреляции с высоким значением p

21

Мне было интересно, возможно ли иметь очень сильный коэффициент корреляции (скажем, 0,9 или выше), с высоким значением р (скажем, 0,25 или выше)?

Вот пример низкого коэффициента корреляции с высоким значением p:

set.seed(10)
y <- rnorm(100)
x <- rnorm(100)+.1*y
cor.test(x,y)

кор = 0,03908927, р = 0,6994

Высокий коэффициент корреляции, низкое значение p:

y <- rnorm(100)
x <- rnorm(100)+2*y
cor.test(x,y)

кор = 0,8807809, р = 2,2е-16

Низкий коэффициент корреляции, низкое значение p:

y <- rnorm(100000)
x <- rnorm(100000)+.1*y
cor.test(x,y)

кор = 0,1035018, р = 2,2е-16

Высокий коэффициент корреляции, высокое значение р: ???

r hypothesis-testing correlation

— Zach
источник

36

Суть

Коэффициент корреляции выборки, необходимый для того, чтобы опровергнуть гипотезу о том, что истинный коэффициент корреляции (Пирсона) равен нулю, становится достаточно малым по мере увеличения размера выборки. Так что, в общем, нет, вы не можете одновременно иметь большой (по величине) коэффициент корреляции и одновременно большое значение $p$ .

Верхняя линия (детали)

Тест, используемый для коэффициента корреляции Пирсона в функции, является очень немного измененной версией метода, который я обсуждаю ниже. $R$ cor.test

Предположим, что являются двумерными нормальными случайными векторами с корреляцией . Мы хотим проверить нулевую гипотезу, что против . Пусть - выборочный коэффициент корреляции. Используя стандартную теорию линейной регрессии, нетрудно показать, что тестовая статистика, $(X_1,Y_1), (X_2,Y_2),\ldots,(X_n,Y_n)$ $\rho$ $\rho = 0$ $\rho \neq 0$ $r$ имеетраспределениепри нулевой гипотезе. Для большого, тораспределения приближается к стандартному нормальному. Следовательно,приблизительно хи-квадрат распределен с одной степенью свободы. (В предположениях мы сделали,в действительности, ноприближение делает более яснымчто происходит, я думаю.)

T = \frac{r \sqrt{n - 2}}{\sqrt{(1 - r^{2})}}

$T = \frac{r \sqrt{n-2}}{\sqrt{(1-r^2)}}$

t_{n - 2}

$t_{n-2}$

n

$n$

t_{n - 2}

$t_{n-2}$

T^{2}

$T^2$

T^{2} \sim F_{1, n - 2}

$T^2 \sim F_{1,n-2}$

χ_{1}^{2}

$\chi^2_1$

Итак, Где является квантиль распределения хи-квадрат с одной степенью свободы.

P (\frac{r^{2}}{1 - r^{2}} (n - 2) \geq q_{1 - α}) \approx α,

$\mathbb P\left(\frac{r^2}{1-r^2} (n-2) \geq q_{1-\alpha} \right) \approx \alpha \>,$

q_{1 - α}

$q_{1-\alpha}$

(1 - α)

$(1-\alpha)$

Теперь обратите внимание, что увеличивается с увеличением . Переставляя количество в утверждении вероятности, мы имеем это для всех $r^2/(1-r^2)$ $r^2$ мы получим отказ от нулевой гипотезы на уровне. Очевидно, что правая часть уменьшается с.

| р | \geq \frac{1}{\sqrt{1 + (N - 2) / Q_{1 - α}}}

$|r| \geq \frac{1}{\sqrt{1+(n-2)/q_{1-\alpha}}}$

α

$\alpha$

n

$n$

Участок

Вот график области отклонения как функция размера выборки. Так, например, когда размер выборки превышает 100, (абсолютная) корреляция должна быть только около 0,2, чтобы отклонить ноль на уровне . $|r|$ $\alpha = 0.05$

Симуляция

Мы можем выполнить простое моделирование для генерации пары векторов с нулевым средним с точным коэффициентом корреляции. Ниже приведен код. Из этого мы можем посмотреть на вывод cor.test.

k <- 100
n <- 4*k

# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho  <- 1/sqrt(1+(n-2)/qval)

# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)

# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2

# Do test
ctst <- cor.test(x,y)

Как и было запрошено в комментариях, здесь приведен код для воспроизведения графика, который можно запустить сразу же после кода выше (и использовать некоторые из указанных здесь переменных).

png("cortest.png", height=600, width=600)
m  <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
     xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()

— кардинальный
источник

1

Итак, что в итоге? Я думаю, что вы говорите, что, если размер выборки не мал, высокое значение корреляции подразумевает низкое значение p - но я думаю, что это помогло бы объяснить это явно.

— DW

p

$p$

@cardinal, не могли бы вы опубликовать исходный код сгенерированного вами графика?

— aL3xa

@DW, я попытался решить твои проблемы. Если вы видите улучшения, которые могут быть сделаны, пожалуйста, дайте мне знать.

— кардинал

1

@ aL3xa: я добавил код, который я использовал. Надеюсь это поможет.

— кардинал

17

cor.test(c(1,2,3),c(1,2,2))

кор = 0,866, р = 0,333

— Аарон - Восстановить Монику
источник

6

@ Зак: Пожалуйста, не стесняйтесь пересмотреть свой чек сейчас, когда кардинал и Шаббычеф нашли время, чтобы дать полные ответы.

— Аарон - Восстановить Монику

11

Высокая оценка коэффициента корреляции с высоким значением p может иметь место только при очень небольшом размере выборки. Я собирался представить иллюстрацию, но Аарон только что сделал это!

— универсальный
источник

9

$1 / \sqrt{n-3}$ $\hat{\rho} > 0$ $p$

п знак равно 2 - 2 Φ (ATANH (\hat{ρ}) \sqrt{N - 3}),

$p = 2 - 2 \Phi\left(\operatorname{atanh}(\hat{\rho})\sqrt{n-3}\right),$

Φ

$\Phi$

H_{0} : ρ = 0

$H_0: \rho = 0$

$n$ $\hat{\rho}$ $p$

 #get n for sample correlation and p-value, 2-sided test of 0 correlation
 n.size <- function(rho.hat,p.val) {
   n <- 3 + ((qnorm(1 - 0.5 * p.val)) / atanh(rho.hat))^2
 }

$\hat{\rho} = 0.5$ $p = 0.2$

print(n.size(0.5,0.2))

[1] 8,443062

$n, p$ $\hat{\rho}$

— shabbychef
источник

1

Да. Значение р зависит от размера выборки, поэтому небольшая выборка может дать это.

Скажем, истинный размер эффекта был очень мал, и вы рисуете маленький образец. К счастью, вы получаете несколько точек данных с очень высокой корреляцией. Значение р будет высоким, как и должно быть. Корреляция высокая, но это не очень надежный результат.

Выборочная корреляция из R's cor () покажет вам наилучшую оценку корреляции (с учетом выборки). Значение p НЕ измеряет силу корреляции. Он измеряет, насколько вероятно, что он мог возникнуть в случае, если на самом деле не было никакого эффекта, учитывая размер выборки.

Другой способ убедиться в этом: если у вас одинаковый размер эффекта, но вы получаете больше сэмплов, значение p всегда обнуляется.

(Если вы хотите более тесно интегрировать понятия оценочной величины эффекта и достоверности оценки, может быть лучше использовать доверительные интервалы или использовать байесовские методы.)

— Брендан Оконнор
источник

α = 0.05

$\alpha=0.05$ x <- seq(0,4); y <- seq(0,4) + rnorm(5); cor.test(x,y)