Значение среднего коэффициента корреляции

Отказ от ответственности: если вы обнаружите, что этот вопрос слишком похож на другой, я рад его объединению. Тем не менее, я не нашел удовлетворительного ответа где-либо еще (и у меня пока нет «репутации», чтобы комментировать или поднимать голос), поэтому я подумал, что было бы лучше задать новый вопрос самостоятельно.

У меня вопрос такой. Для каждого из 12 человеческих субъектов я вычислил коэффициент корреляции (число Спирмена) между 6 уровнями независимой переменной X и соответствующими наблюдениями зависимой переменной Y. (Примечание: уровни X не равны между субъектами.) Мой нулевая гипотеза состоит в том, что в общей популяции эта корреляция равна нулю. Я проверил эту гипотезу двумя способами:

Использование t-критерия с одной выборкой для коэффициентов корреляции, полученных от моих 12 предметов.
Центрируя мои уровни X и наблюдения Y так, чтобы для каждого участника среднее (X) = 0 и среднее (Y) = 0, а затем вычисляя корреляцию по совокупным данным (72 уровня X и 72 наблюдения Y) ,

Теперь, читая о работе с коэффициентами корреляции (здесь и в других местах), я начал сомневаться в правильности первого подхода. В частности, я видел следующее уравнение, всплывающее в нескольких местах, представленное (по-видимому) как t-критерий для средних коэффициентов корреляции:

t = \frac{r}{S E_{r}} = \frac{\sqrt{n - 2}}{\sqrt{1 - r^{2}}}

$t = \frac{r}{SE_{r}} = \frac{\sqrt{n-2}}{\sqrt{1-r^{2}}}$

где будет средним коэффициентом корреляции (и давайте предположим, что мы получили его, используя сначала преобразование Фишера по коэффициентам для каждого субъекта), а - количество наблюдений. Интуитивно, это кажется мне неправильным, поскольку оно не включает какую-либо меру изменчивости между субъектами. Другими словами, если бы у меня было 3 коэффициента корреляции, я бы получил одну и ту же t-статистику, независимо от того, были ли они [0,1, 0,5, 0,9] или [0,45 0,5 0,55], или любой диапазон значений с одинаковым средним (и ) $r$ $n$ $n=3$

Поэтому я подозреваю, что вышеприведенное уравнение фактически не применяется при проверке значимости среднего коэффициента корреляции, но при проверке значимости одного коэффициента корреляции на основе наблюдений двух переменных. $n$

Может ли кто-нибудь здесь подтвердить эту интуицию или объяснить, почему она не так? Кроме того, если эта формула не применима к моему случаю, кто-нибудь знает / правильный подход? Или, может быть, мой собственный тест № 2 уже действителен? Любая помощь очень ценится (включая указатели на предыдущие ответы, которые я, возможно, пропустил или неправильно истолковал).

correlation statistical-significance fisher-transform

— Рубен ван Берген
источник

Пирсона нечувствителен к преобразованиям центрирования и масштабирования, поэтому я думаю, что центрирование не имеет отношения к вашему вопросу. Например, кор ( ) = кор (

) = кор ( ) = кор ( ).

r

$r$

X, Y

$X,Y$

X, Y - \bar{Y}

$X,Y-\bar{Y}$

X, Y + 1000

$X,Y+1000$

X, Y \times 1000

$X,Y\times 1000$

— Алексис

Я с тобой согласен. Вот почему я интерпретировал центрирование как «центрирование каждой переменной в отдельности перед их объединением».

— Федерико Тедески

@FedericoTedeschi « означает «центрирование каждой переменной отдельно перед объединением» ?

Y - \bar{Y}

$Y-\bar{Y}$

— Алексис

@Alexis Я ответил вам в нижней части моего ответа (было бы слишком долго писать его в комментарии, и мне также пришлось бы исправлять его несколько раз из-за проблемы WYSINWYG).

— Федерико Тедески

Ответы:

Лучшим подходом к анализу этих данных является использование смешанной модели (она же модель смешанных эффектов, иерархическая модель) со subjectслучайным эффектом (случайный перехват или случайный перехват + наклон). Подводя итог другого моего ответа :

По сути, это регрессия, которая моделирует единые общие отношения, позволяя этим отношениям различаться между группами (субъектами). Этот подход выигрывает от частичного объединения и использует ваши данные более эффективно.

— mkt - восстановить монику
источник

-1

Я предполагаю, что переменных ( и ) одинаковы для всех людей (на самом деле я не уверен, что понимаю, что вы имеете в виду, говоря, что уровни не одинаковы для разных предметов: я надеюсь, что вы имеется в виду независимость между диапазонами переменных, а не то, какие переменные измеряются для каждого человека). Да, формула, которую вы показали, относится к коэффициенту корреляции между двумя переменными. $12$ $6$ $X$ $6$ $Y$

В своем пункте 2 вы говорите о нормализации: я думаю, что это имело бы смысл, если бы вы делали это для каждой из переменных в отдельности. Однако, несмотря на это, проблема этого подхода заключается в том, что он не контролирует внутри-индивидуальную зависимость. $6*2$

Я полагаю, что ваш подход 1 также недопустим, потому что это будет тест из переменных с распределением только с степенями свободы, поэтому я не думаю, что вы можете применить Центральную предельную теорему в этом случае. $6$ $t$ $10$

Возможно, с большими числами вы могли бы использовать подход со случайным эффектом, учитывающий случайный наклон и одновременно проверяющий как нулевой средний коэффициент (от по ), так и отсутствие случайного коэффициента. Однако я считаю, что для этого недостаточно 6 переменных и 12 наблюдений. $X_i$ $Y_i$

Я предлагаю вам посмотреть на это как на тест 6 значений (становясь 12, если вы также учитываете значения ниже диагонали) матрицы корреляции среди переменных (как и ), то есть тех, которые находятся на диагонали 2-го (и эквивалентно 3-му) квадранту. Таким образом, я бы сделал тест отношения правдоподобия между ограниченной и неограниченной моделью. $12$ $X$ $Y$

@Alexis Я понимаю, что центрирование , , заменив их на $X_1, \dots, X_6$ $Y_1, \dots, Y_6$ будет иметь смысл (я думаючтотакже имеет смысл разделить их на их«s). Таким образом, переменныеи(созданные с учетомкак если бы они были вхождениями единственной переменной, и то же самое для ) имели бы все. Напротив, если мысначалапостроим две переменные(созданные с учетом $X_1^*=X_1-\bar{X_1}, \dots, X_6^*=X_6-\bar{X_6}, Y_1^*=Y_1-\bar{Y_1}, \dots, Y_6^*=Y_6-\bar{Y_6}$ $SE$ $X^*$ $Y^*$ $X_i^*, 1 \leq i \leq 6$ $Y_i^*$ $0$ $X, Y$ как если бы они были вхождениями уникальной переменной, и то же самое для ), то, конечно, вычитание среднего значения (а также деление на SE и ) ничего не изменит. $X_i, 1 \leq i \leq 6$ $Y_i$ $X$ $Y$

РЕДАКТИРОВАТЬ 01/01/18

Позвольте указать переменную и ( ) человека. Тогда предположим, что у нас есть: $i$ $j$ $1\leq j\leq 12$

; $X_{1j}=Y_{1j}=10, \forall j$

; $X_{2j}=Y_{2j}=8, \forall j$

; $X_{3j}=Y_{3j}=6, \forall j$

; $X_{4j}=Y_{4j}=4, \forall j$

; $X_{5j}=Y_{5j}=2, \forall j$

. $X_{6j}=-Y_{6j}=j, \forall j$

Корреляция в этом случае должна быть . $0.5428$

Если мы центрируем каждую переменную, учитывая, что для и и имеют вариаций, мы имеем: . Что касается , мы получаем значения $1 \leq i \leq 5$ $X_i$ $Y_i$ $X_{ij}^*=Y_{ij}^*=0$ $i=6$ (т. е. для : , и с точностью до ) , Поскольку и , мы получаем: $X_{6j}^*=j-6.5, Y_{j6}^*=(13-j)-6.5=6.5-j$ $X$ $-5.5, -4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5$ $Y$ $0=-0$ $j-6.5=-(6.5-j)$ , что подразумевает корреляцию. $X_{ij}^*=-Y_{ij}^* \forall i,j \rightarrow X^*=-Y^*$ $-1$

— Федерико Тедески
источник

Я согласен с вами, если мы будем следовать второй процедуре. Вот почему я считаю, что Рубен ван Берген имел в виду то, что я описал в 1-й процедуре. В этом случае мы имеем:

, но

c o r (X_{i}, Y_{i}) = c o r (X_{i}^{*}, Y_{i}^{*}), \forall i

$cor(X_i,Y_i)=cor(X_i^*,Y_i^*), \forall i$

c o r (X, Y) = c o r (X^{*}, Y^{*})

$cor(X,Y)=cor(X^*,Y^*)$ это вообще не правда. Я редактирую свой пост, чтобы показать контрпример.

— Федерико Тедески

Значения, дающие корреляцию

0.5428

$0.5428$

;

X = 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

$X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12$

. Неважно, действительно ли корреляция

Y = 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1

$Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,1$

0.5428

$0.5428$ , поскольку он явно отличается от

- 1

$-1$

— Федерико Тедески

Корреляция между

X^{*} = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, - 5.5, - 4.5, - 3.5, - 2.5, - 1.5, - 0.5, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5

$X^*=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,-5.5,-4.5,-3.5,-2.5,-1.5,-0.5,0.5,1.5,2.5,3.5,4.5,5.5$

составляет

. То, что вы говорите, что

приводит к

верно, но это только означает, что

X^{*} = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5.5, 4.5, 3.5, 2.5, 1.5, 0.5, - 0.5, - 1.5, - 2.5, - 3.5, - 4.5, - 5.5

$X^*=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,-0.5,-1.5,-2.5,-3.5,-4.5,-5.5$

- 1

$-1$

X = 1, \dots, 12

$X=1,\dots, 12$

Y = 12, \dots, 1

$Y=12, \dots, 1$

c o r (X, Y) = c o r (X^{*}, Y^{*}) = - 1

$cor(X,Y)=cor(X^*,Y^*)=-1$

, это то, что я уже написал.

c o r (X_{i}, Y_{i}) = c o r (X_{i}^{*}, Y_{i}^{*})

$cor(X_i,Y_i)=cor(X^*_i,Y^*_i)$

— Федерико Тедески

Конечно ,

: это является следствием инвариантности корреляции линейных преобразований. Это то, с чем я уже согласился в своем первом комментарии: «Я согласен с вами. Вот почему я интерпретировал центрирование как« центрирование каждой переменной отдельно перед их объединением ».» - Федерико Тедески, 27 декабря 17 года в 10:27

c o r (X; Y) = c o r (X - \bar{X}; Y - \bar{Y})

$cor(X;Y)=cor(X-\bar{X};Y-\bar{Y})$

— Федерико Тедески

Возможно, я не понимаю, что означает «центрирование каждой переменной в отдельности перед их объединением». Для меня

означает

«центрирует каждую переменную отдельно, прежде чем соединить их вместе». Можете ли вы помочь мне понять наше очевидное иное понимание?

X - \bar{X}

$X - \bar{X}$

X_{1} - \bar{X}, X_{2} - \bar{X}, \dots, X_{n} - \bar{X}

$X_{1} - \bar{X}, X_{2}-\bar{X},\dots, X_{n}-\bar{X}$

— Алексис