Если A и B связаны с C, почему A и B не обязательно связаны?


62

Я знаю эмпирически, что это так. Я только что разработал модели, которые сталкиваются с этой загадкой. Я также подозреваю, что это не обязательно ответ да / нет. Я имею в виду, что если и A, и B соотносятся с C, это может иметь некоторое значение в отношении корреляции между A и B. Но это значение может быть слабым. Это может быть просто указатель направления и ничего больше.

Вот что я имею в виду ... Допустим, у A и B есть корреляция 0,5 с C. Учитывая это, корреляция между A и B вполне может быть 1,0. Я думаю, что это также может быть 0,5 или даже ниже. Но я думаю, что вряд ли это будет негативно. Согласны ли вы с этим?

Кроме того, есть ли смысл, если вы рассматриваете стандартный коэффициент корреляции Пирсона или вместо этого коэффициент корреляции Спирмена (ранг)? Мои недавние эмпирические наблюдения были связаны с коэффициентом корреляции Спирмена.


38
Примером может служить взять , , и . Мы можем взять и , чтобы быть независимыми, но оба и коррелированы (положительно, Пирсон) с . B = Y C = X + Y X Y A B CA=XB=YC=X+YXYABC

1
Спасибо, это действительно отличный комментарий. Коротко, но в нем отражена суть причины, по которой это так.
Симпа

Ответы:


53

Поскольку корреляция является математическим свойством многомерных распределений, некоторое понимание может быть получено исключительно посредством вычислений, независимо от статистического происхождения этих распределений.

Для корреляции Пирсона , рассмотрят multinormal переменных , , . С ними полезно работать, потому что любая неотрицательно определенная матрица на самом деле является ковариационной матрицей некоторых мультинормальных распределений, что позволяет решить вопрос о существовании. Если мы будем придерживаться матриц с по диагонали, недиагональные элементы ковариационной матрицы будут их корреляциями. Запись корреляции и как , корреляции и как и корреляции и какY Z 1 X Y ρ Y Z τ X Z σXYZ1XYρYZτXZσ , мы вычислим это

  • 1+2ρστ(ρ2+σ2+τ2)0 (потому что это определитель корреляционной матрицы и он не может быть отрицательным).

  • Когда это означает, что . Другими словами, когда оба значения и велики, и должны иметь ненулевую корреляцию.ρ 2 + τ 21 ρ τ X Zσ=0ρ2+τ21ρτXZ

  • Если , то возможно любое неотрицательное значение (от до конечно).σ 0 1ρ2=τ2=1/2σ01

  • Когда , допустимы отрицательные значения . Например, когда , может быть где-то между и .сг р = τ = 1 / 2 сг - 1 / 2 1ρ2+τ2<1σρ=τ=1/2σ1/21

Эти соображения подразумевают, что действительно существуют некоторые ограничения на взаимные корреляции. Ограничения (которые зависят только от неотрицательной определенности матрицы корреляции, а не от фактических распределений переменных) могут быть ужесточены в зависимости от предположений об одномерных распределениях. Например, легко увидеть (и доказать), что когда распределения и не принадлежат одному семейству масштабов расположения, их корреляции должны быть строго меньше . (Доказательство: соотношение подразумевает, что и линейно связаны как)Y 1 ± 1 X YXY1±1XY

Что касается ранговых корреляций Спирмена , рассмотрим три тривариатных наблюдения , и of . Их взаимные ранговые корреляции равны , и . Таким образом , даже знак ранга корреляции и могут быть противоположен признаки корреляции и и и .( 2 , 3 , 1 ) ( 3 , 2 , 3 ) ( X , Y , Z ) 1 / 2 1 / 2 - 1 / 2 Y Z X Y X Z(1,1,2)(2,3,1)(3,2,3)(X,Y,Z)1/21/21/2YZXYXZ


что такое «мультинормальные переменные»?
Симпа


Как обычно, за самым подробным объяснением вы получите заслуженную галочку «Лучший ответ».
Симпа

@Gaetan Lion Вы очень добры. Я с удовольствием прочитал все ответы на этот вопрос (и отметил их все).
whuber

88

Я сейчас на ежегодной рыбалке. Существует связь между временем, в течение которого я ловлю рыбу, и количеством рыбы, которую я ловлю. Существует также корреляция между размером приманки, которую я использую, и количеством рыбы, которую я ловлю. Не существует корреляции между размером приманки и временем суток.


Василий, я люблю это! +1 для простого английского объяснения.
Симпа

Лучший. Ответ. На stats.stackexchange. Всегда
Крис Били

1
Это описывает случай, когда корреляции низкие с самого начала, но это не объясняет случай, когда корреляции выше. Если есть 80% -ная корреляция с временем суток, и есть 80% -ная корреляция с размером приманки, я могу гарантировать, что вы используете большую приманку в течение дня!
user35581

2
@ user35581 нет, ты не можешь - ты упустил весь смысл. Каждый час он мог ловить рыбу один раз с небольшой приманкой и один раз с большой приманкой. Он все еще может ловить больше рыбы в определенные части дня (корреляция 80%) и ловить больше рыбы с более крупной приманкой (корреляция 80%), и между размером приманки, которую он использует, и временем дня существует 0 корреляция. Это может быть даже отрицательная корреляция, если он использует более крупную приманку чаще в непиковое время суток, чтобы компенсировать плохое время суток. Таким образом, вы действительно ничего не знаете о корреляции между временем суток и размером приманки.
Рыски

2
@rysqui извините, мой комментарий был плохо сформулирован, но я пытался сделать следующее: когда корреляции между объектами и целью становятся очень высокими, ваши функции также должны быть коррелированы. Таким образом, если у вас есть идеальная корреляция между временем дня и размером вылова, и идеальная корреляция между размером приманки и размером вылова, то вы также должны иметь идеальную корреляцию между размером приманки и временем дня, отсюда и окончательное утверждение «Вы используете большую приманку в течение дня». Имейте в виду, что это крайний случай!
user35581

20

VA=AE(A)VB=BE(B)VAVBVCπ/2πVAVBVCVAVB


Соотношение +1 с точки зрения угла между многомерными векторами для меня интуитивно понятно.
Петрус Терон

2
Для справки будущих читателей я подробно остановлюсь
Джейк Уэстфолл,

18

Как дополнение к ответу whuber: представленная формула

1+2ρστ(ρ2+σ2+τ2)0

может быть преобразовано в следующее неравенство (Olkin, 1981):

στ(1σ2)(1τ2)ρστ+(1σ2)(1τ2)

ρ

введите описание изображения здесь


Олкин И. (1981). Ограничения по диапазону для матриц продукта-момент корреляции. Psychometrika, 46, 469-472. DOI: 10.1007 / BF02293804


Может кто-нибудь сказать мне, если некоторые из этих примеров являются многомерными распределениями, которые имеют определенные предельные распределения, которые ограничивают диапазон возможных корреляций между компонентами? Это означает, что корреляции не могут принимать полный диапазон от -1 до 1. Я помню, что Фреше был, по крайней мере, одним человеком, который разработал это в 1950-х годах. Когда я ищу литературу сегодня, я думаю, что они теперь называются связками Фреше.
Майкл Черник

14

Я думаю, что лучше спросить "почему они должны быть соотнесены?" или, возможно, "Почему должна быть какая-то конкретная корреляция?"

Следующий код R показывает случай, когда x1 и x2 оба коррелированы с Y, но имеют 0 корреляции друг с другом

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

Корреляция с Y может быть усилена путем уменьшения .3 до .1 или чего-либо еще


К сожалению, я не пользователь R Итак, приведенные выше коды значат для меня меньше, чем для вас.
Симпа

2
x1x2y=3x1+2x2yx1x2

14

Я оставлю статистическую демонстрацию тем, кто лучше подходит для меня ... но интуитивно скажу, что событие A генерирует процесс X, который способствует генерации события C. Тогда A соотносится с C (через X). B, с другой стороны, генерирует Y, который также формирует C. Следовательно, A коррелируется с C, B коррелируется с C, но A и B не коррелируются.


1
@Приятно. Я думаю, что вы имеете в виду «А и В не коррелированы» в самой последней части вашего последнего предложения.
Suncoolsu

Да, Нико с коррекцией suncoolsu ... это достаточно хорошее объяснение. Вы частично описываете Path Analysis.
Симпа

Да, извините, я перепутал с буквами;)
Нико

1

Для тех, кто хочет немного интуиции, корреляция может рассматриваться как косинус некоторого угла. Итак, рассмотрим три вектора в 3D, скажем, A, B и C, каждый из которых соответствует одной переменной. Вопрос состоит в том, чтобы определить диапазон возможных углов между A и C, когда угол между A и B, а также угол между B и C известны. Для этого вы можете играть с онлайн-инструментом без установки какого-либо программного обеспечения. Просто перейдите на страницу http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php


0

Давайте возьмем один пример:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

Для некоторых x, A и B будут иметь значительную корреляцию, аналогично A и C также будут иметь значительную корреляцию, но корреляция B и C не будет существенной.

Таким образом, это не обязательно верно, что если A и B коррелировали, а A и C коррелировали, то B и C также коррелировали.

Примечание: для глубокого понимания, пожалуйста, подумайте об этом примере на больших данных.


BCx1x6ABCx1x9

Я согласен с ответом Абхишека Ананда, потому что в конечном итоге все в какой-то степени связано со всем остальным. И мне нравится, как он сравнивает его с точки зрения статистической значимости. Как только вы используете эту структуру, становится совершенно очевидно, что если A и B статистически значимо коррелируют с C, то A или B не обязательно могут быть статистически значимо коррелированными (используя фактическую структуру моего исходного вопроса). Я думаю, что вентиляционные диаграммы могут дать отличное визуальное объяснение этой концепции.
Sympa

@whuber Я согласен с тобой. Это только один пример, который объясняет, почему это не нужно
Абхишек Ананд,

Это нормально, но у вас, похоже, неправильное представление о корреляции между этими векторами. Ни одно из утверждений, которые вы делаете относительно коэффициентов корреляции этих векторов, в целом не является правильным.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.