Означает ли причинность корреляцию?


118

Корреляция не подразумевает причинно-следственную связь, так как может быть много объяснений корреляции. Но подразумевает ли причинность корреляцию? Интуитивно я думаю, что наличие причинно-следственной связи означает, что существует определенная корреляция. Но моя интуиция не всегда хорошо служила мне в статистике. Означает ли причинность корреляцию?


5
Проблема в том, что если вы посмотрите «подразумевать» в словаре, вы увидите «предложить» и «необходимость».
rolando2

6
Корреляция не подразумевает причинно-следственную связь, но она наводит на размышления и брови жестом, произнося «смотри туда». xkcd.com/552
jchristie

1
Сам вопрос, кажется, не ищет конкретного, фактического ответа, на что указывает использование слова «подразумевать». Ссылка выше, как окончательное возможно. Или, скорее, похоже, но я не могу доказать это.
jchristie

Ответы:


96

Как указывалось во многих ответах выше, причинно-следственная связь не подразумевает линейной корреляции . Поскольку многие понятия корреляции происходят из полей, которые в значительной степени зависят от линейной статистики, обычно корреляция рассматривается как равная линейной корреляции. Википедии статья является хорошо источником для этого, мне очень нравится этот образ:

Примеры корреляции

Посмотрите на некоторые фигуры в нижнем ряду, например, форму параболы в 4-м примере. Это то, что происходит в ответе @StasK (с добавлением небольшого количества шума). Y может быть полностью вызвано X, но если числовое отношение не является линейным и симметричным, у вас все равно будет корреляция 0.

Слово, которое вы ищете, является взаимной информацией : это своего рода общая нелинейная версия корреляции. В этом случае ваше утверждение будет верным: причинно-следственная связь подразумевает высокую взаимную информацию .


3
Обычно, но не всегда верно, что высокая взаимная информация сопровождает причинность. См. Ответ @ gung, где «если причина полностью коррелирует с другой причинной переменной с совершенно противоположным эффектом».
Нил Г

5
Аргументация двух причин с противоположными эффектами, которые всегда отменяют друг друга, не имеет большого смысла для меня как причины . Я всегда могу предположить, что есть единороги, вызывающие что-то, и гремлины полностью отменяют их усилия; Я избегаю этого, так как это глупо. Но, возможно, я неправильно понимаю вашу точку зрения.
Артем Казнатчеев

11
Его пример более экстремален, чем должен быть. Вы можете иметь булевы переменные и такие, что и являются причинами , а (mod 2). Тогда при отсутствии знаний о , и имеют никакой взаимной информации. - нераскрытый спутник - то, что вы называете «гремлинами», хотя это нечто очень распространенное. C A B C C = A + B B A C BA,BCABCC=A+BBACB
Нил Г

2
@NielG Я согласен с твоим первым предложением, но не вторым. То, что A & B вызывает C, не означает, что A вызывает C, а B вызывает C. Я не понимаю, почему причина должна быть распределительной по &.
Артем Казнатчеев

4
Причина того, что A, тем не менее, является причиной C, заключается в том, что изменение A все еще изменит C. Таким образом, C зависит от A, даже если мы не наблюдаем B.
Нейл Г.

41

Строгий ответ «нет, причинно-следственная связь не обязательно подразумевает корреляцию».

Рассмотрим и . Причинность не становится сильнее: определяет . Тем не менее, корреляция между и равна 0. Доказательство: (объединенные) моменты этих переменных: ; ; используя свойство стандартного нормального распределения в том, что все его нечетные моменты равны нулю (можно легко получить, скажем, из его производящей момент функции). Следовательно, корреляция равна нулю.Y = X 2χ 2 1 X Y X Y E [ X ] = 0 E [ Y ] = E [ X 2 ] E [XN(0,1)Y=X2χ12XYXYE[X]=0E[Y]=E[X2]=1

Cov[X,Y]=E[(X0)(Y1)]=E[XY]E[X]1=E[X3]E[X]=0

Чтобы ответить на некоторые комментарии: единственная причина, по которой этот аргумент работает, заключается в том, что распределение центрировано в нуле и симметрично относительно 0. На самом деле, любое другое распределение с этими свойствами, которое имело бы достаточное количество моментов, работало бы в место , например, равномерное на или Laplace . Упрощенный аргумент состоит в том, что для каждого положительного значения существует одинаково вероятное отрицательное значение той же величины, поэтому, когда вы возводите квадрат в квадрат , вы не можете сказать, что большие значения связаны с большими или меньшими значениями. изXN(0,1)(10,10)exp(|x|)XXXXY, Однако если вы скажете, скажем, , то , , и . Это имеет смысл: для каждого значения ниже нуля, есть гораздо более вероятное значение , которая находится выше нуля, так что большие значения связаны с большими значениями . (Последнее имеет нецентральную распределения , вы можете вытащить отклонение от страницы Википедии и вычислить корреляцию , если вы заинтересованы.)XN(3,1)E[X]=3E[Y]=E[X2]=10E[X3]=36X - X X Y χ 2Cov[X,Y]=E[XY]E[X]E[Y]=3630=60XXXYχ2


2
@DQdlM: стандартная случайная величина имеет исчезающие нечетные центральные моменты из-за равномерности плотности. Мэтью: Ответ «нет», как показал StasK, потому что корреляция - не единственный тип зависимости.
Эмре

3
XN(3,1)

3
PS Я так рад, что вы опубликовали этот ответ. Трудно было поверить, что вопрос так долго обходился без этого ответа. Это был именно тот пример, который мне пришёл в голову, когда я увидел этот вопрос, но у меня не было времени написать его. Я рад, что ты нашел время. Приветствия.
кардинал

3
@cardinal: да, я думаю, что все мы выучили такие простые контрпримеры в аспирантуре ... и да, из определения ковариации вам нужно только, чтобы первый и третий моменты были равны нулю. Если у вас есть нетривиальный пример асимметричного распределения с нулевым третьим моментом (точно настроенные вероятностные массы более пяти или шести точек не учитываются), мне было бы очень любопытно увидеть его.
StasK

3
XYfY=f(X)

31

По сути, да.

Корреляция не подразумевает причинно-следственную связь, потому что могут быть другие объяснения корреляции вне причины Но для того, чтобы A была причиной B, они должны быть связаны каким-то образом . Это означает, что существует корреляция между ними - хотя эта корреляция не обязательно должна быть линейной.

Как предположили некоторые из комментаторов, более целесообразно использовать термин «зависимость» или «связь», а не корреляция. Хотя, как я упоминал в комментариях, я видел, что «корреляция не означает причинность» в ответ на анализ, выходящий за рамки простой линейной корреляции, и поэтому для целей высказывания я существенно расширил «корреляцию» на любую связь между А и Б.


16
Я склонен резервировать слово корреляция для линейной корреляции и использовать зависимость для нелинейных отношений, которые могут иметь или не иметь линейную корреляцию.
Мемминг

4
@Memming Я бы тоже, за исключением того, что люди выбрасывают «Корреляция не подразумевает причинно-следственную связь»: довольно сложная нелинейная связь.
Fomite

Мемминг прав. Вам нужно определить корреляцию, если вы не имеете в виду корреляцию Пирсона.
Нил Г

1
@NeilG Или, в этом отношении, можно получить линейную корреляцию Пирсона, преобразовав одну переменную или другую. Проблема в том, что сама пословица слишком упрощена.
Fomite

1
@EpiGrad: оба хороших момента. Говоря простым языком, корреляция просто больше А совпадает с большим B. Я думаю, что ваш ответ будет полезным, если вы будете использовать широкое определение корреляции.
Нил Г

23

Добавление к ответу @EpiGrad. Я думаю, что для многих людей «корреляция» будет означать «линейную корреляцию». И концепция нелинейной корреляции может быть не интуитивной.

Итак, я бы сказал: «Нет, они не должны быть связаны, но они должны быть связаны ». Мы согласны с веществом, но не можем прийти к единому мнению, как лучше донести это вещество.

Одним из примеров такой причины (по крайней мере, люди думают, что это причинно-следственная связь) является случай между ответом на ваш телефон и доходом. Известно, что люди на обоих концах спектра доходов имеют меньше шансов ответить на их телефоны, чем люди в середине. Считается, что причинно-следственная связь различна для бедных (например, избегать сборщиков счетов) и богатых (например, избегать людей, просящих пожертвования).


21

XY

Рассмотрим следующую причинную модель:

XYU

XUY

Теперь позвольте:

Xbernoulli(0.5)Ubernoulli(0.5)Y=1XU+2XU

UP(Y|X)=P(Y)XYYX

XUYXUXYUY {X,U}YXYXYXYXYU

Короче говоря, я бы сказал, что: (i) причинность предполагает зависимость; но, (ii) эта зависимость является функциональной / структурной зависимостью, и она может или не может преобразовываться в конкретную статистическую зависимость, о которой вы думаете.


Карлос, правильно сказать, что если мы знаем полный набор переменных, вовлеченных в причинную модель, эта проблема (статистическая невидимость) исчезнет?
Марковиц

@ Markowitz вам нужно будет наблюдать все на детерминистском уровне, поэтому не очень реалистичный сценарий.
Карлос Синелли

Я интерпретирую ваш ответ как «да». Вы правы, ситуация, которую я предположил, нереальна; Я знаю об этом. Однако вопрос был связан только с логикой, которую вы описали, и конечной целью было понять ее. Мое убеждение было что-то вроде «причинно-следственная связь», и другие ответы на этой странице звучат так. В конце концов, ваш пример тоже немного нереалистичен, но не по этой причине неинтересен. Мне кажется, что, вообще говоря, причинно-следственная связь без статистической ассоциации немного нереалистична, но теоретически интересна.
Марковиц

1
@markowitz «статистическая невидимость» происходит, когда модель не верна графу. Для точной отмены это зависит от конкретного выбора параметризации, поэтому некоторые люди утверждают, что это действительно маловероятно. Однако близкая отмена может быть правдоподобной, поскольку она зависит от соседства параметров, поэтому все зависит от контекста. Дело здесь просто в том, что вам нужно сделать ваши причинные предположения явными, потому что, логически, причинная связь не подразумевает ассоциацию сама по себе - вам нужны дополнительные предположения.
Карлос Синелли

13

Причина и эффект будет коррелировать , если нет каких - либо изменений вообще в частоте и величине причины и без изменения вообще в причинной силы. Единственная другая возможность была бы, если бы причина полностью коррелировала с другой причинной переменной с совершенно противоположным эффектом. По сути, это условия мысленного эксперимента. В реальном мире, причинно - следственная связь будет означать зависимость в той или иной форме (хотя это может быть не линейной корреляции).


3
@NeilG, я потворствовал своей склонности к курсиву .
gung

1
Некоторые теории фактически подразумевают это, например, многие модели теории игр. Некоторые эмпирические ситуации, в которых вы не можете различить разницу (хотя на самом деле это был бы один «курсивный курсив» как бы :-), включают «нейтральные» сценарии без изменения гена, когда эволюционное давление отбора на двух уровнях указывает в разные стороны.
сопряженный

1
Мне нравится первое исключение, но не второе исключение. Мне нравится думать, что при переключении переключателя свет включается, но если мне случится щелкнуть переключателем только во время отключения питания, ничего не произойдет. Возможно, в действительности не было причинно-следственной связи.
Эмори

1
@ naught101, вы подняли хороший вопрос, который обсуждался в другом месте на этой странице. Я отредактировал свой ответ. Однако, когда я работал с людьми, я не думаю, что у них есть четкое представление о корреляции как обязательно линейной, хотя я и говорю им об этом. Хотя они бы не назвали это такими терминами, я думаю, что большинство людей понимают, что «корреляция» ближе к «функции». Тем не менее, я должен быть более ясным в использовании терминов и должен был с самого начала.
Gung

2
@emory: причиной появления света является замыкание электрической цепи (что вызвано щелчком выключателя в условиях окружающей среды, в том числе в работающей сети). Во время отключения питания щелчок выключателя не замыкает цепь, потому что он сломан в другом месте. Таким образом, в некотором смысле, затемнение - это «противоположный» эффект, о котором говорил Гун (т. Е. Свет включен, затемнение выключает его). Это также можно рассматривать как сводящий на нет эффект.
naught101

2

Здесь есть отличные ответы. Артем Казнатчеев , Фомите и Питер Флом отмечают, что причинность обычно подразумевает зависимость, а не линейную корреляцию. Карлос Синелли приводит пример, в котором нет зависимости из-за того, как настроена генерирующая функция.

Я хочу добавить пункт о том, как эта зависимость может исчезнуть на практике, в тех наборах данных, с которыми вы могли бы хорошо работать. Ситуации, подобные примеру Карлоса, не ограничиваются просто «условиями мысленного эксперимента».

Зависимости исчезают в саморегулируемых процессах . Гомеостаз, например, гарантирует, что температура вашего тела остается независимой от комнатной температуры. Внешнее тепло напрямую влияет на температуру вашего тела, но также влияет на системы охлаждения тела (например, потоотделение), которые поддерживают температуру тела стабильной. Если мы измеряем температуру в чрезвычайно быстрых интервалах и используем чрезвычайно точные измерения, у нас есть шанс наблюдать причинные зависимости, но при нормальной частоте отбора проб температура тела и внешняя температура кажутся независимыми.

Саморегулируемые процессы распространены в биологических системах; они созданы эволюцией. Млекопитающие, которые не могут регулировать температуру своего тела, удаляются естественным отбором. Исследователи, работающие с биологическими данными, должны знать, что причинные зависимости могут исчезнуть в их наборах данных.


-3

Разве причина без какой-либо корреляции не была бы причиной?

Если, как следует из принятого ответа, вы используете невероятно ограниченную интерпретацию слова «корреляция», это глупый вопрос - если одна вещь «вызывает» другую, это по определению зависит от нее каким-то образом, является ли это увеличение населения или просто интенсивность.

правильно?

С другой стороны, вы могли бы обсуждать что-то более похожее, на видимость того, на что влияет что-то другое, что, я думаю, выглядело бы как причинно-следственная связь, но на самом деле вы не измеряете то, что, по вашему мнению, вы измеряете ...

Так что да, я думаю, что короткий ответ будет: «Да, если вы не можете создать энтропию».

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.