При каких условиях корреляция подразумевает причинно-следственную связь?


85

Все мы знаем мантру «корреляция не подразумевает причинно-следственную связь», которую разыгрывают все студенты первого курса статистики. Есть некоторые хорошие примеры здесь , чтобы проиллюстрировать эту идею.

Но иногда корреляция делает подразумевает причинно - следственную связь. Следующий пример взят из этой страницы Википедии

Например, можно провести эксперимент на идентичных близнецах, которые, как известно, постоянно получали одинаковые оценки в своих тестах. Одного близнеца отправляют на учебу на шесть часов, а другого отправляют в парк развлечений. Если их результаты тестов внезапно сильно расходятся, это будет убедительным доказательством того, что учеба (или посещение парка развлечений) оказала причинное влияние на результаты тестов. В этом случае корреляция между результатами обучения и тестами почти наверняка подразумевает причинно-следственную связь.

Существуют ли другие ситуации, когда корреляция подразумевает причинно-следственную связь?


16
Корреляция и веская причина ссылки предполагают причинность, пока не доказано обратное, вероятно, лучшее, что вы можете получить.
Джеймс

8
Разве не Карл Поппер сказал, что человек не может установить причинность: научные теории абстрактны по своей природе. Они могут быть фальсифицируемыми, и тот факт, что мы сталкиваемся с трудностями при фальсификации чего-либо, заставляет нас думать о причинности ...
Робин Джирард

3
Интересный контр-пример от Джейнса: у нас есть дедуктивное отношение «без облаков» подразумевает «без дождя»; и все же кто поверит, что «нет облаков» является физической причиной «нет дождя»?
probislogic

4
Давайте использовать другой термин, нежели «подразумевать», так как в словаре его значения включают как 1. Предложить и 2. Необходимость (!)
rolando2

Имеет ли близость этот пример хоть какой-то смысл? Я имею в виду причинно-следственную связь, заключающуюся в том, что различия между методами / режимами обучения вызывают различия в результатах тестов близнецов. Но это образец одного, и даже с большой выборкой достаточно одного набора близнецов, чтобы иметь противоположную реакцию, чтобы сломать гипотезу, стиль черного лебедя ... @probabilityislogic: есть ли у понятия «нет облаков» физическое смысл? Если да, то я не понимаю, почему вторая часть неправдоподобна.
naught101

Ответы:


33

Корреляции недостаточно для причинности. Можно обойти пример Википедии, представив, что эти близнецы всегда обманывают в своих тестах, имея устройство, которое дает им ответы. Близнец, идущий в парк развлечений, теряет устройство, отсюда и низкий класс.

Хороший способ разобраться в этом - подумать о структуре байесовской сети, которая может генерировать измеренные величины, как это сделал Перл в своей книге « Причинность» . Его основной целью является поиск скрытых переменных. Если существует скрытая переменная, которая не изменяется в измеряемом образце, то корреляция не будет подразумевать причинно-следственную связь. Выставьте все скрытые переменные, и у вас есть причинно-следственная связь.


У меня есть некоторые проблемы с пониманием того, почему направления стрелок в соответствующей байесовской сети имеют какое-либо отношение к причинно-следственной связи. Например, A-> B и B-> A представляют разные направления причинности, но байесовские сети для этих двух структур эквивалентны
Ярослав Булатов

6
Они не эквивалентны перед лицом вмешательств.
Нил Г

Эти байесовские сети эквивалентны в том смысле, что, учитывая данные, взятые из одной из них, вы не можете сказать, какая из них была
Ярослав Булатов

4
Э-э ... Я не знаком с реальной статистикой по большому счету ... но разве невозможно "выставить все скрытые переменные" по определению? Как узнать, когда больше нет «скрытых» переменных?
Крейг Уокер

4
@Craig В этом все дело; это невозможно.
Джастин Л.

35

Я просто добавлю несколько дополнительных комментариев о причинно-следственной связи с точки зрения эпидемиологии . Большинство из этих аргументов взято из книги « Практическая психиатрическая эпидемиология » Prince et al. (2003).

Причинность, или интерпретация причинно-следственной связи , безусловно, являются наиболее сложными аспектами эпидемиологических исследований. Когортные и поперечные исследования могут привести, например, к путанице. Цитируя С. Менар (« Продольное исследование» , Sage University Paper 76, 1991), Х.Б. Ашер в « Причинно-следственном моделировании» (Sage, 1976) первоначально предложил следующий набор критериев, которые должны быть выполнены:

  • Обсуждаемые явления или переменные должны быть коварными, на что указывают, например, различия между экспериментальными и контрольными группами или ненулевая корреляция между двумя переменными.
  • Отношение не должно быть отнесено к какой-либо другой переменной или набору переменных, т. Е. Оно не должно быть ложным, но должно сохраняться, даже если другие переменные контролируются, на что указывает, например, успешная рандомизация в экспериментальной схеме (нет разницы между экспериментальной и контрольные группы до лечения) или путем ненулевой частичной корреляции между двумя переменными с другой переменной, оставшейся постоянной.
  • Предполагаемая причина должна предшествовать предполагаемому эффекту во времени или быть одновременно с ним, о чем свидетельствует изменение причины, происходящее не позднее, чем соответствующее изменение эффекта.

В то время как первые два критерия можно легко проверить с помощью перекрестного или упорядоченного по времени исследования поперечного сечения, последнее можно оценить только по продольным данным, за исключением биологических или генетических характеристик, для которых временный порядок можно предположить без продольных данных. Конечно, ситуация становится более сложной в случае нерекурсивных причинно-следственных связей.

Мне также нравится следующая иллюстрация (глава 13, в вышеупомянутой ссылке), которая суммирует подход, обнародованный Хиллом (1965), который включает в себя 9 различных критериев, связанных с эффектом причинности, которые также цитируются @James. Оригинальная статья действительно была озаглавлена ​​«Окружающая среда и болезни: связь или причинность?» ( PDF версия ).

Hill1965

Наконец, глава 2 самой известной книги Ротмана « Современная эпидемиология» (Lippincott Williams & Wilkins, 2-е издание, 1998) предлагает очень полное обсуждение причинно-следственных связей и причинно-следственных связей как с точки зрения статистики, так и философии.

Я хотел бы добавить следующие ссылки (примерно взятые из онлайн-курса по эпидемиологии) также очень интересные:

Наконец, этот обзор предлагает более широкий взгляд на причинное моделирование, Причинный вывод в статистике: обзор (J Pearl, SS 2009 (3)).


18

В основе вашего вопроса лежит вопрос "когда отношения являются причиной?" Это не просто должна быть корреляция, подразумевающая (или нет) причинность.

Хорошая книга на эту тему под названием Johua Angrist и Jorn-Steffen Pischke называется « В основном безвредная эконометрика ». Они исходят из экспериментального идеала, в котором мы можем каким-то образом рандомизировать исследуемое «лечение», а затем переходят к альтернативным методам генерации этой рандомизации для получения причинных влияний. Это начинается с изучения так называемых натурных экспериментов.

Одним из первых примеров естественного эксперимента, используемого для выявления причинно-следственных связей, является статья Ангриста 1989 года «Прибыль на всю жизнь и лотерея эпохи Вьетнама». Эта статья пытается оценить влияние военной службы на заработок. Ключевая проблема с оценкой любого причинного эффекта состоит в том, что определенные типы людей могут быть более склонны к зачислению, что может повлиять на любое измерение отношений. Angrist использует естественный эксперимент, созданный во время розыгрыша во Вьетнаме, чтобы эффективно «случайным образом» назначить «военную службу» для группы мужчин.

Итак, когда у нас есть причинность? В условиях эксперимента. Когда мы приблизимся? По естественным экспериментам. Есть и другие методы, которые приближают нас к «причинности», то есть они намного лучше, чем просто использование статистического контроля. Они включают разрывы регрессии, различия в различиях и т. Д.


15

Существует также проблема с противоположным случаем, когда отсутствие корреляции используется в качестве доказательства отсутствия причинно-следственной связи. Это проблема нелинейности; при рассмотрении корреляции люди обычно проверяют Пирсона, который является лишь верхушкой айсберга.


14

Ваш пример - пример контролируемого эксперимента . Единственный другой известный мне контекст, где корреляция может подразумевать причинность, - это естественный эксперимент .

По сути, естественный эксперимент использует назначение некоторых респондентов на лечение, которое происходит естественным образом в реальном мире. Поскольку распределение респондентов по группам лечения и контроля не контролируется экспериментатором, степень, в которой корреляция может означать причинность, возможно, в некоторой степени слабее.

Смотрите вики-ссылки для получения дополнительной информации контролируемых / естественных экспериментов.


12

По моему мнению, Статистическая рабочая группа АПА суммировала это довольно хорошо

«Вывод причинно-следственных связей из нерандомизированных проектов - рискованное предприятие. Исследователи, использующие нерандомизированные проекты, обязаны объяснить логику ковариат, включенных в их проекты, и предупредить читателя о возможных гипотезах конкурентов, которые могут объяснить их результаты. Даже в рандомизированных экспериментах приписывание причинных эффектов какому-либо одному аспекту состояния лечения требует поддержки от дополнительных экспериментов. '' - Целевая группа APA


11

В обращении президента сэра Остина Брэдфорда Хилла к Королевскому обществу медицины ( «Окружающая среда и болезни: ассоциация или причинность?» ) Объясняются девять критериев, которые помогают судить о наличии причинно-следственной связи между двумя коррелированными или связанными переменными.

Они есть:

  1. Сила ассоциации
  2. Последовательность: «это неоднократно наблюдали разные люди, в разных местах, обстоятельствах и временах?»
  3. специфичность
  4. Временность: "что такое телега и какая лошадь?" - причина должна предшествовать следствию
  5. Биологический градиент (кривая доза-ответ) - каким образом величина эффекта зависит от величины (предполагаемой) причинной переменной?
  6. Правдоподобие - есть ли вероятное объяснение причинности?
  7. Согласованность - будет ли причинно-следственная связь противоречить другим установленным фактам?
  8. Эксперимент - влияет ли экспериментальная манипуляция с (предполагаемой) причинной переменной на (предполагаемую) зависимую переменную
  9. Аналогия - встречались ли мы с подобными причинно-следственными связями в прошлом?

9

В примере близнецов это не только корреляция, которая предлагает причинность, но также и связанную информацию или предшествующее знание.

Предположим, я добавлю еще одну информацию. Предположим, что прилежный близнец потратил 6 часов на подготовку к экзамену по статистике, но из-за неудачной ошибки экзамен остался в истории. Будем ли мы все-таки делать вывод, что исследование стало причиной превосходных результатов?

Определение причинно-следственной связи - это такой же философский вопрос, как и научный, поэтому возникает тенденция привлекать таких философов, как Дэвид Юм и Карл Поппер, когда обсуждается причинность.

Неудивительно, что медицина внесла значительный вклад в установление причинно-следственной связи с помощью эвристики, такой как постулаты Коха об установлении причинно-следственной связи между микробами и болезнями. Они были распространены на «молекулярные постулаты Коха», необходимые для того, чтобы показать, что ген в патогене кодирует продукт, который способствует заболеванию, вызываемому патогеном.

К сожалению, я не могу публиковать гиперссылки, предположительно, потому что я новый пользователь (не правда) и у меня недостаточно «очков репутации». Настоящая причина - чье-то предположение.


9

Одна только корреляция никогда не подразумевает причинно-следственную связь. Это так просто.

Но очень редко иметь только корреляцию между двумя переменными. Часто вы также знаете кое-что о том, что это за переменные, и теорию, или теории, предполагающие, почему между переменными может быть причинно-следственная связь. Если нет, то мы пытаемся проверить корреляцию? (Однако люди, добывающие массивные матрицы корреляции для получения значительных результатов, часто не имеют случайной теории - иначе зачем беспокоиться о майнинге. Контраргументом этого является то, что часто требуется некоторое исследование, чтобы получить идеи для случайных теорий. И так далее, и так далее ...)

Ответ на общую критику: «Да, но это всего лишь корреляция: это не подразумевает причинно-следственную связь»:

  1. Для случайных отношений необходима корреляция. Повторная неспособность найти корреляцию была бы действительно плохой новостью.
  2. Я не просто дал вам корреляцию.
  3. Затем объясните возможные причинные механизмы, объясняющие корреляцию ...

2
Контрпример к вашей точке № 1: в хаотической системе вы можете иметь причинно-следственную связь без очевидной корреляции.
mkt - Восстановить Монику

8

Одно полезное достаточное условие для некоторых определений причинности:

Причинность может быть заявлена, когда одной из коррелированных переменных можно управлять (мы можем непосредственно установить ее значение), и корреляция все еще присутствует.


2
Можно также использовать слово Перла для «прямой установки значения [переменной]»: вмешательство.
Нил Г

8
  1. Почти всегда в рандомизированных исследованиях
  2. Почти всегда в наблюдательном исследовании, когда кто-то измеряет все конфоудеры (почти никогда)
  3. Иногда, когда кто-то измеряет некоторых основателей (алгоритм IC * открытия DAG в книге Перл «Причинность»)
  4. В негауссовых линейных моделях с двумя или более переменными, но не использующими корреляцию как меру взаимосвязи ( LiNGAM )

Большинство алгоритмов обнаружения реализованы в Tetrad IV


6

Смежный вопрос может быть - при каких условиях вы можете надежно извлечь причинно-следственные связи из данных?

На семинаре 2008 года NIPS попытаться решить этот вопрос эмпирически. Одна из задач состояла в том, чтобы вывести направление причинности из наблюдений за парами переменных, в которых одна переменная, как было известно, вызывало другую, и наилучший метод смог правильно определить причинное направление в 80% случаев.


3

Почти наверняка в хорошо продуманном эксперименте. (Разработанный, конечно, чтобы выявить такую связь .)


3

Предположим, мы думаем, что фактор A является причиной явления B. Затем мы пытаемся изменить его, чтобы увидеть, изменится ли B. Если B не меняется и если мы можем предположить, что все остальное не изменилось, убедительные доказательства того, что A не является причиной B. Если B действительно изменяется, мы не можем сделать вывод, что A является причиной, потому что изменение A могло вызвать изменение фактической причинности C, что сделало B изменением.


Можете ли вы заставить меня меняться?
RockScience

2

Я заметил, что «доказательство» использовалось здесь при обсуждении эмпирической парадигмы. Там нет такой вещи. Сначала идет гипотеза, где идея продвигается; затем идет тестирование в «контролируемых условиях» [примечание а], и если встречается «достаточное» отсутствие опровержения , оно переходит к стадии гипотезы... период. Доказательств нет, если только 1) удается при каждом возникновении указанного события [примечание b] и, конечно, 2) устанавливать причинно-следственную связь. 1) маловероятно в бесконечной вселенной [примечание бесконечность по природе не может быть доказано]. Примечание А; Никакой эксперимент не проводится в полностью контролируемых условиях, и чем более контролируемыми являются условия, тем меньше сходство с внешней вселенной с явно бесконечными линиями причинности. Примечание б; имейте в виду, вы должны были идеально описать упомянутое «событие», что, по-видимому, означает совершенно правильный язык, предположительно не человеческий язык. Напоследок, вся причинность предположительно восходит к первому событию. Теперь иди поговори со всеми с теорией. Да, я учился формально и неформально. В конце; нет, близость не подразумевает причинно-следственную связь или даже что-то кроме временной корреляции.


1

ИксY

Yзнак равнобИкс+U

бИксYЕ(б)знак равноВИксUЕ(U|Икс)знак равно0U YИксY

Быть беспристрастным является желательным свойством оценщика, но вы также хотели бы, чтобы ваш оценщик был эффективным (низкая дисперсия) и последовательным (имеет тенденцию к истинному значению). См. Предположения Гаусса-Маркова.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.