Если «корреляция не подразумевает причинно-следственную связь», то, если я найду статистически значимую корреляцию, как я могу доказать причинность?


30

Я понимаю, что корреляция - это не причинно-следственная связь . Предположим, мы получаем высокую корреляцию между двумя переменными. Как вы проверяете, действительно ли эта корреляция вызвана причинностью? Или, в каких именно условиях мы можем использовать экспериментальные данные для определения причинно-следственной связи между двумя или более переменными?


2
Это потребует экспериментальных данных. Пожалуйста, опишите экспериментальный дизайн, на который вы ссылаетесь.
Фрэнк Харрелл

1
Сэр, у меня нет экспериментальных данных. Я хотел понять, какие контролируемые эксперименты необходимо выполнить, чтобы вывести причинную связь?
Маниш Барнвал

4
Есть много возможных конструкций. Короче говоря, вы пытаетесь физически контролировать все другие переменные и изменять один интересующий вас фактор, или вы рандомизируете применение экспериментальной манипуляции, которая «усредняет» эффекты всех других возможных объяснений.
Фрэнк Харрелл

2
Короче, вам нужны какие-то экзогенные вариации.
abaumann

1
Между коррелируйте Xи Yвыберите тот, который является причиной другого, который минимизирует чувство ответственности и максимизирует чувство судьбы.
ttnphns

Ответы:


16

Очень вероятная причина корреляции двух переменных заключается в том, что их изменения связаны с третьей переменной. Другими вероятными причинами являются случайность (если вы протестируете достаточно некоррелированных переменных для корреляции, некоторые из них покажут корреляцию), или очень сложные механизмы, включающие несколько этапов.

Смотрите http://tylervigen.com/ для примеров, как это:

введите описание изображения здесь

Чтобы уверенно утверждать, что причина A -> B, вам нужен эксперимент, в котором вы можете контролировать переменную A и не влиять на другие переменные. Затем вы измеряете, если корреляция A и B все еще существует, если вы измените свою переменную.

Почти во всех практических приложениях практически невозможно также не влиять на другие (часто неизвестные) переменные, поэтому лучшее, что мы можем сделать, - это доказать отсутствие причинности.

Чтобы иметь возможность сформулировать причинно-следственную связь, вы начинаете с гипотезы о том, что 2 переменные имеют причинно-следственную связь, используете эксперимент, чтобы опровергнуть гипотезу, и, если вы ошибаетесь, вы можете с определенной степенью уверенности утверждать, что гипотеза верна. Насколько высока степень вашей уверенности, зависит от вашей области исследований.

Во многих областях обычно или необходимо запускать две части эксперимента параллельно, одну, где изменяется переменная A, и контрольную группу, где переменная A не изменяется, но в остальном эксперимент точно такой же - например, в случае лекарство вы все равно засовываете предметы иглой или заставляете их глотать таблетки. Если эксперимент показывает корреляцию между A и B, но не между A и B '(B контрольной группы), вы можете предположить причинно-следственную связь.

Есть и другие способы сделать вывод о причинно-следственной связи, если эксперимент либо невозможен, либо нежелателен по различным причинам (мораль, этика, PR, стоимость, время). Одним из распространенных способов является использование вычета. Возьмем пример из комментария: чтобы доказать, что курение вызывает рак у людей, мы можем использовать эксперимент, чтобы доказать, что курение вызывает рак у мышей, а затем доказать, что существует взаимосвязь между курением и раком у людей, и сделать вывод, что, следовательно, это чрезвычайно Вероятно, что курение вызывает рак у людей - это доказательство может быть усилено, если мы также опровергаем, что рак вызывает курение. Другим способом сделать вывод о причинности является исключение других причин корреляции, оставляя причинность как лучшее оставшееся объяснение корреляции - этот метод не всегда применим, потому что иногда невозможно устранить все возможные причины корреляции (так называемые «задние пути» в другом ответе). В примере с курением / раком мы, вероятно, могли бы использовать этот подход, чтобы доказать, что курение несет ответственность за смолу в легких, потому что для этого не так много возможных источников.

Эти другие способы «доказательства» причинности не всегда идеальны с научной точки зрения, потому что они не так убедительны, как более простой эксперимент. Дискуссия о глобальном потеплении является отличным примером, показывающим, как намного легче отклонить причинно-следственную связь, которая еще не была окончательно доказана с помощью повторяемого эксперимента.

Для облегчения комиксов, вот пример эксперимента, который технически правдоподобен, но не рекомендуется из-за ненаучных причин (мораль, этика, PR, стоимость):

Изображение взято с phroyd.tumblr.com


3
Это слишком сильное условие. В эпидемиологии требования менее строгие, потому что контроль эксперимента в лучшем случае нецелесообразен, а в худшем случае неэтичен - «вызывает ли курение сигарет рак»
user295691

2
Пример, который Перл приводит, чтобы показать, что курение вызывает рак у людей, - это метод парадной двери, в котором смола рассматривается как промежуточная переменная между курением и раком. Я не знаю, что вы подразумеваете под "не идеальным". Это определенно более идеально, чем заставлять людей курить и смотреть, если у них рак!
Нил Г,

1
@Neil «Это определенно более идеальный вариант, чем заставлять людей курить и проверять, не заболел ли он раком». Если я хочу доказать причинно-следственную связь, я категорически не согласен. С другой стороны, если цель состоит в том, чтобы избежать этической проблемы, сокращения финансирования или толпы линчевателей, тогда это более идеально, да.
Питер

10

Независимо от того, является ли проект экспериментальным или наблюдательным, связь между переменной A и результатом Y отражает причинно-следственную связь между A и Y, если между A и Y нет открытых проходов.

В экспериментальной схеме это легче всего достигается путем рандомизации воздействия или назначения лечения. За исключением идеальной рандомизации, эффект ассоциативного лечения представляет собой объективную оценку эффекта причинного лечения при допущениях об обмене (назначение лечения не зависит от контр-фактических результатов), позитивности и т. Д ...

Ссылки

Эрнан, Робинс. Причинный вывод
Жемчужина. Причинный вывод в статистике: обзор

PS Для получения дополнительной информации по этой теме вы можете зайти в Google по поводу причинно-следственной связи и следующих имен (для начала): Иудея Перл, Дональд Рубин, Мигуил Эрнан.


Посмотрите здесь: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Я противоречу утверждению Эша: независимо от того, является ли проект экспериментальным или наблюдательным, связь между переменной A и результатом Y отражает причинно-следственную связь между A и Y, если есть нет открытых проходов между A и Y. Например, продажи мороженого, Y смертей в бассейнах; коррелируют, но причиной их увеличения или уменьшения является температура. Возможно, Эш имеет в виду открытые задние пути, которые зависят от третьей переменной, но тогда его формулировка очень неясна.
Карл

Путь к задней двери в вашем примере - это сезон. Задний путь означает третью переменную.
Нил Г

Для тех, кто не знаком с вкладом Иудеи Перл в изучение причинно-следственных связей, было бы полезно прочитать его биографию на веб-сайте Ассоциации вычислительной техники, который вручил ему премию Тьюринга 2011 года. Перл обсуждает необходимость более подробного обсуждения причинно-следственной связи в учебных программах статистического образования в интервью Amstat News .
Jthetzel

Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .
gung - Восстановить Монику

3

Рассмотрим увеличение числа разводов, связанное с увеличением доходов адвоката.

Интуитивно кажется очевидным, что эти показатели должны быть соотнесены. Чем больше пар (спрос) подают для большего количества разводов, тем больше юристов (предложение) повышают свои цены.

Похоже, что увеличение числа разводов приводит к увеличению доходов адвокатов, поскольку дополнительный спрос со стороны пар заставил адвокатов поднять цены.

Или это назад? Что, если адвокаты намеренно и независимо подняли цены, а затем потратили свой новый доход на рекламу развода? Это также кажется правдоподобным объяснением.

Этот сценарий иллюстрирует произвольное количество третьих, объясняющих переменных, которые может демонстрировать статистический анализ. Учтите следующее:

  1. Вы не можете измерить каждую точку данных,
  2. Вы хотите исключить все необъяснимые данные,
  3. Вы можете только объяснить, почему исключить точку данных, если вы измеряете ее.

У вас есть загадка. Вы не можете измерить каждую точку данных, если вы хотите оправдать игнорирование необъяснимых точек данных, вам нужно измерить их. (Вы можете исключить некоторые точки данных, не измеряя их, но вы должны по крайней мере оправдать их.)

Никакое доказательство причинности не может быть правильным в неограниченной системе.


2

Если A и B коррелируют, и после того, как вы исключили совпадение, наиболее вероятно, что либо A вызывает B, либо B вызывает A, либо некоторая неизвестная причина X вызывает как A, так и B.

Первым шагом будет изучение возможного механизма. Не могли бы вы подумать о том, как А может привести к В, или наоборот, или какая другая причина X может вызвать и то и другое? (Это предполагает, что это обследование дешевле, чем проведение эксперимента, пытающегося доказать причину). Мы надеемся, что вы окажетесь в положении, когда эксперимент, показывающий причинность, выглядит стоящим Вы можете продолжить, если не можете придумать механизм (A вызывает B, но мы не знаем, почему это возможно).

В этом эксперименте вы должны иметь возможность манипулировать предполагаемой причиной по желанию (например, если причиной является «прием таблетки А», то некоторые люди получат таблетку, а другие - нет). Затем вы принимаете обычные меры предосторожности, выбирая людей, получающих или не получающих таблетки наугад, при этом ни вы, ни те, кто проходил тестирование, не знают, кто получил таблетку, а кто - нет. Вы также пытаетесь сохранить равные значения в остальной части эксперимента (раздача таблетки А людям в хорошей теплой комнате с солнечными лучами, проникающими через окно, в то время как другая группа получает поддельную таблетку в грязной, неудобной комнате, это может повлиять на ваши данные). Так что, если вы пришли к выводу, что единственная разница заключается в том, что таблетка и причиной получения или не получения таблетки было случайное решение, которое не повлияло ни на что другое,


2

Интервенционные (экспериментальные) данные, описанные Гнашером и Питером, являются наиболее простым способом обоснования причинно-следственных связей. Однако только в ответе Эша упоминается возможность определения причинно-следственной связи с помощью данных наблюдений. В дополнение к заднему методу, который он упоминает, метод парадной двери является еще одним способом установления причинности на основе данных наблюдений и некоторых причинных предположений. Они были обнаружены Иудеей Перл. Я попытался обобщить и дать ссылку на них здесь .


0

Чтобы сделать причинное утверждение, вам нужно иметь и случайную выборку, и случайное назначение

  • Случайная выборка: каждый человек имеет равную вероятность быть выбранным для исследования
  • Случайное назначение: у каждого человека в эксперименте есть немного разные черты.

Таким образом, при выборе лечения и контрольной группы из вышеупомянутой выборочной группы, равное количество людей с похожим признаком должно быть как в группе лечения, так и в контрольной группе.

Группа лечения - это группа, в которой лекарство предоставляется людям. Контрольная группа является группой , в которой лекарство не дано. Вы также можете определить группу плацебо, в которой пациентам не дают лекарства, а говорят, что им дают.

Наконец, если эффекты видны в группе лечения, но не в контрольной группе, то мы можем установить причинность.


На мой взгляд, группа плацебо абсолютно необходима. Кроме того, люди, ответственные за работу с испытуемыми, не должны знать, кто входит в какую группу («двойной слепой»). Все, что меньше, я бы посчитал ненадежным. Тестирование не легко.
Мафу

Рандомизированные контролируемые испытания плацебо являются более аутентичными, чем рандомизированные контролируемые испытания, однако причинно-следственные связи могут быть сделаны с использованием рандомизированных контролируемых испытаний
show_stopper

2
«Чтобы сделать причинное утверждение, вам нужно иметь и случайную выборку, и случайное назначение» - это не так. Смотрите методы входной и задней двери.
Нил Г
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.