Как вы находите причинно-следственные связи в данных?


11

Допустим, у меня есть таблица с колонками "A", "B"

Есть ли статистический метод, чтобы определить, вызывает ли «А» «В»? Нельзя реально использовать Пирсона, потому что:

  • это только проверяет корреляцию между значениями
  • корреляция не причинно-следственная
  • R Пирсона может коррелировать только линейные отношения

Итак, какие еще варианты у меня есть здесь?


1
Нет. Из таких данных вы можете продемонстрировать высокую степень корреляции; Вы не можете продемонстрировать причинно-следственную связь.


1
Причинность просто не то , что вы можете выжать из числа ... так, повторите за мной: причинно - следственная связь не корреляция , причинно - следственная связь не корреляция ...
JM не статистик

1
Смотрите «Причинность» Иудеи Перл (лауреат премии Тьюринга 2011).

Ответы:


4

Пока ответы и комментарии в основном верны на практическом уровне, но для полноты картины ведутся исследования так называемых моделей причинности, основанных на байесовской статистике и теории графов. Поэтому, хотя в целом корреляция действительно не подразумевает причинно-следственную связь, существуют более сложные модели, которые пытаются выявить причинно-следственную связь. См. Книгу « Причинность » Иудеи Перл для более подробной информации, но это очень тяжелая математика и, вероятно, не то, что вам нужно.


2

Существует много так называемых квазиэкспериментальных методов, с помощью которых вы можете достоверно спорить о причинности, даже если ваши данные являются наблюдательными. Эти методы обычно основаны на поиске источника экзогенных изменений в вашей переменной.

Я думаю, что хороший и доступный обзор приведен в книге «В основном безвредная эконометрика». Они охватывают в основном все квазиэкспериментальные методы, в которые верят люди (то есть экономисты) (по крайней мере, иногда). Они не охватывают методы, упомянутые, например, trb456 (по той же причине: не многие верят в них).


1

Для определения причинно-следственной связи вам необходимо выполнить рандомизацию. Вы берете своих испытуемых и случайным образом выбираете половину из них, чтобы иметь качество А, а другую половину, чтобы не иметь его. Затем вы увидите, есть ли статистически значимая разница в качестве B между двумя группами.

Важно, чтобы вы сделали рандомизацию, прежде чем делать какие-либо измерения. В частности, если вам дан набор данных с уже измеренными и , тогда невозможно определить причинно-следственную связь.BAB

Обратите внимание, что может оказаться невозможным выполнить тест рандомизации, который вы хотите сделать. Например, как вы можете проверить, если высокий рост заставляет вас весить больше? Конечно, существует корреляция между ростом и весом, но вы не можете случайным образом распределить одну группу людей в «высокую» группу, а другую в «короткую». В этом случае тест рандомизации не может быть сделан.


0

Somers пытался объяснить связь между порядковыми переменными так, как это делает коэффициент корреляции Пирсона для наборов данных.


1
Я согласен, что для установления причинно-следственной связи требуется больше, чем цифры. Как использование порядковых переменных входит в вопрос?
Майкл Р. Черник

1
@MichaelChernick Somers's D - это асимметричная мера ассоциации. Он может различать « , если идет дождь, то мутная,» от „ если облачно, то дождь“ Он работает на порядковых или выше данных Он не устанавливает причинно - следственную связь, но это установить направленность...
Дейв Харрис
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.