Каково математическое определение причинно-следственной связи между двумя случайными величинами?
Математически причинная модель состоит из функциональных отношений между переменными. Например, рассмотрим систему структурных уравнений ниже:
x=fx(ϵx)y=fy(x,ϵy)
Это означает, что x функционально определяет значение y (если вы вмешиваетесь в x это меняет значения y ), но не наоборот. Графически это обычно представляется как x→y , что означает, что x входит в структурное уравнение y. В качестве дополнения вы также можете выразить причинную модель в терминах совместного распределения контрфактуальных переменных, что математически эквивалентно функциональным моделям .
Учитывая выборку из совместного распределения двух случайных величин X и Y, когда мы скажем, что X вызывает Y?
Иногда (или в большинстве случаев) вы неfxfy знаете ни формы структурных уравнений f x , f y , ни даже x→y или y→x . Единственная имеющаяся у вас информация - это совместное распределение вероятностей p(y,x) (или выборки из этого распределения).
Это приводит к вашему вопросу: когда я могу восстановить направление причинности только из данных? Или, точнее, когда я могу восстановить, входит ли x в структурное уравнение y или наоборот, только из данных?
Конечно, без каких-либо принципиально непроверенных предположений о причинно-следственной модели это невозможно . Проблема состоит в том, что несколько различных причинных моделей могут повлечь за собой одно и то же совместное распределение вероятностей наблюдаемых переменных. Наиболее распространенным примером является причинно-следственная линейная система с гауссовским шумом.
Но при некоторых причинных предположениях это могло бы быть возможным - и это то, над чем работает литература по обнаружению причинно-следственных связей. Если вы не знакомы с этой темой ранее, вы можете начать с « Элементы причинно-следственной связи» Петерса, Янцинга и Шолкопфа, а также с главы 2 «Причинность » Иудеи Перл. У нас есть тема здесь, в резюме для ссылок на обнаружение причинно-следственной связи , но у нас пока не так много ссылок.
Поэтому на ваш вопрос не существует только одного ответа, поскольку он зависит от допущений, которые вы делаете. В упомянутой вами статье приводятся некоторые примеры, например, использование линейной модели с негауссовым шумом. Этот случай известен как LINGAN (сокращение от линейной негауссовой ациклической модели), вот пример в R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
Обратите внимание, что здесь мы имеем линейную причинную модель с негауссовым шумом, где x2 вызывает x1 а лингам корректно восстанавливает причинное направление. Однако обратите внимание, что это критически зависит от предположений LINGAM.
Что касается цитируемой вами статьи, они делают это конкретное предположение (см. Их «постулат»):
Если x→y , минимальная длина описания механизма, отображающего X в Y, не зависит от значения X, тогда как минимальная длина описания механизма, отображающего Y в X, зависит от значения Y.
Обратите внимание, это предположение. Это то, что мы бы назвали их «условием идентификации». По существу, постулат накладывает ограничения на совместное распределение p(x,y) . То есть постулат говорит, что если x→y в данных выполняются определенные ограничения, а если y→x другие ограничения выполняются. Эти типы ограничений, которые имеют проверяемые значения (накладывают ограничения на p(y,x) ), - это то, что позволяет направленно восстанавливаться из данных наблюдений.
Как последнее замечание, результаты обнаружения причинно-следственных связей все еще очень ограничены и зависят от сильных предположений, будьте осторожны при применении их в контексте реального мира.