Почему инверсия ковариационной матрицы дает частичные корреляции между случайными величинами?

Я слышал, что частичные корреляции между случайными переменными можно найти, инвертировав ковариационную матрицу и взяв соответствующие ячейки из такой результирующей матрицы точности (этот факт упоминается в http://en.wikipedia.org/wiki/Partial_correlation , но без доказательства) ,

Почему это так?

— Михал
источник

Если вы хотите получить частичную корреляцию в ячейке, контролируемой для всех других переменных, то последний абзац здесь может пролить свет.

— ttnphns

Ответы:

Когда многомерная случайная величина имеет невырожденную ковариационную матрицу , множество все действительные линейные комбинации образуют мерное вещественное векторное пространство с базисом и невырожденным внутренним произведением, задаваемым $(X_1,X_2,\ldots,X_n)$ $\mathbb{C} = (\gamma_{ij}) = (\text{Cov}(X_i,X_j))$ $X_i$ $n$ $E=(X_1,X_2,\ldots, X_n)$

⟨ X_{i}, X_{j} ⟩ = γ_{i j} .

$\langle X_i,X_j \rangle = \gamma_{ij}\ .$

Его двойной базис относительно этого внутреннего произведения , , однозначно определяется отношениями $E^{*} = (X_1^{*},X_2^{*}, \ldots, X_n^{*})$

⟨ X_{i}^{*}, X_{j} ⟩ = δ_{i j},

$\langle X_i^{*}, X_j \rangle = \delta_{ij}\ ,$

дельта Кронекера (равна когда и противном случае). $1$ $i=j$ $0$

Двойственный базис представляет интерес здесь, потому что частичная корреляция и получается как корреляция между частью которая остается после проецирования его в пространство, охватываемое всеми другими векторами (давайте просто назовем его «остаточным», ) и сопоставимая часть , его остаточный . И все же - это вектор, который ортогонален всем векторам, кроме и имеет положительное внутреннее произведение на поэтому должно быть неотрицательным кратным , а также для $X_i$ $X_j$ $X_i$ $X_{i\circ}$ $X_j$ $X_{j\circ}$ $X_i^{*}$ $X_i$ $X_i$ $X_{i\circ}$ $X_i^{*}$ $X_j$ , Поэтому давайте напишем

X_{i \circ} = λ_{i} X_{i}^{*}, X_{j \circ} = λ_{j} X_{j}^{*}

$X_{i\circ} = \lambda_i X_i^{*},\ X_{j\circ} = \lambda_j X_j^{*}$

для положительных действительных чисел и . $\lambda_i$ $\lambda_j$

Частичная корреляция - это нормализованное скалярное произведение остатков, которое не изменяется при масштабировании:

ρ_{i j \circ} = \frac{⟨ X_{i \circ}, X_{j \circ} ⟩}{\sqrt{⟨ X_{i \circ}, X_{i \circ} ⟩ ⟨ X_{j \circ}, X_{j \circ} ⟩}} = \frac{λ_{i} λ_{j} ⟨ X_{i}^{*}, X_{j}^{*} ⟩}{\sqrt{λ_{i}^{2} ⟨ X_{i}^{*}, X_{i}^{*} ⟩ λ_{j}^{2} ⟨ X_{j}^{*}, X_{j}^{*} ⟩}} = \frac{⟨ X_{i}^{*}, X_{j}^{*} ⟩}{\sqrt{⟨ X_{i}^{*}, X_{i}^{*} ⟩ ⟨ X_{j}^{*}, X_{j}^{*} ⟩}} .

$\rho_{ij\circ} = \frac{\langle X_{i\circ}, X_{j\circ} \rangle}{\sqrt{\langle X_{i\circ}, X_{i\circ} \rangle\langle X_{j\circ}, X_{j\circ} \rangle}} = \frac{\lambda_i\lambda_j\langle X_{i}^{*}, X_{j}^{*} \rangle}{\sqrt{\lambda_i^2\langle X_{i}^{*}, X_{i}^{*} \rangle\lambda_j^2\langle X_{j}^{*}, X_{j}^{*} \rangle}} = \frac{\langle X_{i}^{*}, X_{j}^{*} \rangle}{\sqrt{\langle X_{i}^{*}, X_{i}^{*} \rangle\langle X_{j}^{*}, X_{j}^{*} \rangle}}\ .$

(В любом случае частичная корреляция будет равна нулю всякий раз, когда остатки ортогональны, независимо от того, являются ли они ненулевыми.)

Нам нужно найти внутренние произведения двойных базисных элементов. С этой целью разверните двойные базисные элементы в терминах исходного базиса : $E$

X_{i}^{*} = \sum_{j = 1}^{n} β_{i j} X_{j} .

$X_i^{*} = \sum_{j=1}^n \beta_{ij} X_j\ .$

Тогда по определению

δ_{i k} = ⟨ X_{i}^{*}, X_{k} ⟩ = \sum_{j = 1}^{n} β_{i j} ⟨ X_{j}, X_{k} ⟩ = \sum_{j = 1}^{n} β_{i j} γ_{j k} .

$\delta_{ik} = \langle X_i^{*}, X_k \rangle = \sum_{j=1}^n \beta_{ij}\langle X_j, X_k \rangle = \sum_{j=1}^n \beta_{ij}\gamma_{jk}\ .$

В матричной записи с единичной матрицей и матрицей изменения базиса это означает $\mathbb{I} = (\delta_{ij})$ $\mathbb{B} = (\beta_{ij})$

I = B C .

$\mathbb{I} = \mathbb{BC}\ .$

То есть, , это именно то, что утверждает статья в Википедии. Предыдущая формула для частичной корреляции дает $\mathbb{B} = \mathbb{C}^{-1}$

ρ_{i j \cdot} = \frac{β_{i j}}{\sqrt{β_{i i} β_{j j}}} = \frac{C_{i j}^{- 1}}{\sqrt{C_{i i}^{- 1} C_{j j}^{- 1}}} .

$\rho_{ij\cdot} = \frac{\beta_{ij}}{\sqrt{\beta_{ii} \beta_{jj}}} = \frac{\mathbb{C}^{-1}_{ij}}{\sqrt{\mathbb{C}^{-1}_{ii} \mathbb{C}^{-1}_{jj}}}\ .$

— Whuber
источник

+1, отличный ответ. Но почему вы называете этот двойной базис «двойным базисом по отношению к этому внутреннему продукту» - что именно означает «по отношению к этому внутреннему продукту»? Похоже, что вы используете термин «двойной базис», как здесь определено mathworld.wolfram.com/DualVectorSpace.html во втором абзаце («При заданном базисе векторного пространства для существует двойной базис ..» . ") или здесь en.wikipedia.org/wiki/Dual_basis , и он не зависит от любого скалярного продукта.

v_{1}, . . ., v_{n}

$v_1, ..., v_n$

V

$V$

— амеба говорит восстановить монику

@amoeba Есть два вида парных. (Естественным) дуальным любого векторного пространства над полем является множество линейных функций , называемое . Не существует канонического способа отождествления с , даже если они имеют одинаковую размерность, когда конечномерно. Любому внутреннему произведению соответствует такое отображение , и наоборот , через(Невырожденность гарантирует, что является изоморфизмом векторного пространства.) Это дает возможность просматривать элементы

V

$V$

R

$R$

ϕ : V \to R

$\phi:V\to R$

V^{*}

$V^*$

V^{*}

$V^*$

V

$V$

V

$V$

γ

$\gamma$

g : V \to V^{*}

$g:V\to V^*$

g (v) (w) = γ (v, w) .

$g(v)(w)=\gamma(v,w).$

γ

$\gamma$

g

$g$

V

$V$ как будто они были элементами дуального но это зависит от .

V^{*}

$V^*$

γ

$\gamma$

— whuber

@mpettis Эти точки было трудно заметить. Я заменил их маленькими открытыми кружками, чтобы облегчить чтение обозначений. Спасибо за указание на это.

— whuber

Ответы Самолета @ Энди Рона Кристенсена на сложные вопросы могут быть тем, что вы ищете. К сожалению, его подход делает (ИМХО) чрезмерное использование координатных аргументов и расчетов. В оригинальном введении (см. Стр. XIII) Кристенсен объясняет это по педагогическим причинам.

— whuber

@whuber, ваши доказательства потрясающие. Интересно, есть ли в какой-либо книге или статье такое доказательство, чтобы я мог ссылаться?

— Гарри

Вот доказательство с помощью только матричных вычислений.

Я ценю ответ по whuber. Это очень проницательно по математике за сценой. Однако все еще не так тривиально, как использовать его ответ для получения знака минус в формуле, указанной в википедии Partial_correlation # Using_matrix_inversion .

ρ_{X_{i} X_{j} \cdot V ∖ {X_{i}, X_{j}}} = - \frac{p_{i j}}{\sqrt{p_{i i} p_{j j}}}

$\rho_{X_iX_j\cdot \mathbf{V} \setminus \{X_i,X_j\}} = - \frac{p_{ij}}{\sqrt{p_{ii}p_{jj}}}$

Чтобы получить этот знак минус, вот другое доказательство, которое я нашел в «Графических моделях Lauriten 1995». Это просто делается с помощью некоторых матричных расчетов.

Ключом является следующая идентификационная матрица: где , и .

{(\begin{matrix} A & B \\ C & D \end{matrix})}^{- 1} = (\begin{matrix} E^{- 1} & - E^{- 1} G \\ - F E^{- 1} & D^{- 1} + F E^{- 1} G \end{matrix})

$\begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} = \begin{pmatrix} E^{-1} & -E^{-1}G \\ -FE^{-1} & D^{-1}+FE^{-1}G \end{pmatrix}$

E = A - B D^{- 1} C

$E = A - BD^{-1}C$

F = D^{- 1} C

$F = D^{-1}C$

G = B D^{- 1}

$G = BD^{-1}$

Запишите ковариационную матрицу как где - это ковариационная матрица из и является ковариационной матрицей из .

Ω = (\begin{matrix} Ω_{11} & Ω_{12} \\ Ω_{21} & Ω_{22} \end{matrix})

$\Omega = \begin{pmatrix} \Omega_{11} & \Omega_{12} \\ \Omega_{21} & \Omega_{22} \end{pmatrix}$

Ω_{11}

$\Omega_{11}$

(X_{i}, X_{j})

$(X_i, X_j)$

Ω_{22}

$\Omega_{22}$

V ∖ {X_{i}, X_{j}}

$\mathbf{V} \setminus \{X_i, X_j \}$

Пусть . Аналогично, запишите как $P = \Omega^{-1}$ $P$

P = (\begin{matrix} P_{11} & P_{12} \\ P_{21} & P_{22} \end{matrix})

$P = \begin{pmatrix} P_{11} & P_{12} \\ P_{21} & P_{22} \end{pmatrix}$

По ключевой матричной идентичности

P_{11}^{- 1} = Ω_{11} - Ω_{12} Ω_{22}^{- 1} Ω_{21}

$P_{11}^{-1} = \Omega_{11} - \Omega_{12}\Omega_{22}^{-1}\Omega_{21}$

$\Omega_{11} - \Omega_{12}\Omega_{22}^{-1}\Omega_{21}$ $(X_i, X_j) | \mathbf{V} \setminus \{X_i, X_j\}$

ρ_{X_{i} X_{j} \cdot V ∖ {X_{i}, X_{j}}} = \frac{[P_{11}^{- 1}]_{12}}{\sqrt{[P_{11}^{- 1}]_{11} [P_{11}^{- 1}]_{22}}} .

$\rho_{X_iX_j\cdot \mathbf{V} \setminus \{X_i,X_j\}} = \frac{[P_{11}^{-1}]_{12}}{\sqrt{[P_{11}^{-1}]_{11}[P_{11}^{-1}]_{22}}}.$

(k, l)

$(k,l)$

M

$M$

[M]_{k l}

$[M]_{kl}$

(\begin{matrix} [P_{11}^{- 1}]_{11} & [P_{11}^{- 1}]_{12} \\ [P_{11}^{- 1}]_{21} & [P_{11}^{- 1}]_{22} \end{matrix}) = P_{11}^{- 1} = \frac{1}{det P_{11}} (\begin{matrix} [P_{11}]_{22} & - [P_{11}]_{12} \\ - [P_{11}]_{21} & [P_{11}]_{11} \end{matrix})

$\begin{pmatrix} [P_{11}^{-1}]_{11} & [P_{11}^{-1}]_{12} \\ [P_{11}^{-1}]_{21} & [P_{11}^{-1}]_{22} \\ \end{pmatrix} = P_{11}^{-1} = \frac{1}{\text{det} P_{11}} \begin{pmatrix} [P_{11}]_{22} & -[P_{11}]_{12} \\ -[P_{11}]_{21} & [P_{11}]_{11} \\ \end{pmatrix}$

ρ_{X_{i} X_{j} \cdot V ∖ {X_{i}, X_{j}}} = \frac{[P_{11}^{- 1}]_{12}}{\sqrt{[P_{11}^{- 1}]_{11} [P_{11}^{- 1}]_{22}}} = \frac{- \frac{1}{det P_{11}} [P_{11}]_{12}}{\sqrt{\frac{1}{det P_{11}} [P_{11}]_{22} \frac{1}{det P_{11}} [P_{11}]_{11}}} = \frac{- [P_{11}]_{12}}{\sqrt{[P_{11}]_{22} [P_{11}]_{11}}}

$\rho_{X_iX_j\cdot \mathbf{V} \setminus \{X_i,X_j\}} = \frac{[P_{11}^{-1}]_{12}}{\sqrt{[P_{11}^{-1}]_{11}[P_{11}^{-1}]_{22}}} = \frac{- \frac{1}{\text{det}P_{11}}[P_{11}]_{12}}{\sqrt{\frac{1}{\text{det}P_{11}}[P_{11}]_{22}\frac{1}{\text{det}P_{11}}[P_{11}]_{11}}} = \frac{-[P_{11}]_{12}}{\sqrt{[P_{11}]_{22}[P_{11}]_{11}}}$

— Po C.
источник

Если мы позволим i=j, то rho_ii V\{X_i, X_i} = -1, Как мы интерпретируем эти диагональные элементы в матрице точности?

— Джейсон

Хорошая точка зрения. Формула должна быть действительной только для i = / = j. Из доказательства знак минус исходит из инверсии матрицы 2 на 2. Этого не произойдет, если я = J.

— По С.

Таким образом, диагональные числа не могут быть связаны с частичной корреляцией. Что они представляют? Они не просто противоположности дисперсий, не так ли?

— Джейсон

Эта формула действительна для i = / = j. Это бессмысленно для i = j.

— По С.

$X_i$ $X_j$ $n - 1$ $X_i$ $X_j$ $n - 2$ $\epsilon_i$ $\epsilon_j$ $\rho$ $\epsilon_i$ $\epsilon_j$ $-\rho$

Это объясняет путаницу в комментариях выше, а также в Википедии. Второе определение используется повсеместно из того, что я могу сказать, поэтому должен быть отрицательный знак.

Первоначально я опубликовал правку для другого ответа, но допустил ошибку - извините за это!

— Джонни Хо
источник