Оценка для корреляции трех случайных величин

28

Есть три случайные величины, . Три корреляции между тремя переменными одинаковы. То есть, $x,y,z$

ρ = cor (x, y) = cor (x, z) = cor (y, z)

$\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z)$

Какую самую тесную границу вы можете дать для ? $\rho$

correlation correlation-matrix

— user1352399
источник

1

Предположительно под "фо" вы имеете в виду rho ( ). Однако ваш вопрос неясен. Что ты имеешь в виду под «какой самый жесткий предел ты можешь дать»?

ρ

$\rho$

— gung - Восстановить Монику

Ну, имя переменной просто пустышка. Под самой жесткой границей я подразумеваю что-то вроде [-1, 1] для корреляции, но это явно не самая жесткая граница.

— user1352399

Вы имеете в виду, что rho = cor (x, y) = cor (x, z) = cor (y, z), и каковы пределы для rho?

— user31264

Да, я имею в виду, что rho = cor (x, y) = cor (x, z) = cor (y, z) и каковы пределы для rho. Дилип, можете ли вы сказать, что rho должно быть неотрицательным, то есть> = 0?

— user1352399

1

Учебник, на который можно сослаться на это, - «Анализ линейной регрессии»

— Себера

29

Общая корреляция может иметь значение но не . Если , то не может быть равно но фактически равно . Наименьшее значение общей корреляции трех случайных величин равно . В более общем смысле, минимальная общая корреляция случайных величин равна когда они рассматриваются как векторы и находятся в вершинах симплекса (размерности ) в мерном пространстве. $\rho$ $+1$ $-1$ $\rho_{X,Y}= \rho_{X,Z}=-1$ $\rho_{Y,Z}$ $-1$ $+1$ $-\frac{1}{2}$ $n$ $-\frac{1}{n-1}$ $n-1$ $n$

Рассмотрим дисперсию суммы единиц дисперсии случайных величин . У нас есть где - среднее значение значение из коэффициентов корреляции. Но поскольку , мы легко получаем из что $n$ $X_i$

\begin{aligned} var (\sum_{i = 1}^{n} X_{i}) & = \sum_{i = 1}^{n} var (X_{i}) + \sum_{i = 1}^{n} \sum_{j \neq i}^{n} cov (X_{i}, X_{j}) \\ = n + \sum_{i = 1}^{n} \sum_{j \neq i}^{n} ρ_{X_{i}, X_{j}} \\ (1) & = n + n (n - 1) \bar{ρ} \end{aligned}

$\begin{align*} \operatorname{var}\left(\sum_{i=1}^n X_i\right) &= \sum_{i=1}^n \operatorname{var}(X_i) + \sum_{i=1}^n\sum_{j\neq i}^n \operatorname{cov}(X_i,X_j)\\ &= n + \sum_{i=1}^n\sum_{j\neq i}^n \rho_{X_i,X_j}\\ &= n + n(n-1)\bar{\rho} \tag{1} \end{align*}$

\bar{ρ}

$\bar{\rho}$

(\binom{n}{2})

$\binom{n}{2}$

var (\sum_{i} X_{i}) \geq 0

$\operatorname{var}\left(\sum_i X_i\right) \geq 0$

(1)

$(1)$

\bar{ρ} \geq - \frac{1}{n - 1} .

$\bar{\rho} \geq -\frac{1}{n-1}.$

Таким образом, среднее значение коэффициента корреляции не менее . Если все коэффициенты корреляции имеют одинаковое значение , то их среднее значение также равно и поэтому мы имеем это Можно ли иметь случайные величины, для которых общее значение корреляции равно ? Да. Предположим, что являются некоррелированными случайными переменными единичной дисперсии и . Тогда , а $-\frac{1}{n-1}$ $\rho$ $\rho$

ρ \geq - \frac{1}{n - 1} .

$\rho \geq -\frac{1}{n-1}.$

ρ

$\rho$

- \frac{1}{n - 1}

$-\frac{1}{n-1}$

X_{i}

$X_i$

Y_{i} = X_{i} - \frac{1}{n} \sum_{j = 1}^{n} X_{j} = X_{i} - \bar{X}

$Y_i = X_i - \frac{1}{n}\sum_{j=1}^n X_j = X_i -\bar{X}$

E [Y_{i}] = 0

$E[Y_i]=0$

var (Y_{i}) = {(\frac{n - 1}{n})}^{2} + (n - 1) {(\frac{1}{n})}^{2} = \frac{n - 1}{n}

$\displaystyle \operatorname{var}(Y_i) = \left(\frac{n-1}{n}\right)^2 + (n-1)\left(\frac{1}{n}\right)^2 = \frac{n-1}{n}$ и дающий Таким образом, являются случайными переменными, достигающими минимального значения общей корреляции . обратите внимание, что , и поэтому, рассматриваемые как векторы, случайные величины лежат в -мерной гиперплоскости

cov (Y_{i}, Y_{j}) = - 2 (\frac{n - 1}{n}) (\frac{1}{n}) + (n - 2) {(\frac{1}{n})}^{2} = - \frac{1}{n}

$\operatorname{cov}(Y_i,Y_j) = -2\left(\frac{n-1}{n}\right)\left(\frac{1}{n}\right) + (n-2)\left(\frac{1}{n}\right)^2 = -\frac{1}{n}$

ρ_{Y_{i}, Y_{j}} = \frac{cov (Y_{i}, Y_{j})}{\sqrt{var (Y_{i}) var (Y_{j})}} = \frac{- 1 / n}{(n - 1) / n} = - \frac{1}{n - 1} .

$\rho_{Y_i,Y_j} = \frac{\operatorname{cov}(Y_i,Y_j)}{\sqrt{\operatorname{var}(Y_i)\operatorname{var}(Y_j)}} =\frac{-1/n}{(n-1)/n} = -\frac{1}{n-1}.$

Y_{i}

$Y_i$

- \frac{1}{n - 1}

$-\frac{1}{n-1}$

\sum_{i} Y_{i} = 0

$\sum_i Y_i = 0$

(n - 1)

$(n-1)$

n

$n$ пространство.

— Дилип Сарватэ
источник

25

Максимально возможная граница . $-1/2 \le \rho \le 1$ Все такие значения действительно могут появиться - ни одно не является невозможным.

Чтобы показать, что в результате нет ничего особенно глубокого или загадочного, этот ответ сначала представляет собой полностью элементарное решение, требующее только очевидного факта, что отклонения, являющиеся ожидаемыми значениями квадратов, должны быть неотрицательными. За этим следует общее решение (в котором используются немного более сложные алгебраические факты).

Элементарное решение

Дисперсия любой линейной комбинации должна быть неотрицательной. $x,y,z$ Пусть дисперсия этих переменных равна и соответственно. Все они ненулевые (иначе некоторые корреляции не будут определены). Используя основные свойства дисперсий, мы можем вычислить $\sigma^2, \tau^2,$ $\upsilon^2$

0 \leq Var (α x / σ + β y / τ + γ z / υ) = α^{2} + β^{2} + γ^{2} + 2 ρ (α β + β γ + γ α)

$0 \le \text{Var}(\alpha x/\sigma + \beta y/\tau + \gamma z/\upsilon) = \alpha^2 +\beta^2+\gamma^2 + 2\rho(\alpha\beta+\beta\gamma+\gamma\alpha)$

для всех действительных чисел . $(\alpha, \beta, \gamma)$

Предполагая , небольшая алгебраическая манипуляция подразумевает, что это эквивалентно $\alpha+\beta+\gamma\ne 0$

\frac{- ρ}{1 - ρ} \leq \frac{1}{3} {(\frac{\sqrt{(α^{2} + β^{2} + γ^{2}) / 3}}{(α + β + γ) / 3})}^{2} .

$\frac{-\rho}{1-\rho} \le \frac{1}{3} \left(\frac{\sqrt{(\alpha^2+\beta^2+\gamma^2)/3}}{(\alpha+\beta+\gamma)/3}\right)^2.$

Квадрат в правой части - это отношение двух степенных средних . Элементарная мощность среднего неравенства (с весами ) утверждает , что отношение не может превышать (и будет равно , когда ). Немного больше алгебры тогда подразумевает $(\alpha, \beta, \gamma)$ $(1/3, 1/3, 1/3)$ $1$ $1$ $\alpha=\beta=\gamma\ne 0$

ρ \geq - 1 / 2.

$\rho \ge -1/2.$

Ниже приведен явный пример (с использованием тривиальных нормальных переменных ), который показывает, что все такие значения, , действительно возникают как корреляции. Этот пример использует только определение многомерных нормалей, но в противном случае не вызывает результатов исчисления или линейной алгебры. $n=3$ $(x,y,z)$ $-1/2 \le \rho \le 1$

Общее решение

обзор

Любая корреляционная матрица является ковариационной матрицей стандартизированных случайных величин, поэтому, как и все корреляционные матрицы, она должна быть положительной полуопределенной. Эквивалентно, его собственные значения неотрицательны. Это накладывает простое условие на : оно не должно быть меньше (и, конечно, не может превышать ). Наоборот, любой такой самом деле соответствует корреляционной матрице некоторого тривариатного распределения, доказывая, что эти границы являются максимально тесными. $\rho$ $-1/2$ $1$ $\rho$

Вывод условий на $\rho$

Рассмотрим корреляционную матрицу by со всеми недиагональными значениями, равными(Вопрос касается случая но это обобщение более не сложно анализировать.) Назовем его По определению, является собственным значением, если существует ненулевой вектор такой, что $n$ $n$ $\rho.$ $n=3,$ $\mathbb{C}(\rho, n).$ $\lambda$ $\mathbf{x}_\lambda$

C (ρ, n) x_{λ} = λ x_{λ} .

$\mathbb{C}(\rho,n) \mathbf{x}_\lambda = \lambda \mathbf{x}_\lambda.$

Эти собственные значения легко найти в данном случае, потому что

Пусть , вычислим, что $\mathbf{1} = (1, 1, \ldots, 1)'$

$C (ρ, n) 1 = (1 + (n - 1) ρ) 1 .$ $\mathbb{C}(\rho,n)\mathbf{1} = (1+(n-1)\rho)\mathbf{1}.$
Обозначение с только в месте (для ), вычислите это $\mathbf{y}_j = (-1, 0, \ldots, 0, 1, 0, \ldots, 0)$ $1$ $j^\text{th}$ $j = 2, 3, \ldots, n$

$C (ρ, n) y_{j} = (1 - ρ) y_{j} .$ $\mathbb{C}(\rho,n)\mathbf{y}_j = (1-\rho)\mathbf{y}_j.$

Поскольку найденные собственных векторов охватывают полное мерное пространство (доказательство: простое сокращение строк показывает абсолютное значение их определителя, равное , которое отлично от нуля), они составляют основу всех собственных векторов. Поэтому мы нашли все собственные значения и определили, что они либо либо (последнее с кратностью ). В дополнение к общеизвестному неравенству которому удовлетворяют все корреляции, неотрицательность первого собственного значения также подразумевает $n$ $n$ $n$ $1+(n-1)\rho$ $1-\rho$ $n-1$ $-1 \le \rho \le 1$

ρ \geq - \frac{1}{n - 1}

$\rho \ge -\frac{1}{n-1}$

в то время как неотрицательность второго собственного значения не накладывает новых условий.

Доказательство достаточности условий

Последствия работают в обоих направлениях: при условии, что матрица неотрицательно определена и, следовательно, является допустимой корреляционной матрицей. Это, например, корреляционная матрица для мультинормального распределения. Конкретно напиши $-1/(n-1)\le \rho \le 1,$ $\mathbb{C}(\rho, n)$

Σ (ρ, n) = (1 + (n - 1) ρ) I_{n} - \frac{ρ}{(1 - ρ) (1 + (n - 1) ρ)} 1 1^{'}

$\Sigma(\rho, n) = (1 + (n-1)\rho)\mathbb{I}_n - \frac{\rho}{(1-\rho)(1+(n-1)\rho)}\mathbf{1}\mathbf{1}'$

для обратного когда Например, когда $\mathbb{C}(\rho, n)$ $-1/(n-1) \lt \rho \lt 1.$ $n=3$

Σ (ρ, 3) = \frac{1}{(1 - ρ) (1 + 2 ρ)} (\begin{array}{ccc} ρ + 1 & - ρ & - ρ \\ - ρ & ρ + 1 & - ρ \\ - ρ & - ρ & ρ + 1 \end{array}) .

$\color{gray}{\Sigma(\rho, 3) = \frac{1}{(1-\rho)(1+2\rho)} \left( \begin{array}{ccc} \rho +1 & -\rho & -\rho \\ -\rho & \rho +1 & -\rho \\ -\rho & -\rho & \rho +1 \\ \end{array} \right)}.$

Пусть вектор случайных величин имеет функцию распределения $(X_1, X_2, \ldots, X_n)$

f_{ρ, n} (x) = \frac{\exp (- \frac{1}{2} x Σ (ρ, n) x^{'})}{(2 π)^{n / 2} {((1 - ρ)^{n - 1} (1 + (n - 1) ρ))}^{1 / 2}}

$f_{\rho, n}(\mathbf{x}) = \frac{\exp\left(-\frac{1}{2}\mathbf{x}\Sigma(\rho, n)\mathbf{x}'\right)}{(2\pi)^{n/2}\left((1-\rho)^{n-1}(1+(n-1)\rho)\right)^{1/2}}$

где . Например, когда это равно $\mathbf{x} = (x_1, x_2, \ldots, x_n)$ $n=3$

\frac{1}{\sqrt{(2 π)^{3} (1 - ρ)^{2} (1 + 2 ρ)}} \exp (- \frac{(1 + ρ) (x^{2} + y^{2} + z^{2}) - 2 ρ (x y + y z + z x)}{2 (1 - ρ) (1 + 2 ρ)}) .

$\color{gray}{\frac{1}{\sqrt{(2\pi)^{3}(1-\rho)^2(1+2\rho)}} \exp\left(-\frac{(1+\rho)(x^2+y^2+z^2) - 2\rho(xy+yz+zx)}{2(1-\rho)(1+2\rho)}\right)}.$

Матрица корреляции для этих случайных величин равна $n$ $\mathbb{C}(\rho, n).$

фигура

Контуры функций плотности Слева направо, . Обратите внимание, как плотность смещается от концентрации вблизи плоскости к концентрации вблизи линии . $f_{\rho,3}.$ $\rho=-4/10, 0, 4/10, 8/10$ $x+y+z=0$ $x=y=z$

Частные случаи и также могут быть реализованы вырожденными распределениями; Я не буду вдаваться в подробности, за исключением того, что хочу указать, что в первом случае распределение можно считать поддерживаемым на гиперплоскости , где это сумма идентично распределенных средних значений Нормальное распределение, тогда как в последнем случае (идеальная положительная корреляция) оно поддерживается в строке, генерируемой , где оно имеет среднее значение - Нормальное распределение. $\rho = -1/(n-1)$ $\rho = 1$ $\mathbf{x}.\mathbf{1}=0$ $0$ $\mathbf{1}'$ $0$

Подробнее о невырожденности

Обзор этого анализа показывает, что корреляционная матрица имеет ранг а имеет ранг из (потому что только один собственный вектор имеет ненулевое собственное значение). При это делает матрицу корреляции вырожденной в любом случае. В противном случае существование его обратной доказывает, что оно невырождено. $\mathbb{C}(-1/(n-1), n)$ $n-1$ $\mathbb{C}(1, n)$ $1$ $n\ge 2$ $\Sigma(\rho, n)$

— Whuber
источник

20

Ваша корреляционная матрица

(\begin{matrix} 1 & ρ & ρ \\ ρ & 1 & ρ \\ ρ & ρ & 1 \end{matrix})

$\begin{pmatrix} 1&\rho&\rho\\ \rho&1&\rho\\ \rho&\rho&1 \end{pmatrix}$

Матрица положительно полуопределена, если все главные старшие миноры неотрицательны. Основными минорами являются детерминанты «северо-западных» блоков матрицы, т. Е. 1, детерминант

(\begin{matrix} 1 & ρ \\ ρ & 1 \end{matrix})

$\begin{pmatrix} 1&\rho\\ \rho&1\end{pmatrix}$

и определитель самой корреляционной матрицы.

1, очевидно, является положительным, второй главный минор - , который неотрицателен для любой допустимой корреляции . Определитель всей корреляционной матрицы $1-\rho^2$ $\rho\in[-1,1]$

2 ρ^{3} - 3 ρ^{2} + 1.

$2\rho^3-3\rho^2+1.$

График показывает определитель функции в диапазоне допустимых корреляций . $[-1,1]$ введите описание изображения здесь

Вы видите, что функция неотрицательна в диапазоне, заданном @stochazesthai (который вы также можете проверить, найдя корни детерминантного уравнения).

— Кристоф Ханк
источник

Разве мы не предполагаем в вашем ответе, что ? Почему мы можем?

V a r () = 1

$Var( )=1$

— Старик в море.

1

@ Anold Вы, кажется, читаете «ковариацию», где написано «корреляция».

— whuber

6

Существуют случайные величины , и с попарными корреляциями тогда и только тогда, когда корреляционная матрица является положительной полуопределенной. Это происходит только для . $X$ $Y$ $Z$ $\rho_{XY} = \rho_{YZ} = \rho_{XZ} = \rho$ $\rho \in [-\frac{1}{2},1]$

— stochazesthai
источник

2

Вы можете объяснить это очень простыми словами.

— Элизабет Сьюзан Джозеф

1

Я не думаю, что существует объяснение, которое не требует знания алгебры матриц. Я предлагаю вам взглянуть на страницу Википедии ( en.wikipedia.org/wiki/… ).

— Stochazesthai

4

Я нашел объяснение, которое требует только базовую (уровень средней школы) алгебру, и включил его в свой ответ.