Как я могу сгенерировать данные с помощью заранее определенной матрицы корреляции?

19

Я пытаюсь сгенерировать коррелированную случайную последовательность со средним значением = , дисперсией = , коэффициентом корреляции = . В приведенном ниже коде я использую & как стандартные отклонения, а & как средство. $0$ $1$ $0.8$ s1s2m1m2

p = 0.8 
u = randn(1, n)
v = randn(1, n)
x = s1 * u + m1
y = s2 * (p * u + sqrt(1 - p^2) * v) + m2

Это дает мне правильный corrcoef()0,8 между xи y. Мой вопрос заключается в том, как я могу создать серию, если я хочу, zчтобы это также коррелировалось с y(с той же корреляцией ), но не с . Есть ли конкретная формула, которую мне нужно знать? Я нашел один, но не мог понять это. $r=0.8$ x

— Анис
источник

2

Следующие Q тесно связаны между собой и будут представлять интерес: Как генерировать коррелированные случайные числа с учетом отклонений и степени корреляции? , Как определить такое распределение , которое опирается на него коррелируют с дро из другого заранее определенного распределения? & Создать случайную переменную с определенной корреляцией с существующей переменной .

— gung - Восстановить Монику

21

Похоже, что вы спрашиваете, как генерировать данные с определенной корреляционной матрицей.

Полезным в том, что если у вас есть случайный вектор с ковариационной матрицей , то случайный вектор имеет среднее и ковариационная матрица . Таким образом, если вы начнете с данных, у которых среднее значение равно нулю, умножение на не изменит этого, поэтому ваше первое требование легко будет выполнено. ${\bf x}$ $\Sigma$ ${\bf Ax}$ ${\bf A} E({\bf x})$ $\Omega = {\bf A} \Sigma {\bf A}^{T}$ ${\bf A}$

Допустим, вы начинаете с (среднее ноль) некоррелированных данных (т.е. ковариационная матрица является диагональной) - так как мы говорим о корреляционной матрицы, давайте просто взять . Вы можете превратить это в данных с заданной ковариационной матрицей, выбирая быть Cholesky корень квадратный из , - то будет иметь желаемый ковариационная матрица . $\Sigma = I$ ${\bf A}$ $\Omega$ ${\bf Ax}$ $\Omega$

В вашем примере вы хотите что-то вроде этого:

Ω = (\begin{array}{ccc} 1 & .8 & 0 \\ .8 & 1 & .8 \\ 0 & .8 & 1 \end{array})

$\Omega = \left( \begin{array}{ccc} 1 & .8 & 0 \\ .8 & 1 & .8 \\ 0 & .8 & 1 \\ \end{array} \right)$

К сожалению, эта матрица не является положительно определенной, поэтому она не может быть ковариационной матрицей - вы можете проверить это, увидев, что определитель отрицателен. Возможно, вместо

Ω = (\begin{array}{ccc} 1 & .8 & .3 \\ .8 & 1 & .8 \\ .3 & .8 & 1 \end{array}) o r Ω = (\begin{array}{ccc} 1 & 2 / 3 & 0 \\ 2 / 3 & 1 & 2 / 3 \\ 0 & 2 / 3 & 1 \end{array})

$\Omega = \left( \begin{array}{ccc} 1 & .8 & .3 \\ .8 & 1 & .8 \\ .3 & .8 & 1 \\ \end{array} \right) \ \ \ \ {\rm or} \ \ \ \Omega = \left( \begin{array}{ccc} 1 & 2/3 & 0 \\ 2/3 & 1 & 2/3 \\ 0 & 2/3 & 1 \\ \end{array} \right)$

было бы достаточно. Я не уверен, как рассчитать квадратный корень cholesky в Matlab (который, кажется, то, что вы используете), но Rвы можете использовать chol()функцию.

В этом примере для двух перечисленных выше соответствующие коэффициенты матрицы (соответственно) будут $\Omega$

A = (\begin{array}{ccc} 1 & 0 & 0 \\ .8 & .6 & 0 \\ .3 & .933 & .1972 \end{array}) o r A = (\begin{array}{ccc} 1 & 0 & 0 \\ 2 / 3 & .7453 & 0 \\ 0 & .8944 & .4472 \end{array})

${\bf A} = \left( \begin{array}{ccc} 1 & 0 & 0 \\ .8 & .6 & 0 \\ .3 & .933 & .1972 \\ \end{array} \right) \ \ \ \ {\rm or} \ \ \ {\bf A} = \left( \begin{array}{ccc} 1 & 0 & 0 \\ 2/3 & .7453 & 0 \\ 0 & .8944 & .4472 \\ \end{array} \right)$

RКод , используемый , чтобы прибыть на это:

x = matrix(0,3,3)
x[1,]=c(1,.8,.3)
x[2,]=c(.8,1,.8)
x[3,]=c(.3,.8,1)
t(chol(x))

     [,1]      [,2]      [,3]
[1,]  1.0 0.0000000 0.0000000
[2,]  0.8 0.6000000 0.0000000
[3,]  0.3 0.9333333 0.1972027

x[1,]=c(1,2/3,0)
x[2,]=c(2/3,1,2/3)
x[3,]=c(0,2/3,1)
t(chol(x))

      [,1]      [,2]      [,3]
[1,] 1.0000000 0.0000000 0.0000000
[2,] 0.6666667 0.7453560 0.0000000
[3,] 0.0000000 0.8944272 0.4472136

— макрос
источник

1

chol

Ω

$\Omega$

1

Конечно, верно @cardinal - многие теоретически обоснованные вещи идут плохо, когда вы пытаетесь делать вещи численно с почти единичными матрицами. Я (удобно) представлял ситуацию, когда целевой корреляционной матрицы не было в той области, где это было проблемой. Хорошо, что вы указали на это - спасибо (и спасибо за редактирование моего другого ответа)

— Макрос

1

Основная причина, по которой я думал об этом, заключалась в том, что вы внимательно следили за тем, чтобы признать, что первое предложение ОП не было даже положительно определенным. И, надеюсь, редактирование другого вопроса не было слишком усердным; Мне нравятся оба этих ответа.

— кардинал

7

Если вы используете R, вы также можете использовать функцию mvrnorm из пакета MASS, предполагая, что вам нужны нормально распределенные переменные. Реализация аналогична описанной выше макрокоманде, но использует собственные векторы корреляционной матрицы вместо разложения Холецкого и масштабирования с разложением по сингулярному значению (если для эмпирической опции задано значение true).

$X$ $\Sigma$ $\gamma$ $\lambda$ $\Sigma$

$X' = \gamma\lambda X^{T}$

$\Sigma$ $X$

Обратите внимание, что корреляционная матрица должна быть положительно определенной, но ее преобразование с помощью функции nearPD из пакета Matrix в R будет полезным.

— zzk
источник

1

$\Sigma_y$ $x$ $\Sigma_x = I$ $\Sigma_y$ $\Lambda$ $V$

$\Sigma_y = V \Lambda V^T = ( V \sqrt{\Lambda} ) (\sqrt{\Lambda}^T V^T ) = A A^T$

$y=Ax$

— Марио Сансоне
источник