Как генерировать коррелированные случайные числа (с учетом средних, дисперсий и степени корреляции)?

53

Извините, если это кажется слишком основополагающим, но я думаю, что я просто пытаюсь подтвердить понимание здесь. У меня есть чувство, что я должен сделать это в два этапа, и я начал пытаться получить матрицы корреляции, но это только начинает казаться действительно вовлеченным. Я ищу краткое объяснение (в идеале с подсказками для решения псевдокода) хорошего, идеально быстрого способа генерирования коррелированных случайных чисел.

Учитывая две псевдослучайные переменные роста и веса с известными средними и дисперсиями, а также данную корреляцию, я думаю, что я в основном пытаюсь понять, как должен выглядеть этот второй шаг:

   height = gaussianPdf(height.mean, height.variance)
   weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), 
                        correlated_variance(height.variance, 
                        correlation_coefficient))

Как рассчитать коррелированное среднее значение и дисперсию? Но я хочу подтвердить, что это действительно актуальная проблема здесь.
Нужно ли прибегать к матричным манипуляциям? Или у меня есть что-то очень неправильное в моем базовом подходе к этой проблеме?

— Иосиф Вайсман
источник

1

Не уверен, что я вас правильно понимаю, но вам не нужно вычислять «среднее значение и дисперсию». Если вы предполагаете, что переменные являются двумерными нормальными, этого должно быть достаточно, чтобы указать отдельные средние и дисперсии и корреляцию. Есть ли какое-то конкретное программное обеспечение, которое вы хотите использовать для этого?

— mark999

3

Следующие вопросы тесно связаны и будут представлять интерес: Как определить распределение, которое извлекает из него корреляцию с использованием другого предварительно определенного распределения? & Создать случайную переменную с определенной корреляцией с существующей переменной .

— gung - Восстановить Монику

1

Также: Как я могу генерировать данные с заранее определенной матрицей корреляции?

— gung - Восстановить Монику

44

Чтобы ответить на ваш вопрос о «хорошем, в идеале быстром способе генерирования коррелированных случайных чисел»: учитывая желаемую дисперсионно-ковариационную матрицу которая по определению является положительно определенной, ее разложение Холецкого имеет вид: = ; - нижняя треугольная матрица. $C$ $C$ $LL^T$ $L$

Если вы теперь используете эту матрицу для проекции некоррелированного вектора случайных величин , результирующая проекция будет проекцией коррелированных случайных величин. $L$ $X$ $Y = LX$

Вы можете найти краткое объяснение, почему это происходит здесь .

— usεr11852 говорит восстановить Monic
источник

Спасибо! Это было чрезвычайно полезно. Я думаю, что я, по крайней мере, лучше понимаю, что мне нужно смотреть дальше.

— Джозеф Вайсман

7

Применяется ли этот метод только для гауссовых распределений (как указано в вопросе) или он может использоваться для генерации коррелированных переменных, которые следуют за другими распределениями? Если нет, знаете ли вы о методе, который можно использовать в этом случае?

— user000001

1

@ Майкл: Да. Сказав, что данная

является допустимой ковариационной матрицей, разложение Холецкого является самым быстрым способом. Вы также можете получить (симметричную) матрицу

квадратного корня из

, используя SVD (так что

, где

от

), но это будет дороже слишком.

C

$C$

X

$X$

C

$C$

C = X X = X X^{T}

$C = XX = XX^T$

X = U S^{0.5} V^{T}

$X = U S^{0.5} V^T$

C = U S V^{T}

$C = USV^T$

— usεr11852 говорит восстановить Monic

1

@ Майкл: Конечно. Их ковариация будет (примерно) одинаковой, а не сами цифры.

— usεr11852 говорит восстановить Monic

1

@Sid: Любое непрерывное распространение, не поддерживаемое на всей реальной линии, немедленно завершится неудачей. Например, если мы используем унифицированную

мы не можем гарантировать, что «коррелированные числа» будут в

; аналогично для Пуассона мы получим недискретные числа. Кроме того, любое распределение, в котором сумма распределений не является тем же распределением (например, суммирование

-распределения не приводит к

-распределениям), также будет неудачным. Во всех случаях , упомянутых, число , полученное будет коррелировать в соответствии с

U [0, 1]

$U[0,1]$

[0, 1]

$[0,1]$

t

$t$

t

$t$

C

$C$ но они не будут соответствовать распределению, которое мы начали.

— usεr11852 говорит восстановить Monic

36

+1 к @ user11852 и @ jem77bfp, это хорошие ответы. Позвольте мне подойти к этому с другой точки зрения, не потому, что я думаю, что это обязательно лучше на практике , а потому, что я думаю, что это поучительно. Вот несколько важных фактов, которые мы уже знаем:

представляет собой наклон линии регрессиикогда оба и являютсястандартизированы, то есть , $r$ $X$ $Y$ $\mathcal N(0,1)$
- доля дисперсии в относящаяся к дисперсии в , $r^2$ $Y$ $X$

(также из правил для отклонений ):
дисперсия случайной величины, умноженная на константу, представляет собой константу в квадрате, умноженную на исходную дисперсию:
$Var [a Икс] знак равно a^{2} Var [Икс]$ $\text{Var}[aX]=a^2\text{Var}[X]$
дисперсии сложения , т. е. дисперсия суммы двух случайных величин (при условии, что они независимы) является суммой двух дисперсий:
$Var [Икс + ε] знак равно Var [Икс] + Var [ε]$ $\text{Var}[X+\varepsilon]=\text{Var}[X]+\text{Var}[\varepsilon]$

Теперь мы можем объединить эти четыре факта, чтобы создать две стандартные нормальные переменные, популяции которых будут иметь заданную корреляцию (точнее, ), хотя сгенерированные вами выборки будут иметь выборочные корреляции, которые различаются. Идея состоит в том, чтобы создать псевдослучайную переменную , которая является стандартной нормалью, , а затем найти коэффициент и дисперсию ошибки , такую, что , где $r$ $\rho$ $X$ $\mathcal N(0,1)$ $a$ $v_e$ $Y \sim\mathcal N(0,a^2+v_e)$ . (Обратите внимание, что должно быть чтобы это работало, и, кроме того, .) Таким образом, вы начинаете с , который хотите; это твой коэффициент, . Затем вы вычисляете дисперсию ошибки, которая вам понадобится, это . (Если ваше программное обеспечение требует, чтобы вы использовали стандартное отклонение, возьмите квадратный корень из этого значения.) Наконец, для каждогосгенерированного вамипсевдослучайного значения сгенерируйте псевдослучайное значение ошибки, $a^2+v_e=1$ $|a|$ $\le 1$ $a=r$ $r$ $a$ $1-r^2$ $x_i$ $e_i$ , с соответствующей дисперсией ошибки , и вычислить коррелированную псевдослучайную переменную, , путем умножения и сложения. $v_e$ $y_i$

Если вы хотите сделать это в R, следующий код может работать для вас:

correlatedValue = function(x, r){
  r2 = r**2
  ve = 1-r2
  SD = sqrt(ve)
  e  = rnorm(length(x), mean=0, sd=SD)
  y  = r*x + e
  return(y)
}

set.seed(5)
x = rnorm(10000)
y = correlatedValue(x=x, r=.5)

cor(x,y)
[1] 0.4945964

(Изменить: я забыл упомянуть :) Как я уже описал, эта процедура дает вам две стандартные нормальные коррелированные переменные. Если вам не нужны стандартные нормали, но вы хотите, чтобы переменные имели определенные средние значения (не 0) и SD (не 1), вы можете преобразовать их, не влияя на корреляцию. Таким образом, вы должны вычесть наблюдаемое среднее значение, чтобы убедиться, что среднее значение равно , умножить переменную на нужный вам SD и затем добавить среднее значение, которое вы хотите. Если вы хотите, чтобы наблюдаемое среднее значение обычно колебалось вокруг желаемого среднего, вы бы вернули начальную разницу обратно. По сути, это преобразование z-счета в обратном направлении. Поскольку это линейное преобразование, преобразованная переменная будет иметь ту же корреляцию с другой переменной, что и раньше. $0$

Опять же, это, в простейшей форме, позволяет только генерировать пару коррелированных переменных (это можно увеличить, но очень быстро), и, конечно, это не самый удобный способ выполнить работу. В R вы хотели бы использовать ? Mvrnorm в пакете MASS , потому что это проще и потому что вы можете генерировать много переменных с заданной матрицей корреляции населения. Тем не менее, я думаю, что стоит пройти этот процесс, чтобы увидеть, как некоторые базовые принципы реализуются простым способом.

— Gung - Восстановить Монику
источник

Этот по существу регрессионный подход особенно хорош тем, что позволяет генерировать один случайный Y, коррелированный с любым количеством существующих X «предикторов». Прав ли я в таком понимании?

— ttnphns

Это зависит от того, какой именно шаблон корреляций среди переменных вы хотите, @ttnphns. Вы можете повторять это один за другим, но это будет утомительно. Чтобы создать много коррелированных переменных с заданным шаблоном, лучше использовать разложение Холецкого.

— gung - Восстановить Монику

gung, знаете ли вы, как использовать Cholesky для генерации одного Y-коррелированного (приблизительно, как в вашем методе) в соответствии с вектором корреляций с несколькими существующими (не имитированными) Xs?

— ttnphns

@ttnphns, вы хотите сгенерировать один Y с заданной корреляцией популяции с набором X, а не с набором p переменных, которые все имеют заранее определенные корреляции популяции? Простым способом было бы написать уравнение регрессии, чтобы сгенерировать одну Y-шляпу из ваших X, а затем использовать метод выше, чтобы сгенерировать Y как коррелят вашей Y-шляпы. Вы можете задать новый вопрос об этом, если хотите.

— gung - Восстановить Монику

1

Вот что я имел в виду в своем первоначальном комментарии: этот метод будет прямым продолжением того, о чем вы говорите в своем ответе: по сути, это регрессионный (Hat) метод.

— ttnphns

16

В общем, это не простая вещь, но я считаю, что есть пакеты для многофакторной генерации нормальной переменной (по крайней мере, в R, см. mvrnormВ MASSпакете), где вы просто вводите ковариационную матрицу и средний вектор.

Есть и еще один «конструктивный» подход. Допустим, мы хотим смоделировать случайный вектор и у нас есть его функция распределения . Первый шаг - получить функцию предельного распределения; т.е. интегрировать по всем : $(X_1,X_2)$ $F(x_1,x_2)$ $F$ $x_2$ Затем мы находим - обратную функцию от - и включаем случайную величину которая равномерно распределена на интервале . На этом шаге мы создаем первую координату .

F_{{Икс}_{1}} ({Икс}_{1}) знак равно \int_{- \infty}^{\infty} F ({Икс}_{1}, {Икс}_{2}) d {Икс}_{2},

$F_{X_1}(x_1)= \int_{-\infty}^{\infty} F(x_1,x_2)dx_2.$

F_{X_{1}}^{- 1}

$F^{-1}_{X_1}$

F_{X_{1}}

$F_{X_1}$

ξ_{1}

$\xi_1$

[0, 1]

$[0,1]$

{\hat{x}}_{1} = F_{X_{1}}^{- 1} (ξ)

$\hat{x}_1=F^{-1}_{X_1}(\xi)$

Теперь, так как мы получили одну координату, необходимо подключить его к исходной функции распределения , а затем получить условную функцию распределения с условием : $F(x_1,x_2)$ $x_1=\hat{x}_1$ гдеявляется функцией плотности вероятности предельногораспределение; то есть.

F ({Икс}_{2} | {Икс}_{1} знак равно {\hat{Икс}}_{1}) знак равно \frac{F ({\hat{Икс}}_{1}, {Икс}_{2})}{е_{{Икс}_{1}} ({\hat{Икс}}_{1})},

$F(x_2 | X_1=\hat{x}_1)= \frac{F(\hat{x}_1,x_2)}{f_{X_1}(\hat{x}_1)},$

f_{X_{1}}

$f_{X_1}$

X_{1}

$X_1$

F_{X_{1}}^{'} (x_{1}) = f_{X_{1}} (x_{1})

$F'_{X_1}(x_1)=f_{X_1}(x_1)$

$\xi_2$ $[0,1]$ $\xi_1$ $F(x_2 | X_1=\hat{x}_1)$ $\hat{x}_2=(F(x_2 | X_1=\hat{x}_1))^{-1}(\xi)$ $\hat x_2$ $F(\hat x_2 | X_1=\hat{x}_1) = \xi$

Если вы не понимаете смысла включения равномерной переменной в функцию обратного распределения вероятностей, попробуйте сделать набросок одномерного случая и затем запомните, какова геометрическая интерпретация обратной функции.

— jem77bfp
источник

Умная идея! Имеет простую интуитивную привлекательность. Но да, кажется дорогим в вычислительном отношении.

— MichaelChirico,

f_{X, Y} (x, y) = f_{X} (x) \cdot f_{Y | X} (y)

$f_{X,Y}(x,y)=f_X(x)\cdot f_{Y|X}(y)$

1

Если вы готовы отказаться от эффективности, вы можете использовать одноразовый алгоритм. Его преимущество в том, что он допускает любые виды распределений (не только гауссовские).

$\{x_i\}_{i=1}^N$ $\{y_i\}_{i=1}^N$ $C$

$c_{old}=corr(\{x_i\},\{y_i\})$

$n_1$ $n_2: 1 \leq n_{1,2} \leq N$

$x_{n_1}$ $x_{n_2}$

$c_{new}=corr( \{x_i\},\{y_i\})$

$|C-c_{new}| < |C-c_{old}|$

$|C-c| < \epsilon$

${x_i}$

Удачи!

— Ф. Джатпил
источник

x_{i}

$x_i$

c o r r (x_{i}, y_{i})

$corr(x_i, y_i)$

x_{i}

$x_i$

{x_{i}}

$\{x_i\}$

y

$y$

c o r r (x_{i}, y_{i})

$corr(x_i,y_i)$

c o r r ({x_{i}}, {y_{i}}) = (1 / N) Σ_{i = 1}^{N} (x_{i} - \bar{x}) (y_{y} - \bar{y})

$corr(\{x_i\},\{y_i\}) = (1/N) \Sigma_{i=1}^{N}(x_i- \bar x)(y_y - \bar y)$

{}

$\{ \}$

c o r r ({x_{i}}, {y_{i}})

$corr(\{x_i\}, \{y_i\})$