Разложение Холецкого против собственного для рисования образцов из многомерного нормального распределения

16

Я хотел бы нарисовать образец $\mathbf{x} \sim N\left(\mathbf{0}, \mathbf{\Sigma} \right)$ . Википедия предлагает использовать либо разложение Холецкого, либо Собственное , то есть или $\mathbf{\Sigma} = \mathbf{D}_1\mathbf{D}_1^T$ $\mathbf{\Sigma} = \mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^T$

И, следовательно, образец может быть получен через: или где $\mathbf{x} = \mathbf{D}_1 \mathbf{v}$ $\mathbf{x} = \mathbf{Q}\sqrt{\mathbf{\Lambda}} \mathbf{v}$ $\mathbf{v} \sim N\left(\mathbf{0}, \mathbf{I} \right)$

Википедия предполагает, что они оба одинаково хороши для генерации выборок, но метод Холецкого имеет меньшее время вычислений. Это правда? Особенно численно при использовании метода Монте-Карло, где отклонения по диагонали могут отличаться на несколько порядков? Есть ли формальный анализ по этой проблеме?

— Damien
источник

1

Дэмиен, лучший рецепт, чтобы убедиться в том, какая программа быстрее, это проверить ее самостоятельно в своем программном обеспечении: функции разложения Холески и Эйгена могут различаться по скорости в разных реализациях. Путь Холецкого более популярен, AFAIK, но собственный путь может быть потенциально более гибким.

— ttnphns

1

Я понимаю , Cholesky быть быстрее

O (N^{3} / 3)

$O(N^3/3)$ ( Википедия ) , тогда как eigendecomposition является

O (N^{3})

$O(N^3)$ ( Jacobi собственных значений Алгоритм Однако, у меня есть еще две проблемы:.? (1) Что делает "потенциально более гибким" средним и (2) Различия отличаются на несколько порядков (

10^{- 4}

$10^{-4}$ против

10^{- 9}

$10^{-9}$ для самых экстремальных элементов) - имеет ли это отношение к выбранному алгоритму?

— Дэмиен

@Damien Одним из аспектов «более гибкого» является то, что собственное разложение, которое для ковариационной матрицы соответствует SVD , может быть усечено для получения оптимального аппроксимации низкого ранга полной матрицы. Усеченный SVD может быть вычислен напрямую, вместо того, чтобы вычислять всю вещь, а затем выбрасывать небольшие собственные значения.

— GeoMatt22

Как насчет прочтения моего ответа в Stack Overflow: получить вершины эллипса на графике ковариации эллипса (созданного car::ellipse) . Хотя вопрос задается в разных приложениях, теория остается той же. Там вы увидите красивые фигуры для геометрического объяснения.

— 李哲源

12

Проблема была изучена с помощью Straka et.al для фильтра Калмана без запаха , который рисует (детерминированные) образцы из многомерного нормального распределения , как часть алгоритма. Если повезет, результаты могут быть применимы к проблеме Монте-Карло.

Разложение Холецкого (CD) и Собственное разложение (ED) - и в этом отношении фактический корень квадратной матрицы (MSR) - это все способы, в которых положительная полуопределенная матрица (PSD) может быть разбита.

$P = USV^T$ $P = USU^T$ $P = U\sqrt{S}\sqrt{S}^TU^T$ $\sqrt{S} = \sqrt{S}^T$

$O$

$P = U\sqrt{S}OO^T\sqrt{S}^TU^T = (U\sqrt{S}O)(U\sqrt{S}O)^T$

$O$

$O = I$
$O = Q$ $U\sqrt{S} = QR$
$O = U^T$

Из которого после большого анализа (цитирования) в статье были сделаны следующие выводы:

Для преобразуемой случайной величины с некоррелированными элементами все три рассматриваемых MD обеспечивают идентичные сигма-точки и, следовательно, они практически не влияют на качество аппроксимации [Unscented Transform]. В таком случае CD может быть предпочтительным из-за его низкой стоимости.

Если случайная переменная содержит коррелированные элементы, использование различных [разложений] может существенно повлиять на качество аппроксимации [несцентированного преобразования] среднего значения или ковариационной матрицы преобразованной случайной величины. Два вышеупомянутых случая показали, что [ED] должен быть предпочтительным.

Если элементы переменной, подлежащей преобразованию, демонстрируют сильную корреляцию, так что соответствующая ковариационная матрица является почти сингулярной, необходимо принять во внимание еще одну проблему, а именно числовую устойчивость алгоритма, вычисляющего MD. SVD гораздо более численно устойчив для почти сингулярных ковариационных матриц, чем ChD.

Ссылка:

Straka, O .; Дуник, Дж .; Симандл М. и Хавлик Дж. «Аспекты и сравнение матричных разложений в бесценовом фильтре Калмана», American Control Conference (ACC), 2013, 2013, 3075-3080.

— Damien
источник

6

Вот простая иллюстрация использования R для сравнения времени вычисления двух методов.

library(mvtnorm)
library(clusterGeneration)
set.seed(1234)
mean <- rnorm(1000, 0, 1)
sigma <- genPositiveDefMat(1000)
sigma <- sigma$Sigma

eigen.time <- system.time(
  rmvnorm(n=1000, mean=mean, sigma = sigma, method = "eigen")
  )

chol.time <- system.time(
  rmvnorm(n=1000, mean=mean, sigma = sigma, method = "chol")
  )

Время работы

> eigen.time
   user  system elapsed 
   5.16    0.06    5.33 
> chol.time
   user  system elapsed 
   1.74    0.15    1.90

При увеличении размера выборки до 10000, время выполнения

> eigen.time <- system.time(
+   rmvnorm(n=10000, mean=mean, sigma = sigma, method = "eigen")
+   )
> 
> chol.time <- system.time(
+   rmvnorm(n=10000, mean=mean, sigma = sigma, method = "chol")
+   )
> eigen.time
   user  system elapsed 
   15.74    0.28   16.19 
> chol.time
   user  system elapsed 
   11.61    0.19   11.89

Надеюсь это поможет.

— Аарон Зенг
источник

3

Вот руководство, или демонстрация «Докажи сам себе» для бедняков:

> set.seed(0)
> # The correlation matrix
> corr_matrix = matrix(cbind(1, .80, .2, .80, 1, .7, .2, .7, 1), nrow=3)
> nvar = 3 # Three columns of correlated data points
> nobs = 1e6 # One million observations for each column
> std_norm = matrix(rnorm(nvar * nobs),nrow=nobs, ncol=nvar) # N(0,1)

Корр знак равно [\begin{matrix} 1 & +0,8 & 0,2 \\ +0,8 & 1 & +0,7 \\ 0,2 & +0,7 & 1 \end{matrix}]

$\text{Corr}=\small \begin{bmatrix} 1 & .8 & .2\\ .8& 1 & .7 \\ .2&.7&1 \end{bmatrix}$

N знак равно [\begin{matrix} [, 1] & [, 2] & [, 3] \\ [1,] & - 1.0806338 & 0.6563913 & 0.8400443 \\ [2,] & - 1.1434241 & - 0.1729738 & - 0.9884772 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ ⋮ & ⋮ & ⋮ & ⋮ \\ [999999,] & 0.4861827 & 0.03563006 & - 2.1176976 \\ [1000000,] & - 0.4394551 & 1.69265517 & - 1.9534729 \end{matrix}]

$\text{N}=\tiny \begin{bmatrix} & [,1] & [,2] & [,3] \\ [1,] & -1.0806338 & 0.6563913 & 0.8400443 \\ [2,] & -1.1434241 & -0.1729738 & -0.9884772 \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ [999999,] & 0.4861827 & 0.03563006 & -2.1176976 \\ [1000000,] & -0.4394551 & 1.69265517 & -1.9534729\\ \end{bmatrix}$

1. СВД МЕТОД:

{[\underset{[3 \times 3]}{U} \underset{[\begin{matrix} \sqrt{d_{1}} & 0 & 0 \\ 0 & \sqrt{d_{2}} & 0 \\ 0 & 0 & \sqrt{d_{3}} \end{matrix}]}{Σ^{0,5}} \underset{[3 \times 10^{6}]}{N^{T}}]}^{T}

$\left[ \bf \underset{[3 \times 3]}{\color{blue}{\Large\,U}}\,\,\,\,\,\underset{\tiny \begin{bmatrix}\sqrt{d_1}&0&0\\0&\sqrt{d_2}&0\\0&0&\sqrt{d_3}\end{bmatrix}}{\Large\color{blue}{\Sigma^{0.5}}} \, \underset{[3\times 10^6]}{\Large\color{blue}{N^T}} \right]^T$

> ptm <- proc.time()
> # Singular Value Decomposition method:
> svd = svd(corr_matrix)   
> rand_data_svd = t(svd$u %*% (diag(3) * sqrt(svd$d)) %*% t(std_norm))
> proc.time() - ptm
   user  system elapsed 
   0.29    0.05    0.34 
> 
> ptm <- proc.time()

2. ЧОЛЕСКИЙ МЕТОД:

{[\underset{[\begin{matrix} с_{11} & 0 & 0 \\ с_{21} & с_{22} & 0 \\ с_{+31} & с_{32} & с_{33} \end{matrix}]}{Ch} \underset{[3 \times 10^{6}]}{N^{T}}]}^{T}

$\bf \left[ \underset{\begin{bmatrix}c_{11}&0&0\\c_{21}&c_{22}&0\\c_{31}&c_{32}&c_{33}\end{bmatrix}}{\Large\color{blue}{\text{Ch}}}\,\,\underset{[3\times 10^6]}{\Large\color{blue}{N^T}} \right]^T$

> # Cholesky method:
> chole = t(chol(corr_matrix))
> rand_data_chole = t(chole %*% t(std_norm))
> proc.time() - ptm
   user  system elapsed 
   0.25    0.03    0.31

Спасибо @ userr11852 за указание на то, что есть лучший способ вычислить разницу в производительности между SVD и Cholesky, в пользу последнего, используя функцию microbenchmark. По его предложению, вот результат:

microbenchmark(chol(corr_matrix), svd(corr_matrix))
Unit: microseconds
              expr     min     lq      mean  median      uq     max neval cld
 chol(corr_matrix)  24.104  25.05  28.74036  25.995  26.467  95.469   100  a 
  svd(corr_matrix) 108.701 110.12 116.27794 111.065 112.719 223.074   100   b

— Антони Пареллада
источник

@ user11852 Спасибо. Я внимательно читаю запись, microbenchmarkи это действительно имеет значение.

— Антони Пареллада

Конечно, но есть ли разница в оценке производительности?

— Дэмиен

Хорошая точка зрения. У меня не было времени изучить пакет.

— Антони Пареллада