Почему величина дисперсии, описанная моим первым компьютером, так близка к средней попарной корреляции?

9

Какова связь между первым основным компонентом (ами) и средней корреляцией в матрице корреляции?

Например, в эмпирическом приложении я наблюдаю, что средняя корреляция почти совпадает с отношением дисперсии первого главного компонента (первого собственного значения) к общей дисперсии (сумме всех собственных значений).

Есть математические отношения?

Ниже приведена таблица эмпирических результатов. Где корреляция - это средняя корреляция между доходностями компонента индекса акций DAX, рассчитанными за 15-дневное скользящее окно, а объясненная дисперсия - это доля отклонения, объясненного первым основным компонентом, также рассчитанным по 15-дневному скользящему окну.

Может ли это быть объяснено общей моделью фактора риска, такой как CAPM?

введите описание изображения здесь

— Студент
источник

1

Как вы думаете, что происходит, когда многие корреляции отрицательны или близки к нулю? Например, сгенерируйте некоторые двумерные нормальные данные с нулевой корреляцией. Почему вы ожидаете, что будет какая-то связь между вашим коэффициентом дисперсии и этой нулевой корреляцией?

— whuber

6

Я полагаю, что связь между средней корреляцией и собственным значением 1-го ПК существует, но не является уникальной. Я не математик, чтобы быть в состоянии вывести это, но я, по крайней мере, могу показать отправную точку, из которой может вырасти интуиция или мысль.

Если вы рисуете стандартизированные переменные в качестве векторов в евклидовом пространстве, которое их помещает (а это сокращенное пространство, где оси являются наблюдениями), корреляция - это косинус между двумя векторами .

введите описание изображения здесь

И поскольку все векторы имеют единичную длину (из-за стандартизации), косинусы являются проекциями векторов друг на друга (как показано на левом рисунке с тремя переменными). Первый ПК - это такая линия в этом пространстве, которая максимизирует сумму квадратов проекций на него, а , называемых нагрузками; и эта сумма является первым собственным значением.

Итак, когда вы устанавливаете связь между средним значением трех проекций слева и суммой (или средним значением) трех квадратов проекций справа, вы отвечаете на вопрос о соотношении между средней корреляцией и собственным значением.

— ttnphns
источник

6

$c$

$n\times n$

(\begin{matrix} 1 & c & c & c \\ c & 1 & c & c \\ c & c & 1 & c \\ c & c & c & 1 \end{matrix}) .

$\left(\begin{array}{}1&c&c&c\\c&1&c&c\\c&c&1&c\\c&c&c&1\end{array} \right).$

(1, 1, 1, 1)^{⊤} / \sqrt{n}

$(1,1,1,1)^\top/\sqrt{n}$

λ_{1} = 1 + (n - 1) c

$\lambda_1=1+(n-1)c$

\sum λ_{i} = n

$\sum \lambda_i=n$

R^{2} = \frac{1}{n} + \frac{n - 1}{n} c \approx c .

$R^2=\frac{1}{n}+\frac{n-1}{n}c \approx c.$

$n$

Я ожидаю, что для больших матриц этот результат будет примерно верным, даже если корреляции не совсем идентичны.

$n$ $n=(1-c)/(R^2-c)$ $c=0.5$ $R^2-c=0.02$ $n=25$ $30$

— амеба
источник