Интуиция / интерпретация распределения собственных значений корреляционной матрицы?

13

Какова ваша интуиция / интерпретация распределения собственных значений матрицы корреляции? Я склонен слышать, что обычно 3 самых больших собственных значения являются наиболее важными, в то время как близкие к нулю значения являются шумом. Кроме того, я видел несколько научных работ, исследующих, как естественные распределения собственных значений отличаются от вычисленных из матриц случайной корреляции (опять же, различая шум от сигнала).

Пожалуйста, не стесняйтесь уточнять ваши идеи.

distributions correlation

— Eduardas
источник

Имеете ли вы в виду какое-либо конкретное приложение, то есть вы ищете общие советы о том, сколько электромобилей нам нужно рассмотреть отдельно от какого-либо приложения (т. Е. С чисто математической стороны) или оно должно применяться к конкретному контексту (например, факторный анализ, Спс и тп)?

— ЧЛ

Меня больше интересует математическая сторона, то есть собственные значения как свойство данных, лежащих в основе корреляционной матрицы. Если имеет смысл обсуждать это с точки зрения конкретного контекста, не стесняйтесь делать это тоже.

— Эдуардас

4

Я склонен слышать, что обычно 3 самых больших собственных значения являются самыми важными, в то время как те, которые близки к нулю, являются шумом

Вы можете проверить это. См. Статью в этом посте для более подробной информации. Опять же, если вы работаете с финансовыми временными рядами, вы можете сначала поправить лептокуртичность (то есть рассмотреть серию скорректированных по гархам доходов, а не необработанные доходы).

Я видел несколько научных работ, исследующих, как естественные распределения собственных значений отличаются от вычисленных по матрицам случайной корреляции (опять же, отличая шум от сигнала).

Эдвард:> Обычно можно было бы сделать это по-другому: посмотрите на многовариантное распределение собственных значений (матриц корреляции), поступающих из приложения, которое вы хотите. После того, как вы определили заслуживающего доверия кандидата на распределение собственных значений, их будет довольно легко получить из них.

Наилучшая процедура определения многомерного распределения ваших собственных значений зависит от того, сколько активов вы хотите учесть одновременно (т.е. каковы размеры вашей корреляционной матрицы). Есть хитрый трюк, если ( - количество активов). $p\leq 10$ $p$

Редактировать (комментарии Шаббычефа)

четырехступенчатая процедура:

Предположим, у вас есть подвыборки многомерных данных. Вам нужен оценщик дисперсионно-ковариационной матрицы для каждого подвыборки (вы можете использовать классический оценщик или надежную альтернативу, такую как быстрый MCD , которая хорошо реализована в matlab, SAS, S, Р,...). Как обычно, если вы работаете с финансовыми временными рядами, вам следует рассмотреть ряд скорректированных по Garch, а не необработанных доходов. $j=1,...,J$ $\tilde{C}_j$ $j$
Для каждого образца к югу , вычисляют , ..., , собственные значения из . $j$ $\tilde{\Lambda}_j=$ $\log(\tilde{\lambda}_1^j)$ $\log(\tilde{\lambda}_p^j)$ $\tilde{C}_j$
Вычислить , выпуклую оболочку матрицы , j-й элемент которой равен (опять же, это хорошо реализовано в Matlab, R, ...) , $CV(\tilde{\Lambda})$ $J \times p$ $\tilde{\Lambda}_j$
Нарисуйте точки случайным образом изнутри (это делается путем присвоения веса каждому где , где - это ничья из экспоненциального распределения единиц (более подробно здесь ). $CV(\tilde{\Lambda})$ $w_i$ $CV(\tilde{\Lambda})$ $w_i=\frac{\gamma_i}{\sum_{i=1}^{p}\gamma_i}$ $\gamma_i$

Ограничение состоит в том, что быстрое вычисление выпуклой оболочки ряда точек становится чрезвычайно медленным, когда число измерений больше 10. $J\geq2$

— user603
источник

1

Мне любопытно: что за хитрость?

— Шаббычеф

Вы имеете в виду собственные векторы из в 3? не ценности ?

\tilde{C}

$\tilde{C}$

— Шаббычеф

нет. - это скаляр

λ_{1}

$\lambda_1$

— user603 21.09.10

Это очень странная процедура; это было где-то опубликовано?

— Шаббычеф

@Shabbychev:> нет, но у меня была возможность поработать над связанной проблемой (только не связанной с временным рядом) некоторое время назад (та же проблема, что и у этой stats.stackexchange.com/questions/2572/… )

— user603

11

Собственные значения дают величины основных составляющих разброса данных.

_{(источник: yaroslavvb.com )}
Первый набор данных был сгенерирован из гауссиана с ковариационной матрицей второй набор данных - это первый набор данных, повернутый $\left(\matrix{3&0\\\\0&1}\right)$ $\pi/4$

— Ярослав Булатов
источник

2

Один способ, которым я изучал эту проблему в прошлом, состоит в том, чтобы построить «собственные портфели» матрицы корреляции. То есть возьмите собственный вектор, связанный с м наибольшим собственным значением матрицы корреляции, и масштабируйте его до валового рычага 1 (т.е. сделайте абсолютную сумму вектора равной единице). Затем посмотрите, сможете ли вы найти какую-либо реальную физическую или финансовую связь между акциями, которые широко представлены в портфеле. $k$

Обычно первое собственное портфолио почти равнозначно взвешено в каждом имени, то есть «рыночном» портфеле, состоящем из всех активов с равными долларовыми весами. Второй eigenportfolio может иметь некоторое семантическое значение, в зависимости от того, какой промежуток времени вы смотрите через: например , в основном , запасы энергии, или акции банков и т.д. По моему опыту, вы будете в затруднении , чтобы сделать любую историю из пятого eigenportfolio или запредельного, и это зависит от выбора части вселенной и рассматриваемого периода времени. Это просто прекрасно, потому что обычно пятое собственное значение или около того не слишком далеко за пределами, наложенных распределением Марченко-Пастура.

— shabbychef
источник

1

Каждое значение ваших переменных определяет точку в мерном пространстве. Это облако точек часто напоминает эллипсоид (если это не так, то вы не должны рассматривать переменные как линейно связанные, и корреляция не имеет большого значения). Оси эллипсоида соответствуют собственным векторам корреляционной матрицы, а их «сила» - их собственным значениям. Доказательство можно найти в любом учебнике по анализу временных рядов, который охватывает анализ главных компонентов. Слабая интуиция о том, почему PCA или другие методы, основанные на собственных значениях, имеют значение, состоит в том, что у вас есть какой-то процесс, имеющий некоторые «основные» причины, а остальное - «шум». $N$ $N$

— Вили
источник