Достаточные и необходимые условия для нулевого собственного значения корреляционной матрицы


11

Для заданной случайной величины с распределением вероятности корреляционная матрица является положительной полуопределенной, т.е. ее собственные значения положительны или ноль.nXiP(X1,,Xn)Cij=E[XiXj]E[Xi]E[Xj]

Меня интересуют условия на , которые необходимы и / или достаточны для того, чтобы имело нулевых собственных значений. Например, достаточным условием является то, что случайные величины не являются независимыми: для некоторых действительных чисел . Например, если , то равно собственный вектор с нулевым собственным значением. Если у нас есть независимых линейных ограничений на этого типа, это будет означать нулевых собственных значений.PCmiuiXi=0uiP(X1,,Xn)=δ(X1X2)p(X2,,Xn)u=(1,1,0,,0)CmXim

Существует по крайней мере одна дополнительная (но тривиальная) возможность, когда для некоторого (то есть )), поскольку в этом case имеет столбец и строку нулей: . Поскольку это не очень интересно, я предполагаю, что распределение вероятностей не имеет такой формы.a P ( X 1 , , X n ) δ ( X a - E [ X a ] ) C i j C i a = C a i = 0 ,Xa=E[Xa]aP(X1,,Xn)δ(XaE[Xa])CijCia=Cai=0,i

Мой вопрос: являются ли линейные ограничения единственным способом вызвать нулевые собственные значения (если мы запрещаем приведенное выше тривиальное исключение), или могут ли нелинейные ограничения на случайные переменные также генерировать нулевые собственные значения ?C


1
По определению, коллекция векторов, включающая нулевой вектор, является линейно зависимой, поэтому ваша дополнительная возможность не является чем-то новым или отличным. Не могли бы вы объяснить , что вы имеете в виду « имеющие собственных»? Это похоже на какую-то опечатку. m
whuber

@ Whuber: да, опечатка. Исправлено. Я думаю, что эти два условия различны: одно касается отношения между переменными, а другое - о вероятности единственной переменной (а именно, ). p(Xa)=δ(XaE(Xa))
Адам

Формулировка вашего вопроса сбивает с толку. Это похоже на элементарную теорему линейной алгебры, но ссылки на «независимые» случайные величины предполагают, что это может быть что-то совсем другое. Правильно ли понимать, что каждый раз, когда вы используете «независимый», вы имеете в виду линейную независимость, а не смысл (статистически) независимых случайных величин? Ваша ссылка на «отсутствующие данные» еще больше сбивает с толку, поскольку предполагает, что ваши «случайные переменные» могут действительно означать только столбцы матрицы данных. Было бы хорошо, чтобы эти значения прояснились.
whuber

@whuber: я редактировал вопрос. Надеюсь, это понятнее.
Адам

Условие независимости не обязательно должно быть нулем (подойдет любая константа), если только среднее значение каждого равно нулю. iuiXi=0Xi
Секст Эмпирик

Ответы:


6

Возможно, упрощая обозначения, мы сможем выявить основные идеи. Оказывается, нам не нужно включать ожидания или сложные формулы, потому что все чисто алгебраически.


Алгебраическая природа математических объектов

Вопрос касается отношений между (1) ковариационной матрицей конечного набора случайных величин и (2) линейными отношениями между этими переменными, рассматриваемыми каквекторы.X1,,Xn

Векторное пространство , о котором идет речь множество всех конечно-дисперсия случайных величин (в любом вероятностном пространстве (Ω,P) ) по модулю подпространства почти наверняка постоянных переменных, обозначит L2(Ω,P)/R. (То есть мы рассматриваем две случайные величины X и V X i ,Y одним и тем же вектором, когда существует нулевая вероятность того, что отличается от ожидаемого.) Мы имеем дело только с конечномерным векторным пространством порожденнымXYVXi, что делает эту проблему алгебраической, а не аналитической.

Что нам нужно знать о дисперсиях

больше, чем просто векторное пространство: этоквадратичный модуль,потому что он снабжен дисперсией. Все, что нам нужно знать о дисперсиях, это две вещи:V

  1. Дисперсия является скалярной функцией со свойством Q ( Х ) = а 2 Q ( X ) для всех векторов X .QQ(aX)=a2Q(X)X.

  2. Дисперсия невырожденная.

Второе требует некоторого объяснения. определяет «точечное произведение», которое представляет собой симметричную билинейную форму, заданнуюQ

XY=14(Q(X+Y)Q(XY)).

(Это, конечно , ничего, кроме ковариации переменных и Y . ) Векторы X и Y являются ортогональными , если их скалярное произведение равно 0. ортогональное дополнение любого множества векторов V состоит из всех векторов , ортогональных к каждому элементу из А , написаноXY.XY0.AVA,

A0={vVa.v=0 for all vV}.

Это явно векторное пространство. Если , Q является невырожденной.V0={0}Q

Позвольте мне доказать, что дисперсия действительно невырождена, хотя может показаться очевидной. Предположим, что ненулевой элемент из V 0 . Это означает, что X Y = 0 для всех Y V ; что то же самое,XV0.XY=0YV;

Q(X+Y)=Q(XY)

для всех векторов Взятие Y = X даетY.Y=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

и, таким образом, Однако мы знаем (возможно, используя неравенство Чебышева), что единственные случайные переменные с нулевой дисперсией почти наверняка постоянны, что отождествляет их с нулевым вектором в V , QED.Q(X)=0.V,

Интерпретация вопросов

Возвращаясь к вопросам, в предыдущих обозначениях ковариационная матрица случайных величин является просто регулярным массивом всех их точечных произведений,

T=(XiXj).

Есть хороший способ думать о : он определяет линейное преобразование на R n обычным способом, посылая любой вектор x = ( x 1 , , x n ) R n в вектор T ( x ) = y = ( y 1 , , x n ) , i- й компонент которого определяется правилом умножения матрицTRnx=(x1,,xn)RnT(x)=y=(y1,,xn)ith

yi=j=1n(XiXj)xj.

Ядро этого линейного преобразования является подпространством он посылает к нулю:

Ker(T)={xRnT(x)=0}.

Из вышеприведенного уравнения следует, что когда для каждого ixKer(T),i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

Поскольку это верно для каждого оно справедливо для всех векторов, охватываемых X i, а именно для самого V. Следовательно, когда x Ker ( T ) , вектор, заданный j x j X j, лежит в V 0 . Поскольку дисперсия невырожденная, это означает Σ J х J X J = 0. То есть,i,XiVxKer(T),jxjXjV0.jxjXj=0. описывает линейную зависимость между п исходных случайных величин.xn

Вы можете легко проверить, что эта цепочка рассуждений обратима:

Линейные зависимости между как векторамиИксJ находятся во взаимно однозначное соответствие с элементами ядра T,

(Помните, что это утверждение все еще рассматривает как определенное с точностью до постоянного сдвига в местоположении, то есть как элементы L 2 ( Ω , P ) / R, а не просто как случайные переменные.)ИксJL2(Ω,п)/р

Наконец, по определению, собственное значение из является любым скалярным λ , для которых существует ненулевой вектор х с Т ( х ) = λ х . При λ = 0 является собственным значением, пространство собственных векторов , ассоциированных (очевидно) ядро Т .TλИксT(Икс)знак равноλИкс,λзнак равно0T,


Резюме

Мы пришли к ответу на вопросы: множество линейных зависимостей случайных величин, равных элементам однозначно соответствует ядру их ковариационной матрицыL2(Ω,P)/R, Это так, потому что дисперсия является невырожденной квадратичной формой. Ядро также является собственным пространством, связанным с нулевым собственным значением (или просто нулевым подпространством, когда нет нулевого собственного значения).T.


Ссылка

Я в основном принял обозначения и некоторые формулировки главы IV в

Жан-Пьер Серр, Курс арифметики. Springer-Verlag 1973.


Вау, это здорово! Просто вопрос, чтобы убедиться, что я все понимаю: когда вы пишете « как векторы», вы не имеете в виду сбор случайных величин в векторе (то есть X = ( X 1 , , X n ) ), или вы ? Если я прав, я предполагаю, что вы собираете возможные значения случайной величины X i в вектор, а распределение вероятностей скрыто в определении дисперсии, верно? XjX=(X1,,Xn)Xi
Адам

Я думаю, что основным аспектом, который не совсем ясен, является следующее (что может просто показать мое отсутствие формального знания теории вероятностей): вы, кажется, показываете, что если существует собственное значение 0, то мы имеем, например, . Это ограничение не относится к распределению вероятности P , которое скрыто в Q (я думаю, что это умный момент в этой демонстрации). Но что это значит иметь X 1 = X 2 без ссылки на P ? Или это просто означает, что P δ ( X 1 - X 2 )X1=X2PQX1=X2PPδ(X1X2), но тогда откуда мы знаем, что это должна быть линейная комбинация и X 2 в дельта-функцииX1X2 ?
Адам

Боюсь, я не понимаю, как вы используете «дельта-функцию» в этом контексте, Адам. Это отчасти потому, что я не вижу в этом необходимости, а отчасти потому, что обозначения неоднозначны: например, дельта Кронекера или дельта Дирака?
whuber

Это будет Кронекер или Дирак в зависимости от переменных (дискретных или непрерывных). Эти дельты могут быть частью меры интегрирования, например, я интегрирую по 2 на 2 матрицы (таким образом, четыре действительные переменные X 1 , X 2 , X 3 и X 4 , с некоторым весом (скажем, P = exp ( - t r ( М . М Т ) ) ), или я проинтегрировать подгруппу. Если это симметричные матрицы (подразумевая, например , Х 2 = Х 3MX1X2X3X4P=exp(tr(M.MT))X2=X3), Я могу формально навязать это, умножив на δ ( X 1 - X 2 ) . Это было бы линейным ограничением. Пример нелинейного ограничения приведен в комментариях под ответом Мартина Ветеринга. Pδ(X1X2)
Адам

(продолжение) Вопрос в том, что может из нелинейных ограничений, которые я могу добавить к своим переменным, может вызвать 0 собственных значений. Судя по вашим ответам, это выглядит так: только нелинейное ограничение, подразумевающее линейное ограничение (как показано в комментариях под ответом Мартина Ветеринга). Может быть, проблема в том, что мой взгляд на проблему с точки зрения физика, и я изо всех сил пытаюсь объяснить это на другом языке (я думаю, что это правильное место, чтобы задать этот вопрос, а не физика. SE).
Адам

5

Линейная независимость не только достаточна, но и является необходимым условием

Чтобы показать, что матрица дисперсии-ковариации имеет собственные значения, равные нулю, тогда и только тогда, когда переменные не являются линейно независимыми, остается только показать, что «если матрица имеет собственные значения, равные нулю, то переменные не являются линейно независимыми».

Если у вас есть нулевое собственное значение для то существует некоторая линейная комбинация (определенная собственным вектором v )Cij=Cov(Xi,Xj)v

Y=i=1nvi(Xi)

такой, что

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

это означает, что должен быть константой и, следовательно, переменные X у меня естьYXi складываться в константу и либо сами являются константами (тривиальный случай), либо не являются линейно независимыми.

- первая строка в уравнении с обусловлена ​​свойством ковариации Cov ( a U + b V , c W + d X ) = aCov(Y,Y)

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

- шаг от второй до третьей строки обусловлен свойством нулевого собственного значения

j=1nvjCij=0


Нелинейные ограничения

Итак, поскольку линейные ограничения являются необходимыми условием (а не только достаточным), нелинейные ограничения будут актуальны только тогда, когда они косвенно подразумевают (необходимое) линейное ограничение.

Фактически существует прямое соответствие между собственными векторами, связанными с нулевым собственным значением, и линейными ограничениями.

Cv=0Y=i=1nviXi=const

Таким образом, нелинейные ограничения, приводящие к нулевому собственному значению, должны в совокупности генерировать некоторое линейное ограничение.


Как нелинейные ограничения могут привести к линейным ограничениям

Ваш пример в комментариях может интуитивно показать, как нелинейные ограничения могут привести к линейным ограничениям путем обращения к производной. Следующие нелинейные ограничения

a2+b2=1c2+d2=1ac+bd=0adbc=1

может быть уменьшен до

a2+b2=1c2+d2=1ad=0b+c=0

Вы можете изменить это. Скажем, у вас есть нелинейные плюс линейные ограничения, тогда не странно представить, как мы можем заменить одно из линейных ограничений нелинейным, заполнив линейные ограничения нелинейными ограничениями. Например, когда мы подставляем и b = - c в нелинейную форму a 2 + b 2 = 1, тогда вы можете установить другое соотношение a d - b c = 1 . И когда вы умножаете a = d и c = -a=db=ca2+b2=1adbc=1a=dc=bто вы получите .ac=bd


Я предполагаю, что это (и ответ whuber) является косвенным ответом на мой вопрос (который был: «является ли линейная зависимость единственным способом получить нулевое собственное значение») следующим образом: даже если зависимость между случайными переменными не является линейный, он всегда может быть переписан как линейная зависимость, просто написав . Хотя я действительно искал способ охарактеризовать сами возможные нелинейные ограничения, я думаю, что это, тем не менее, полезный результат. Y=iνiXi
Адам

Да, я знаю ... что я говорю, что если есть нелинейная зависимость и существует нулевое собственное значение, то, по вашему ответу, это означает, что нелинейная зависимость может быть "учтена" каким-то образом в линейную зависимость. Это более слабая версия того, что я искал, но все же кое-что.
Адам

Вы приводите пример, который не работает, но это не значит, что этого не может быть ...
Адам,

Вот контрпример к тому, что вы говорите (если вы думаете, что это не так, то это может помочь нам найти, что не так с моей формулировкой задачи :)): Возьмите случайную матрицу 2 на 2 с нелинейное ограничение М . М т = 1 и дет М = 1 . Эти 3 нелинейных ограничения могут быть переписаны в терминах 2 линейных ограничений и одного линейного: это означает, что ковариационная матрица имеет два собственных вектора. Снимите ограничение det M = 1 , и они исчезнут. MM.MT=1detM=1detM=1
Адам

, М 12 = Х 2 , М 21 = Х 3 и М 22 = Х 4 . Ограничения: X 2 1 + X 2 2 = 1 , X 2 3 + X 2 4 = 1 , X 1 X 3 + X 2 X 4 = 0M11=X1M12=X2M21=X3M22=X4X12+X22=1X32+X42=1X1X3+X2X4=0(только два являются независимыми). Они не подразумевают нулевого собственного значения. Однако добавление подразумевает два собственных вектора с 0 собственными значениями. X1X4X2X3=1
Адам

2

Предположим, что имеет собственный вектор v с соответствующим собственным значением 0 , тогда var ( v T X ) = v T C v = 0 . Таким образом, по неравенству Чебышева v T X почти наверняка постоянна и равна v T E [ X ] . То есть каждому нулевому собственному значению соответствует линейное ограничение, а именно: v T X = v T E [ X ]Cv0var(vTX)=vTCv=0vTXvTE[X]vTX=vTE[X], Нет необходимости рассматривать какие-либо особые случаи.

Таким образом, мы заключаем:

«Являются ли линейные ограничения единственным способом вызвать нулевые собственные значения [?]»

Да.

«Могут ли нелинейные ограничения на случайные величины также генерировать нулевые собственные значения C?»

Да, если они подразумевают линейные ограничения.


Согласен. Я надеялся, что можно было бы более конкретно определить тип нелинейных ограничений, но я думаю, что трудно добиться большего успеха, если мы не укажем ограничения.
Адам

2

CXC=QΛQTΛ.Λ=QTCQQTXX


QTCQ=cov(QTX)
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.