Почему след


13

В модели y=Xβ+ϵ мы могли бы оценить β используя нормальное уравнение:

β^=(XX)1Xy,
и мы могли бы получить у =X & beta .
y^=Xβ^.

Вектор невязок оценивается как

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ,

где

Q=IX(XX)1X.

Мой вопрос заключается в том, как получить вывод

tr(Q)=np.

Ответы:


12

Заключение просто считает размеры векторных пространств. Однако это не совсем так.

Самые основные свойства матричного умножения показывают , что линейное преобразование представлено матрицей удовлетворяетH=X(XX)X

H2=(X(XX)X)2=X(XX)(XX)(XX)X=H,

выставляя его в качестве оператора проекции . Поэтому его дополнение

Q=1H

(как указано в вопросе) также является оператором проекции. След - это его ранг h (см. Ниже), откуда след Q равен n - h .HhQnh

Из самой формулы ясно, что является матрицей, связанной с композицией двух линейных преобразований J = ( X ' X ) - X ' и самого X. Первый ( J ) переводит п - вектор у в р -векторных р . Второй ( Х ) представляет собой преобразование из R р к R п определяется у = Х βH

J=(XX)X
XJnypβ^XRpRny^=Xβ^, Его ранг не может превышать меньшее из этих двух измерений, которое в настройке наименьших квадратов всегда равно (но может быть меньше p , если J не имеет полного ранга). Следовательно , ранг композиции Н = Х J не может превышать ранг X . Правильный вывод , то естьppJH=XJX

тогда и только тогда, когда J имеет полный ранг; и вообще n tr ( Q ) n - p . В первом случае модель называется «идентифицируемой» (для коэффициентов β ).tr(Q)=npJntr(Q)npβ

будет иметь полный ранг тогда и только тогда, когда X X обратим.JXX


Геометрическая интерпретация

представляет ортогональную проекцию из n -векторов y (представляющих «отклик» или «зависимую переменную») на пространство, охватываемое столбцами X (представляющие «независимые переменные» или «ковариаты»). Разница Q = 1 - H показывает, как разложить любой n- вектор y на сумму векторов y = H ( y ) + Q ( y ) , где первое можно «предсказать» из X, а второе перпендикулярно ему. , Когда рHnyXQ=1Hny

y=H(y)+Q(y),
Xpстолбцы генерируют p- мерное пространство (то есть не являются коллинеарными), ранг H - это p, а ранг Q - это n - p , что отражает n - p дополнительных измерений вариации в отклике, которые не представлены в пределах независимых переменных. След дает алгебраическую формулу для этих измерений.XpHpQnpnp

Линейная алгебра Фон

Оператор проекции на векторном пространстве (например, R п ) представляет собой линейное преобразование Р : V V (то есть, эндоморфизм из V ) таким образом, что Р 2 = Р . Это делает его дополнение Q = 1 - P оператором проекции тоже, потому чтоVRnP:VVVP2=PQ=1P

Q2=(1P)2=12P+P2=12P+P=Q.

Все проекции фиксируют каждый элемент своих изображений, потому что всякий раз, когда мы можем записать v = P ( w ) для некоторого w V , откуда w = P ( v ) = P 2 ( v ) = P ( P ( v ) ) = P ( w ) .vIm(P)v=P(w)wV

w=P(v)=P2(v)=P(P(v))=P(w).

Associated with any endomorphism P of V are two subspaces: its kernel

ker(P)={vv|P(v)=0}
and its image
Im(P)={vv|wVP(w)=v}.
Every vector vV can be written in the form
v=w+u
where wIm(P) and uKer(P). We may therefore construct a basis EF for V for which EKer(P) and FIm(P). When V is finite-dimensional, the matrix of P in this basis will therefore be in block-diagonal form, with one block (corresponding to the action of P on E) all zeros and the other (corresponding to the action of P on F) equal to the f by f identity matrix, where the dimension of F is f. The trace of P is the sum of the values on the diagonal and therefore must equal f×1=f. This number is the rank of P: the dimension of its image.

The trace of 1P equals the trace of 1 (equal to n, the dimension of V) minus the trace of P.

These results may be summarized with the assertion that the trace of a projection equals its rank.


Thanks very much. I learned a lot extended knowledge from your answer.
zhushun0008

19

@Dougal has already given an answer, but here is another one, a bit simpler.

First, let's use the fact that tr(AB)=tr(A)tr(B). So, we get:

tr(Q)=tr(I)tr(X(XX)1X).
Now I is an n×n identity matrix, so tr(I)=n. Now let's use the fact that tr(AB)=tr(BA), that is, the trace is invariant under cyclic permutations. So, we have:
tr(Q)=ntr((XX)1(XX)).
When we multiply (XX)1 with (XX), we get a p×p identity matrix, whose trace is p. So, we get:
tr(Q)=np.

6

Assume that np and that X is full-rank.

Consider the compact singular value decomposition X=UΣVT, where ΣRp×p is diagonal and URn×p,VRp×p have UTU=VTV=VVT=Ip (but note UUT is rank at most p so it cannot be In). Then

X(XTX)1XT=UΣVT(VΣUTUΣVT)1VΣUT=UΣVT(VΣ2VT)1VΣUT=UΣVTVΣ2VTVΣUT=UUT.

Now, there exists a matrix U2Rn×np such that Un=[UU2] is unitary. We can write

IX(XTX)1XT=UnUnTUUT=Un(In[Ip000])UnT=Un[000Inp]UnT.
This form shows that Q is positive semidefinite, and since it is a valid svd and the singular values are the square of the eigenvalues for a square symmetric matrix, also tells us that Q has eigenvalues 1 (of multiplicity np) and 0 (of multiplicity p). Thus the trace of Q is np.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.