Это интересный вопрос. Удивительно, но при определенных допущениях можно что-то сделать, но существует потенциальная потеря информации об остаточной дисперсии. Зависит отX сколько потеряно.
Рассмотрим следующее разложение по сингулярным значениям из X с U п × р матрица с ортонормированных столбцов, D диагональная матрица с положительными значениями сингулярных d 1 ≥ d 2 ≥ . , , ≥ d p > 0 в диагонали и V a p × p в ортогональной матрице. Тогда столбцы UX=UDVtXUn×pDd1≥d2≥...≥dp>0Vp×pU образуют ортонормированный базис для пространства столбцов Xи
Y только.
- вектор коэффициентов для проекции Y на это пространство столбца при расширении вбазисе U- столбца. Из формулы мы видим, что Z вычислимо из знания X и X t
Z=UtY=D−1VtVDUtY=D−1VtXtY
YUZXXtY
Так как хребет регрессионный прогностическим для данного может быть вычислена как
Y = Х ( Х т Х + λ I ) - 1 х т У = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1λ
мы видим, что коэффициенты для предиктора регрессии гребня в
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
основой -column являются
Z = D ( D 2 + λ I ) - 1 D Z .
Теперь сделаем предположение о том, что
Y имеет
n- мерное среднее
ξ и ковариационную матрицу
σ 2 I n . Тогда
Z имеет
p- мерное среднее
U t ξ и ковариационную матрицу
σ 2 I p . Если мы представим независимый
Y НовыйUZ^= D ( D2+ λ I)- 1D Z,
YNξσ2яNZпUTξσ2IpYNew с тем же распределением, что и
(все условно на
X отсюда), то соответствующий
ZYX имеет такое же распределение, что и
Z,и независимо и
E | | Y New - Y | | 2ZNew=UtYNewZ
При этом третье равенство следует ортогональность
YNew-UZНовогои
UZNew-U Z и четвертое темчто
Uимеет ортонормированные столбцы. Величина
Err0является ошибкой, о которой мы не можем получить никакой информации, но она не зависит от
λЕ| | Yновый- Y^| |2знак равнознак равнознак равноЕ| | Yновый- UZновый+ UZновый- UZ^| |2Е| | Yновый- UZновый| |2+ E| |UZновый- UZ^| |2заблуждаться0+ E| | Zновый- Z^| |2,
Yновый- UZновыйUZновый- UZ^Uзаблуждаться0λили. Чтобы минимизировать ошибку предсказания с левой стороны, мы должны минимизировать второй член с правой стороны.
По стандартному вычислению
Здесьdf(λ)называется эффективными степенями свободы регрессии гребня с параметромλ. Беспристрастная оценкаE| | Z-Z| | 2является
ошибкой(λ)=| | Z-Z| | 2=p∑i=1-d
Е| | Zновый- Z^| |2знак равнознак равноЕ| | Z- Z^| |2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
Мы объединяем это с (несмещенной) оценкой
в E | | Z New - Z | | 2, учитывая, что мы знаем σ 2 , который нам необходимо минимизировать. Очевидно, это может быть сделано только в том случае, если мы знаем σ 2 или имеем разумное предположение или оценку σ 2 .
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
Оценка может быть более проблематичной. Можно показать, что
E | | Z - Z | | 2 = σ 2 ( p - p ∑ i = 1 d 2 iσ2
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
λσ2σ^2=1p−d(λ)||Z−Z^||2.
If this will work depends a lot on
X.
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.