Вопрос о доказательстве нормального уравнения


11

Как вы можете доказать, что нормальные уравнения: имеют одно или несколько решений без предположения, что X обратимо?(XTX)β=XTY

Мое единственное предположение, что это как-то связано с обобщенным обратным, но я полностью потерян.


1
Вы получаете очки, задавая вопросы, которые вызывают удивительные ответы.
Никана Рекламикс

Ответы:


14

Человек склонен быть бойким и указать на это, потому что квадратичная форма

β(YXβ)(YXβ)

положительно полуопределен, существует для которого он минимален, и этот минимум найден (путем установки градиента относительно β на ноль) с помощью нормальных уравненийββ

XX(YXβ)=0,

откуда должно быть по крайней мере одно решение , независимо от ранга XX . Однако этот аргумент, похоже, не соответствует духу вопроса, который представляется чисто алгебраическим утверждением. Возможно, интересно понять, почему такое уравнение должно иметь решение и при каких именно условиях. Итак, давайте начнем сначала и притворимся, что не знаем связи с наименьшими квадратами.


Это все сводится к значению , транспонированной X . Это окажется вопросом простого определения, соответствующих обозначений и концепции невырожденной сесквилинейной формы. Напомним, что X - это «матрица проектирования» из n строк (по одному для каждого наблюдения) и p столбцов (по одному для каждой переменной, включая константу, если таковая имеется). Поэтому он представляет собой линейное преобразование из векторного пространства V = R p в W = R n .XXXnpV=RpW=Rn

Транспонирование , рассматриваемое как линейное преобразование , является линейным преобразованием двойственных пространств X : WV . Для того , чтобы иметь смысл композиции , как X ' X , то необходимо определить W * с W . Это то, что обычное скалярное произведение (сумма квадратов) на W делает.X X:WVXXWWW

На самом деле есть два внутренних произведения и g W, определенных на V и W соответственно. Это вещественные билинейные симметрические функции, невырожденные . Последнее означает, чтоgVgWVW

gW(u,v)=0 uWv=0,

с аналогичной отчетностью за . Геометрически эти внутренние продукты позволяют нам измерять длину и угол. Условие г ( U , V ) = 0 можно рассматривать как у будучи «перпендикулярно» к V . Невырожденность означает, что только нулевой вектор перпендикулярен всему векторному пространству. (Эта общность означает, что полученные здесь результаты будут применяться к обобщенному параметру наименьших квадратов , для которого g W не обязательно является обычным внутренним произведением, данным как сумма произведений компонентов, но является некоторой произвольной невырожденной формой. Мы могли бы обойтись без ggVg(u,v)=0uvgW целом, определяя X : WV , но я ожидаю, что многие читатели будут незнакомы или неуютны с двойными пробелами, и поэтому решили избегать этой формулировки.)gVX:WV

С этими внутренними произведениями транспонирование любого линейного преобразования определяется через X : WV черезX:VWX:WV

gV(X(w),v)=gW(w,X(v))

для всех и об V . То, что в действительности существует вектор X ( w ) V с этим свойством, можно установить, выписав вещи с базисами для V и W ; То, что этот вектор единственен, следует из невырожденности внутренних произведений. Ибо, если v 1 и v 2 - два вектора, для которых g V ( v 1 , v ) = g V ( v 2 , vwWvVX(w)VVWv1v2 для всех v V , то (из линейности по первой компоненте) g V ( v 1 - v 2 , v ) = 0 для всех v, подразумевающих v 1 - v 2 = 0 .gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

UW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

wXwX

  1. X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

WW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0X(β)βV

yXβ=(y0+y)y0=yX(V)

X

X(yXβ)=0,

βXXβ=Xy.


nyWy0Xyy0y0pβVX(V)XXVW

VU=X(V)WXU


Одним из интересных результатов этой абстрактной алгебраической демонстрации является то, что мы можем решать нормальные уравнения в произвольных векторных пространствах. Результат справедлив, скажем, для комплексных пространств, для пространств над конечными полями (где минимизация суммы квадратов не имеет большого смысла), и даже для бесконечномерных пространств, которые поддерживают подходящие полулинейные формы.


1
У меня никогда не было представителя, чтобы принять этот ответ намного позже. Я просто наткнулся на это и хотел еще раз поблагодарить вас!
ryati

β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Майкл Харди

@Michael В вашем комментарии должна быть опечатка. Не могли бы вы уточнить, что вы имели в виду?
whuber

''''
Майкл Харди

@ Майкл Прости меня за то, что я не видел этого различия, несмотря на много чтений. Несмотря на это, для меня первая стрелка относится к инъективной функции, тогда как вторая относится к любой функции, но я подозреваю, что это не то, что вы намерены. Не могли бы вы объяснить свою запись?
whuber

0

nXTXxxi=xyy¯


X=[1 x1;1 x2;;1 xn]X=[1 x11xm1;;1 x1nxmn]

3
XX

0

В типичной регрессии X является тощим и, следовательно, определенно необратимым (хотя его можно оставить обратимым). Нетрудно доказать (спросите, нужна ли вам помощь), что если X тощий и левый обратимый, то X ^ T * X обратим. В этом случае тогда будет ровно одно решение. И если у X нет полного ранга столбца, то X ^ T * X не будет полным рангом, и поэтому у вас будет недостаточно определенная система.


1
XXX0β=0 β

whuber: конечно, они решают вопрос: один soln, если X - полный ранг столбца (как я уже говорил), и бесконечные решения, если это недоопределенная система
user542833

1
Тот факт, что система «недоопределена», вовсе не означает, что она имеет какие-либо решения. Вопрос о существовании решений.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.