Вопрос о доказательстве нормального уравнения

Как вы можете доказать, что нормальные уравнения: имеют одно или несколько решений без предположения, что X обратимо? $(X^TX)\beta = X^TY$

Мое единственное предположение, что это как-то связано с обобщенным обратным, но я полностью потерян.

regression proof

— ryati
источник

Вы получаете очки, задавая вопросы, которые вызывают удивительные ответы.

— Никана Рекламикс

Человек склонен быть бойким и указать на это, потому что квадратичная форма

β \to (Y - X β)^{'} (Y - X β)

$\beta \to (Y - X\beta)'(Y - X\beta)$

положительно полуопределен, существует для которого он минимален, и этот минимум найден (путем установки градиента относительно на ноль) с помощью нормальных уравнений $\beta$ $\beta$

X^{'} X (Y - X β) = 0,

$X'X(Y - X\beta) = 0,$

откуда должно быть по крайней мере одно решение , независимо от ранга $X'X$ . Однако этот аргумент, похоже, не соответствует духу вопроса, который представляется чисто алгебраическим утверждением. Возможно, интересно понять, почему такое уравнение должно иметь решение и при каких именно условиях. Итак, давайте начнем сначала и притворимся, что не знаем связи с наименьшими квадратами.

Это все сводится к значению , транспонированной . Это окажется вопросом простого определения, соответствующих обозначений и концепции невырожденной сесквилинейной формы. Напомним, что - это «матрица проектирования» из строк (по одному для каждого наблюдения) и столбцов (по одному для каждой переменной, включая константу, если таковая имеется). Поэтому он представляет собой линейное преобразование из векторного пространства в . $X'$ $X$ $X$ $n$ $p$ $\mathbb V = \mathbb{R}^p$ $\mathbb W = \mathbb{R}^n$

Транспонирование , рассматриваемое как линейное преобразование , является линейным преобразованием двойственных пространств . Для того , чтобы иметь смысл композиции , как , то необходимо определить с . Это то, что обычное скалярное произведение (сумма квадратов) на делает. $X$ $X': \mathbb{W}^* \to \mathbb{V}^*$ $X'X$ $\mathbb{W}^*$ $\mathbb{W}$ $\mathbb{W}$

На самом деле есть два внутренних произведения и определенных на и соответственно. Это вещественные билинейные симметрические функции, невырожденные . Последнее означает, что $g_V$ $g_W$ $\mathbb V$ $\mathbb W$

g_{W} (u, v) = 0 \forall u \in W ⟹ v = 0,

$g_W(u, v) = 0\ \forall u\in \mathbb W \implies v = 0,$

с аналогичной отчетностью за . Геометрически эти внутренние продукты позволяют нам измерять длину и угол. Условие можно рассматривать как будучи «перпендикулярно» к . Невырожденность означает, что только нулевой вектор перпендикулярен всему векторному пространству. (Эта общность означает, что полученные здесь результаты будут применяться к обобщенному параметру наименьших квадратов , для которого не обязательно является обычным внутренним произведением, данным как сумма произведений компонентов, но является некоторой произвольной невырожденной формой. Мы могли бы обойтись без $g_V$ $g(u,v)=0$ $u$ $v$ $g_W$ целом, определяя , но я ожидаю, что многие читатели будут незнакомы или неуютны с двойными пробелами, и поэтому решили избегать этой формулировки.) $g_V$ $X':\mathbb W\to\mathbb V^*$

С этими внутренними произведениями транспонирование любого линейного преобразования определяется через через $X: \mathbb V \to \mathbb W$ $X': \mathbb W \to \mathbb V$

g_{V} (X^{'} (w), v) = g_{W} (w, X (v))

$g_V(X'(w), v) = g_W(w, X(v))$

для всех и . То, что в действительности существует вектор с этим свойством, можно установить, выписав вещи с базисами для и ; То, что этот вектор единственен, следует из невырожденности внутренних произведений. Ибо, если и - два вектора, для которых $w\in \mathbb W$ $v\in \mathbb V$ $X'(w) \in \mathbb V$ $\mathbb V$ $\mathbb W$ $v_1$ $v_2$ для всех , то (из линейности по первой компоненте) для всех подразумевающих . $g_V(v_1,v)=g_V(v_2,v)$ $v\in\mathbb V$ $g_V(v_1-v_2,v)=0$ $v$ $v_1-v_2=0$

$\mathbb U \subset \mathbb W,$ $\mathbb{U}^\perp$ $\mathbb U$ $X(\mathbb V)$ $X$ $\{X(v) | v \in \mathbb V\} \subset \mathbb W$ $X$ $X'$

X^{'} (w) = 0 ⟺ w \in X (V)^{⊥} .

$X'(w) = 0 \iff w \in X(\mathbb V)^\perp.$

$w$ $X'$ $w$ $X$

$X'(w) = 0$ $g_W(w, X(v)) = g_V(X'(w),v) = g_V(0,v)=0$ $v\in\mathbb V$ $w$ $X(V)$
$w$ $X(\mathbb V)$ $g_W(w, X(v)) = 0$ $v\in\mathbb V$ $g_V(X'(w), v) = 0$ $g_V$ $X'(w)=0$

$\mathbb W$ $\mathbb W = X(\mathbb V) \oplus X(\mathbb V)^\perp$ $y \in \mathbb W$ $y = y_0 + y^\perp$ $y_0\in X(\mathbb V)$ $y^\perp \in X(\mathbb V)^\perp$ $y_0$ $X(\beta)$ $\beta\in\mathbb V$

y - X β = (y_{0} + y^{⊥}) - y_{0} = y^{⊥} \in X (V)^{⊥}

$y - X\beta = (y_0 + y^\perp) - y_0 = y^\perp \in X(\mathbb V)^\perp$

$X'$

X^{'} (y - X β) = 0,

$X'(y - X\beta) = 0,$

$\beta$ $X'X\beta = X'y.$

$n$ $y\in\mathbb W$ $y_0$ $X$ $y^\perp$ $y_0$ $y_0$ $p$ $\beta\in\mathbb V$ $X(\mathbb V)$ $X$ $X$ $\mathbb V$ $\mathbb W$

$\mathbb V$ $\mathbb U = X(\mathbb V)\subset\mathbb W$ $X$ $\mathbb U$

Одним из интересных результатов этой абстрактной алгебраической демонстрации является то, что мы можем решать нормальные уравнения в произвольных векторных пространствах. Результат справедлив, скажем, для комплексных пространств, для пространств над конечными полями (где минимизация суммы квадратов не имеет большого смысла), и даже для бесконечномерных пространств, которые поддерживают подходящие полулинейные формы.

— Whuber
источник

У меня никогда не было представителя, чтобы принять этот ответ намного позже. Я просто наткнулся на это и хотел еще раз поблагодарить вас!

— ryati

β \mapsto (Y - X β)^{'} (Y - X β)

$\beta \mapsto (Y - X\beta)'(Y - X\beta)$

β \to (Y - X β)^{'} (Y - X β),

$\beta \to (Y - X\beta)'(Y - X\beta),$

f : A \to B .

$f:A\to B. \qquad$

— Майкл Харди

@Michael В вашем комментарии должна быть опечатка. Не могли бы вы уточнить, что вы имели в виду?

— whuber

“ \mapsto''

$\text{“}\mapsto\text{''}$

“ \to''

$\text{“}\to\text{''}$

$\qquad$

— Майкл Харди

@ Майкл Прости меня за то, что я не видел этого различия, несмотря на много чтений. Несмотря на это, для меня первая стрелка относится к инъективной функции, тогда как вторая относится к любой функции, но я подозреваю, что это не то, что вы намерены. Не могли бы вы объяснить свою запись?

— whuber

$n$ $X^T X$ $x$ $x_i=x$ $y$ $\overline{y}$

— Lucozade
источник

X = [1 x_{1}; 1 x_{2}; \dots; 1 x_{n}]

$X=[1 ~x_1; 1 ~x_2; \ldots; 1 ~x_n]$

X = [1 x_{11} \dots x_{m 1}; \dots; 1 x_{1 n} \dots x_{m n}]

$X=[1 ~x_{11} \ldots x_{m1}; \ldots; 1 ~x_{1n} \ldots x_{mn}]$

X^{'} X

$X'X$

В типичной регрессии X является тощим и, следовательно, определенно необратимым (хотя его можно оставить обратимым). Нетрудно доказать (спросите, нужна ли вам помощь), что если X тощий и левый обратимый, то X ^ T * X обратим. В этом случае тогда будет ровно одно решение. И если у X нет полного ранга столбца, то X ^ T * X не будет полным рангом, и поэтому у вас будет недостаточно определенная система.

— user542833
источник

X^{'} X

$X'X$

X

$X$

0 β = 0

$0\beta=0$

β

$\beta$

whuber: конечно, они решают вопрос: один soln, если X - полный ранг столбца (как я уже говорил), и бесконечные решения, если это недоопределенная система

— user542833

Тот факт, что система «недоопределена», вовсе не означает, что она имеет какие-либо решения. Вопрос о существовании решений.

— whuber