Вот методика минимизации суммы квадратов в регрессии, которая на самом деле имеет применение к более общим настройкам и которую я считаю полезной.
Попробуем вообще избежать векторно-матричного исчисления.
Предположим, что мы заинтересованы в минимизации
Где у ∈ R п , X ∈ R п × р и & beta ; ∈ R р . Для простоты будем считать, что p ≤ n и r a n k ( X ) = p .
Е= ( y - X β)T( y - X β) = ∥ y - X β∥22,
y ∈ RNX ∈ Rn × pβ∈ Rпp ≤ nr a n k ( X )=p
Для любого & beta ; ∈ R р , получим
Е = ‖ у - Х & beta ; + Х & beta ; - Х & beta ; | | 2 2 = | | у - Х & beta ; | | 2 2 + | | Х ( & beta ; - & beta ; ) | | 2 2 - 2 ( β - β ) Т Х Т ( уβ^∈ Rп
Е= ∥ y - X β^+ X β^−Xβ∥22=∥y−Xβ^∥22+∥X(β−β^)∥22−2(β−β^)TXT(y−Xβ^).
β^ βminβE≥∥y−Xβ^∥22
(β−β^)TXT(y−Xβ^)=0 ; & beta ; тогда и только тогда , когдаИксT( у - X β^) = 0 и это последнее уравнение верно, если и только если ИксTX β^= XTY, ТакЕ сводится к минимуму, принимая β^= ( XTХ )- 1ИксTY,
Хотя это может показаться «уловкой», позволяющей избежать исчисления, на самом деле оно имеет более широкое применение и в игре присутствует интересная геометрия.
Один пример, где этот метод делает вывод намного проще, чем любой подход матрично-векторного исчисления, - это когда мы обобщаем на случай матрицы. ПозволятьY ∈ Rn × p, X ∈ Rn × q а также B ∈ RQ× р, Предположим, мы хотим минимизировать
Е= t r ( ( Y - X B ) Σ- 1( Y - X B )T)
по всей
матрице Впараметров. Вот
Σ ковариационная матрица
Совершенно аналогичный подход к вышесказанному быстро устанавливает, что минимум Е достигается путем принятия
В^= ( XTХ )- 1ИксTY,
То есть в настройке регрессии, где ответом является
вектор с ковариацией
Σ и наблюдения являются независимыми, то оценка OLS достигается путем
п отдельные линейные регрессии на составляющие ответа.
smallmatrix
, поэтому не пытались редактировать, так как обычное решение разбиения формулы в несколько строк здесь бы не сработало.