Как вывести решение о регрессии гребня?

41

У меня возникли некоторые проблемы с выводом решения для регрессии гребня.

Я знаю регрессионное решение без условия регуляризации:

β = (X^{T} X)^{- 1} X^{T} y .

$\beta = (X^TX)^{-1}X^Ty.$

Но после добавления термина L2 к функции стоимости, получается решение $\lambda\|\beta\|_2^2$

β = (X^{T} X + λ I)^{- 1} X^{T} y .

$\beta = (X^TX + \lambda I)^{-1}X^Ty.$

— user34790
источник

24

Достаточно изменить функцию потерь, добавив штраф. В матричных терминах начальная функция квадратичных потерь становится

(Y - X β)^{T} (Y - X β) + λ β^{T} β .

$(Y - X\beta)^{T}(Y-X\beta) + \lambda \beta^T\beta.$ Вывод по

β

$\beta$ приводит к нормальному уравнению

X^{T} Y = (X^{T} X + λ I) β

$X^{T}Y = \left(X^{T}X + \lambda I\right)\beta$ которое приводит к оценке Риджа.

— Джонни
источник

1

Почему производная от равна

λ β^{T} β

$\lambda \beta^T \beta$

λ I β

$\lambda I \beta$

— user34790

4

@ user34790 Это не так. Это равно . Но 2 отменяет с аналогичными 2s на других условиях. Конечно, коэффициент подобен коэффициенту 1 в «обычной» алгебре, вы можете умножить его где угодно, не меняя ничего.

2 λ β

$2\lambda\beta$

I

$I$

— Билл

4

@bill: здесь вам нужно чтобы получить матрицу правильного размера, чтобы сложение работало с : - это просто скаляр

I

$I$

X^{T} X

$X^TX$

λ

$\lambda$

— Генри,

48

Давайте будем опираться на то, что мы знаем, а именно на то, что всякий раз, когда матрица модели равна , вектор ответа равен , а параметр -vector равен , целевой функции $n\times p$ $X$ $n$ $y$ $p$ $\beta$

f (β) = (y - X β)^{'} (y - X β)

$f(\beta) = (y - X\beta)^\prime(y - X\beta)$

(которое является суммой квадратов невязок) минимизируется, когда решает нормальные уравнения $\beta$

(X^{'} X) β = X^{'} y .

$(X^\prime X)\beta = X^\prime y.$

Регрессия гребня добавляет еще один термин к целевой функции (обычно после стандартизации всех переменных, чтобы поставить их в общую основу), прося минимизировать

(y - X β)^{'} (y - X β) + λ β^{'} β

$(y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta$

для некоторой неотрицательной константы . Это сумма квадратов невязок плюс кратная сумма квадратов самих коэффициентов (делая очевидным, что у нее есть глобальный минимум). Поскольку , он имеет положительный квадратный корень . $\lambda$ $\lambda\ge 0$ $\nu^2 = \lambda$

Рассмотрим матрицу дополненную строками, соответствующими умноженному на единичной матрице : $X$ $\nu$ $p\times p$ $I$

X_{*} = (\begin{matrix} X \\ ν I \end{matrix})

$X_{*} = \pmatrix{X \\ \nu I}$

Когда вектор аналогично расширен нулей в конце концов к , матричное произведение в целевой функции добавляет дополнительные слагаемые вида к первоначальной цели. Следовательно $y$ $p$ $y_{*}$ $p$ $(0 - \nu \beta_i)^2 = \lambda \beta_i^2$

(y_{*} - X_{*} β)^{'} (y_{*} - X_{*} β) = (y - X β)^{'} (y - X β) + λ β^{'} β .

$(y_{*} - X_{*}\beta)^\prime(y_{*} - X_{*}\beta) = (y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta.$

Из формы левого выражения сразу видно, что нормальные уравнения

(X_{*}^{'} X_{*}) β = X_{*}^{'} y_{*} .

$(X_{*}^\prime X_{*})\beta = X_{*}^\prime y_{*}.$

Поскольку мы добавили нули к концу , правая часть совпадает с . На левой стороне добавляется к исходному . Поэтому новые нормальные уравнения упрощаются до $y$ $X^\prime y$ $\nu^2 I=\lambda I$ $X^\prime X$

(X^{'} X + λ I) β = X^{'} y .

$(X^\prime X + \lambda I)\beta = X^\prime y.$

Помимо того, что он является концептуально экономичным - для получения этого результата не требуется никаких новых манипуляций - он также является экономически вычислительным: ваше программное обеспечение для выполнения обычных наименьших квадратов также будет выполнять регрессию гребня без каких-либо изменений. (Тем не менее, в больших задачах может быть полезно использовать программное обеспечение, разработанное для этой цели, потому что оно будет использовать специальную структуру для эффективного получения результатов для плотно разнесенного интервала , позволяя вам исследовать, как варьируются ответы с .) $X_{*}$ $\lambda$ $\lambda$

Еще одна прелесть этого взгляда на вещи заключается в том, как он помогает нам понять регрессию гребня. Когда мы хотим по-настоящему понять регрессию, это почти всегда помогает думать о ней геометрически: столбцы составляют векторов в реальном векторном пространстве размерности . Присоединяя к , продолжая тем самым их от векторов до -векторов, мы встраиваем в большее пространство , включая «мнимые», взаимно ортогональные направления. Первый столбец $X$ $p$ $n$ $\nu I$ $X$ $n$ $n+p$ $\mathbb{R}^n$ $\mathbb{R}^{n+p}$ $p$ $X$ дается небольшая мнимая составляющая размера , что удлиняет его и выводит из пространства, созданного исходными столбцами . Второй, третий, ..., столбцы аналогичным образом удлиняются и перемещаются из исходного пространства на ту же величину - но все в разных новых направлениях. Следовательно, любая коллинеарность, присутствующая в исходных столбцах, будет немедленно разрешена. Более того, чем больше становится, тем больше эти новые векторы приближаются к индивидуальному $\nu$ $p$ $p^\text{th}$ $\nu$ $\nu$ $p$ воображаемые направления: они становятся все более ортонормированными. Следовательно, решение нормальных уравнений сразу станет возможным, и оно быстро станет численно устойчивым при увеличении от . $\nu$ $0$

Это описание процесса предлагает некоторые новые и творческие подходы к решению проблем, для решения которых была разработана Ridge Regression. Например, используя любые средства (такие как разложение дисперсии, описанное Белсли, Кухом и Уэлшем в их книге 1980 года о регрессионной диагностике , глава 3), вы сможете определить подгруппы почти коллинеарных столбцов , где каждая подгруппа почти ортогонально к любому другому. Вам нужно только присоединить столько строк к (и нули к ), сколько есть элементов в самой большой группе, выделив одно новое «мнимое» измерение для смещения каждого элемента группы от его братьев и сестер: вам не нужно воображаемое Размеры, чтобы сделать это. $X$ $X$ $y$ $p$

— Whuber
источник

2

Последний автор книги - валлийский, а не валлийский.

— Марк Л. Стоун

1

Оу, это просто взорвало мой разум. Есть ли какие-либо дискуссии о том, что происходит, когда это обобщается вне линейных моделей, то есть для GLM? Наказание не должно совпадать с регрессией гребня ... но эта интерпретация подразумевает, что она все еще будет потенциально полезной оценкой!

— Клифф AB

2

@ Cliff Это очень интересное предложение. Однако, поскольку оценки GLM более сложным образом зависят от и их оценки обычно не могут быть учтены в форме как для OLS (где и ), это может быть трудно установить полезную связь между наложение штрафа функции и изменения столбцов . В частности, неясно, как значения в должны быть увеличены для того, чтобы это работало.

X

$X$

\hat{β} = g (X) \cdot h (y)

$\hat\beta = g(X)\cdot h(y)$

g (X) = (X^{'} X)^{- 1} X^{'}

$g(X)=(X^\prime X)^{-1}X^\prime$

h (y) = y

$h(y)=y$

X

$X$

y

$y$

— whuber

1

Да, нужно подумать, чтобы попытаться установить, что такое наказание, но я не очень обеспокоен этим. Идея о том, что использовать как правило, тоже непроста ... за исключением, возможно, в случае логистической регрессии, где мы могли бы добавить два ; один из 0 и один из 1. Это увеличение было бы тогда более общей версией «+2 биномиальной оценки» (есть более подходящее название для этой оценки, на котором я остановился, что в основном, когда вы оцениваете из биномиального распределения, используя апостериорное среднее значение как оценка с равномерным априором на ).

y_{*}

$y_*$

y_{*}

$y_*$

p

$p$

p

$p$

— Клифф AB

@Mark Спасибо за исправление. Вы можете сказать, что я шел по памяти ... :-).

— whuber

20

min_{β} (Y - β^{T} X)^{T} (Y - β^{T} X) + λ β^{T} β

$\begin{equation} \min_\beta (Y-\beta^T X)^T(Y-\beta^T X)+\lambda \beta^T \beta \end{equation}$

Теперь обратите внимание, что и Вместе мы получаем условие первого порядка Изоляция дает решение:

\frac{\partial (Y - β^{T} X)^{T} (Y - β^{T} X)}{\partial β} = - 2 X^{T} (Y - β^{T} X)

$\begin{equation} \frac{\partial (Y-\beta^T X)^T (Y-\beta^T X)}{\partial \beta}=-2X^T(Y-\beta^T X) \end{equation}$

\frac{\partial λ β^{T} β}{\partial β} = 2 λ β .

$\begin{equation} \frac{\partial \lambda \beta^T \beta}{\partial \beta}=2\lambda\beta. \end{equation}$

X^{T} Y = X^{T} X β + λ β .

$\begin{equation} X^TY = X^TX\beta + \lambda\beta. \end{equation}$

β

$\beta$

β = (X^{T} X + λ I)^{- 1} X^{T} Y .

$\begin{equation} \beta = (X^TX+ \lambda I )^{-1}X^T Y. \end{equation}$

— pthesling
источник

9

Недавно я наткнулся на тот же вопрос в контексте P-сплайнов, и поскольку концепция та же самая, я хочу дать более подробный ответ о выводе оценки гребня.

Мы начнем с штрафной целевой функции, которая отличается от классической OLS-целевой функции своим штрафным членом в последнем слагаемом:

$Criterion_{Ridge} = \sum_{i=1}^{n}(y_i-x_i^T\beta)^2 + \lambda \sum_{j=1}^p\beta_j^2$

где

количество ковариабельных переменных, используемых в модели $p=$
ваш стандартный линейный предиктор $x_i^T\beta =$
первое слагаемое представляет MSE (квадратное отклонение прогноза от фактического значения), которое мы хотим минимизировать как обычно
второе слагаемое представляет штраф, который мы применяем к коэффициентам. Здесь мы находимся в контексте Риджа, который подразумевает Евклидову меру расстояния и, следовательно, степень 2 в штрафном члене. В случае лассо-пенализации мы применяем степень 1 и получаем совершенно другую оценку.

Мы можем переписать этот критерий в матричной нотации и далее разбить его:

$Criterion_{Ridge} = (y-X\beta)^T(y-X\beta) + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - y^TX\beta+ \beta^Tx^TX\beta + \lambda\beta^T\beta$

где - единичная матрица $= y^Ty - \beta^TX^Ty - \beta^TX^Ty + \beta^TX^TX\beta + \beta^T\lambda I\beta$ $I$

$= y^Ty - 2\beta^TX^Ty + \beta^T(X^TX + \lambda I)\beta$

Теперь мы ищем который минимизирует наш критерий. Среди прочего мы используем правило матрицы дифференцирования $\beta$ который мы можем применить здесь как: $\frac{\partial x^TAx}{\partial x} = (A+A^T)x \overset{\text{A symmetric}}{=} 2Ax$ $(X^TX + \lambda I) \in \mathbb{R}^{n \times n}$

$\frac{\partial Criterion_{Ridge} }{\partial\beta} = -2X^Ty + 2(X^TX + \lambda I)\beta \overset{!}{=}0$

$(X^TX + \lambda I)\beta = X^Ty$

$\overset{\text{et voilà}}{\Rightarrow} \hat\beta = (X^TX + \lambda I)^{-1} X^Ty$

— Ян Гошенхофер
источник

@ Ян, не могли бы вы объяснить, как

стало

? Я думаю, что вы только что применили транспонирование к нему, верно. Но вы не можете просто применить транспонирование к одному члену, не применяя его ко всем уравнениям. Что мне здесь не хватает?

y^{T} X β

$y^TX\beta$

β^{T} X^{T} y

$\beta ^TX^Ty$

— Театист

1

@theateist Транспонированный скаляр - это тот же скаляр.

— Константин

2

Есть несколько важных вещей, которые отсутствуют в ответах.

Решение для является производным от необходимого условия первого порядка: $\beta$ которое дает. Но достаточно ли этого? То есть решение является глобальным минимумом только в том случае, еслистрого выпуклая. Это может быть показано, чтобы быть правдой. $\frac{\partial f_{ridge}(\beta, \lambda)}{\partial \beta} = 0$ $\beta = (X^TX+ \lambda I )^{-1}X^T Y$ $f_{ridge}(\beta, \lambda)$
Другой способ взглянуть на проблему - это увидеть эквивалентность между и ограниченную . OLS обозначает Обычные Наименьшие Квадраты. С этой точки зрения $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta) = (Y-\beta^T X)^T(Y-\beta^T X)$ $||\beta||^2_2 \leq t$ - это только лагранжева функция, используемая для нахождения глобальных минимумов выпуклой целевой функцииограниченной выпуклой функцией . $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta)$ $||\beta||^2_2$

Хорошее объяснение этих моментов и происхождение можно найти в этих прекрасных заметках к лекции: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf $\beta$

— Давор Йосипович
источник