Как найти коэффициенты регрессии

В регрессии гребня целевая функция, которая должна быть минимизирована:

RSS + λ \sum β_{j}^{2} .

$\text{RSS}+\lambda \sum\beta_j^2.$

Можно ли это оптимизировать с помощью метода множителей Лагранжа? Или это прямая дифференциация?

regression regularization ridge-regression

— Minaj
источник

Какова связь между заголовком (который фокусируется на

λ

$\lambda$ ) и вопросом (который, кажется, касается только

β_{j}

$\beta_j$ )? Я обеспокоен тем, что «быть оптимизированным» может иметь совершенно разные интерпретации в зависимости от того, какие переменные считаются теми, которые можно варьировать, а какие следует фиксировать.

— whuber

спасибо изменил вопрос. Я читал, что

λ

$\lambda$ находится путем перекрестной проверки - но я считаю, что это означает, что у вас уже есть

β_{j}

$\beta_j$ и вы используете разные данные, чтобы найти лучший

λ

$\lambda$ Вопрос в том, как вы найдете

β_{j}

$\beta_j$ в первую очередь. когда

λ

$\lambda$ неизвестно?

— Минаж

Есть две формулировки для проблемы гребня. Первый

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β)

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)$

при условии

\sum_{j} β_{j}^{2} \leq s .

$\sum_{j} \beta_j^2 \leq s.$

Эта формулировка показывает ограничение размера на коэффициенты регрессии. Обратите внимание, что подразумевает это ограничение; мы заставляем коэффициенты лежать в шаре вокруг начала координат с радиусом $\sqrt{s}$ .

Вторая формулировка - это как раз ваша проблема

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β) + λ \sum β_{j}^{2}

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right) + \lambda \sum\beta_j^2$

который можно рассматривать как формулировку множителя Ларгранжа. Обратите внимание, что здесь является параметром настройки, и большие значения приведут к большей усадке. Вы можете приступить к дифференцированию выражения относительно и получить хорошо известную оценку гребня $\lambda$ $\boldsymbol{\beta}$

\begin{matrix} (1) & β_{R} = {(X^{'} X + λ I)}^{- 1} X^{'} y \end{matrix}

$\boldsymbol{\beta}_{R} = \left( \mathbf{X}^{\prime} \mathbf{X} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \tag{1}$

Эти две формулировки полностью эквивалентны , поскольку существует взаимно-однозначное соответствие между и $s$ $\lambda$ .

Позвольте мне подробнее остановиться на этом. Представьте , что вы в идеальном ортогональном случае, . Это очень упрощенная и нереалистичная ситуация, но мы можем исследовать оценщик чуть ближе, так что терпите меня. Рассмотрим, что происходит с уравнением (1). Оценка гребня сводится к $\mathbf{X}^{\prime} \mathbf{X} = \mathbf{I}$

β_{R} = {(I + λ I)}^{- 1} X^{'} y = {(I + λ I)}^{- 1} β_{O L S}

$\boldsymbol{\beta}_R = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \boldsymbol{\beta}_{OLS}$

как и в ортогональном случае, оценка OLS определяется как . Глядя на этот компонент теперь мы получаем $\boldsymbol{\beta}_{OLS} = \mathbf{X}^{\prime} \mathbf{y}$

\begin{matrix} (2) & β_{R} = \frac{β_{O L S}}{1 + λ} \end{matrix}

$\beta_R = \frac{\beta_{OLS}}{1+\lambda} \tag{2}$

Обратите внимание, что теперь усадка постоянна для всех коэффициентов. Это может не иметь места в общем случае, и действительно может быть показано, что усадки будут сильно различаться, если в есть вырождения $\mathbf{X}^{\prime} \mathbf{X}$ матрице .

Но вернемся к проблеме ограниченной оптимизации. Согласно теории ККТ , необходимым условием оптимальности является

λ (\sum β_{R, j}^{2} - s) = 0

$\lambda \left( \sum \beta_{R,j} ^2 -s \right) = 0$

so either $\lambda = 0$ or $\sum \beta_{R,j} ^2 -s = 0$ (in this case we say that the constraint is binding). If $\lambda = 0$ then there is no penalty and we are back in the regular OLS situation. Suppose then that the constraint is binding and we are in the second situation. Using the formula in (2), we then have

s = \sum β_{R, j}^{2} = \frac{1}{{(1 + λ)}^{2}} \sum β_{O L S, j}^{2}

$s = \sum \beta_{R,j}^2 = \frac{1}{\left(1 + \lambda \right)^2} \sum \beta_{OLS,j}^2$

whence we obtain

λ = \sqrt{\frac{\sum β_{O L S, j}^{2}}{s}} - 1

$\lambda = \sqrt{\frac{\sum \beta_{OLS,j} ^2}{s}} - 1$

отношения один-к-одному ранее заявлены. Я ожидаю, что это сложнее установить в неортогональном случае, но результат несет независимо.

Посмотрите еще раз на (2), и вы увидите, что мы все еще пропускаем . Чтобы получить для него оптимальное значение, вы можете использовать перекрестную проверку или посмотреть на трассу гребня. Последний метод включает построение последовательности в (0,1) и просмотр изменения оценок. Затем вы выбираете который стабилизирует их. Кстати, этот метод был предложен во второй из приведенных ниже ссылок и является самым старым. $\lambda$ $\lambda$ $\lambda$

Ссылки

Хёрл, Артур Э. и Роберт В. Кеннард. «Хребетная регрессия: предвзятая оценка для неортогональных задач». Technometrics 12.1 (1970): 55-67.

Хёрл, Артур Э. и Роберт В. Кеннард. «Хребетная регрессия: приложения к неортогональным задачам». Technometrics 12.1 (1970): 69-82.

— JohnK
источник

@Minaj Хребет регрессии имеет постоянную усадку для всех коэффициентов (кроме перехвата). Вот почему есть только один множитель.

— JohnK

@amoeba Это предложение Херла и Кеннарда, людей, которые в 1970-х годах внедрили регрессию гребня. Исходя из их опыта - и моего - коэффициенты будут стабилизироваться в этом интервале даже с экстремальными степенями мультиколлинеарности. Конечно, это эмпирическая стратегия, и поэтому она не гарантированно работает все время.

— JohnK

Вы также можете просто использовать метод псевдонаблюдения и получить оценки, не имея ничего более сложного, чем регрессионная программа с наименьшими квадратами. Вы также можете исследовать эффект изменения

аналогичным образом.

λ

$\lambda$

— Glen_b

@amoeba Это правда, что гребень не является инвариантом масштаба, поэтому обычной практикой является стандартизация данных заранее. Я включил соответствующие ссылки на случай, если вы захотите взглянуть. Они очень интересные и не очень технические.

— JohnK

@JohnK в действительности регрессия гребня сжимает каждый

на разную величину, поэтому усадка не постоянна, даже если есть только один параметр усадки

β

$\beta$

λ

$\lambda$

— Фрэнк Харрелл

My book Regression Modeling Strategies delves into the use of effective AIC for choosing $\lambda$ . This comes from the penalized log likelihood and the effective degrees of freedom, the latter being a function of how much variances of $\hat{\beta}$ are reduced by penalization. A presentation about this is here. The R rms package pentrace finds $\lambda$ that optimizes effective AIC, and also allows for multiple penalty parameters (e.g., one for linear main effects, one for nonlinear main effects, one for linear interaction effects, and one for nonlinear interaction effects).

— Frank Harrell
источник

+1. What do you think of using leave-one-out CV error, computed via the explicit formula (i.e. without actually performing CV), for choosing

λ

$\lambda$ ? Do you have any idea about how it in practice compares to "effective AIC"?

— amoeba says Reinstate Monica

I haven't studied that. LOOCV takes a lot of computation.

— Frank Harrell

Not if the explicit formula is used: stats.stackexchange.com/questions/32542.

— amoeba says Reinstate Monica

That formula works for the special case of OLS, not for maximum likelihood in general. But there is an approximate formula using score residuals. I do realize we are mainly talking about OLS in this discussion though.

— Frank Harrell

I don't do it analytically, but rather numerically. I usually plot RMSE vs. λ as such:

Figure 1. RMSE and the constant λ or alpha.

— Lennart
источник

Does this mean you fix a certain value of

λ

$\lambda$ and then differentiate the expression to find the

β_{j}

$\beta_j$ 's after which you compute RMSE and do the process all over again for new values of

λ

$\lambda$ ?

— Minaj