В регрессии гребня целевая функция, которая должна быть минимизирована:
Можно ли это оптимизировать с помощью метода множителей Лагранжа? Или это прямая дифференциация?
В регрессии гребня целевая функция, которая должна быть минимизирована:
Можно ли это оптимизировать с помощью метода множителей Лагранжа? Или это прямая дифференциация?
Ответы:
Есть две формулировки для проблемы гребня. Первый
при условии
Эта формулировка показывает ограничение размера на коэффициенты регрессии. Обратите внимание, что подразумевает это ограничение; мы заставляем коэффициенты лежать в шаре вокруг начала координат с радиусом .
Вторая формулировка - это как раз ваша проблема
который можно рассматривать как формулировку множителя Ларгранжа. Обратите внимание, что здесь является параметром настройки, и большие значения приведут к большей усадке. Вы можете приступить к дифференцированию выражения относительно β и получить хорошо известную оценку гребня
Эти две формулировки полностью эквивалентны , поскольку существует взаимно-однозначное соответствие между и λ .
Позвольте мне подробнее остановиться на этом. Представьте , что вы в идеальном ортогональном случае, . Это очень упрощенная и нереалистичная ситуация, но мы можем исследовать оценщик чуть ближе, так что терпите меня. Рассмотрим, что происходит с уравнением (1). Оценка гребня сводится к
как и в ортогональном случае, оценка OLS определяется как . Глядя на этот компонент теперь мы получаем
Обратите внимание, что теперь усадка постоянна для всех коэффициентов. Это может не иметь места в общем случае, и действительно может быть показано, что усадки будут сильно различаться, если в X ′ X есть вырождения матрице .
Но вернемся к проблеме ограниченной оптимизации. Согласно теории ККТ , необходимым условием оптимальности является
so either or (in this case we say that the constraint is binding). If then there is no penalty and we are back in the regular OLS situation. Suppose then that the constraint is binding and we are in the second situation. Using the formula in (2), we then have
whence we obtain
отношения один-к-одному ранее заявлены. Я ожидаю, что это сложнее установить в неортогональном случае, но результат несет независимо.
Посмотрите еще раз на (2), и вы увидите, что мы все еще пропускаем . Чтобы получить для него оптимальное значение, вы можете использовать перекрестную проверку или посмотреть на трассу гребня. Последний метод включает построение последовательности λ в (0,1) и просмотр изменения оценок. Затем вы выбираете λ, который стабилизирует их. Кстати, этот метод был предложен во второй из приведенных ниже ссылок и является самым старым.
Ссылки
Хёрл, Артур Э. и Роберт В. Кеннард. «Хребетная регрессия: предвзятая оценка для неортогональных задач». Technometrics 12.1 (1970): 55-67.
Хёрл, Артур Э. и Роберт В. Кеннард. «Хребетная регрессия: приложения к неортогональным задачам». Technometrics 12.1 (1970): 69-82.
My book Regression Modeling Strategies delves into the use of effective AIC for choosing . This comes from the penalized log likelihood and the effective degrees of freedom, the latter being a function of how much variances of are reduced by penalization. A presentation about this is here. The R rms
package pentrace
finds that optimizes effective AIC, and also allows for multiple penalty parameters (e.g., one for linear main effects, one for nonlinear main effects, one for linear interaction effects, and one for nonlinear interaction effects).
I don't do it analytically, but rather numerically. I usually plot RMSE vs. λ as such:
Figure 1. RMSE and the constant λ or alpha.