- Если то наше наказание будет бесконечным для любой кроме , поэтому мы получим именно это. Нет другого вектора, который бы давал нам конечное значение целевой функции.λ→∞ββ=0
(Обновление: смотрите ответ Glen_b. Это не правильная историческая причина!)
- Это происходит из решения регрессии гребня в матричной записи. Решение оказывается
термин добавляет «хребет» на главной диагонали и гарантирует , что полученная матрица обратима. Это означает, что, в отличие от OLS, мы всегда найдем решение.
β^=(XTX+λI)−1XTY.
λI
Ридж регрессия полезна, когда предикторы коррелируют. В этом случае OLS может дать дикие результаты с огромными коэффициентами, но если они будут оштрафованы, мы можем получить гораздо более разумные результаты. В целом большое преимущество регрессионного гребня заключается в том, что решение всегда существует, как упомянуто выше. Это относится даже к случаю, когда , для которого OLS не может предоставить (уникальное) решение.n<p
Регрессия гребня также является результатом того, что нормальный априор помещается в вектор .β
Вот байесовский подход к регрессии гребня: Предположим, что наш приоритет для равен . Тогда, потому что [по предположению] мы имеем, что
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
Давайте найдем апостериорный режим (мы могли бы взглянуть и на апостериорное среднее или другие вещи, но для этого давайте посмотрим на моду, то есть наиболее вероятное значение). Это означает, что мы хотим
что эквивалентно
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
потому что строго монотонен, а это в свою очередь эквивалентно
logminβ∈Rp||y−Xβ||2+λβTβ
который должен выглядеть довольно знакомым.
Таким образом, мы видим, что если мы поместим нормальный априор со средним 0 и дисперсией в наш вектор , значение которое максимизирует апостериор, является оценкой гребня. Обратите внимание, что это больше относится к в качестве параметра для часто используемых, потому что до него нет предшествующего, но неизвестно, так что это не совсем байесовский параметр.σ2λββσ2
Изменить: вы спросили о случае, где . Мы знаем, что гиперплоскость в определяется ровно точками. Если мы запускаем линейную регрессию и то мы точно интерполируем наши данные и получаем . Это решение, но оно ужасное: наша производительность по будущим данным, скорее всего, будет ужасной. Теперь предположим, что : больше нет единственной гиперплоскости, определенной этими точками. Мы можем разместить множество гиперплоскостей, каждая с нулевой суммой квадратов.n<pRppn=p||y−Xβ^||2=0n<p
Очень простой пример: предположим, что . Тогда мы просто получим грань между этими двумя точками. Теперь предположим, что но . Представьте себе самолет с этими двумя точками. Мы можем вращать эту плоскость, не изменяя того факта, что эти две точки находятся в ней, поэтому существует бесчисленное множество моделей с идеальным значением нашей целевой функции, поэтому даже за пределами вопроса о переоснащении неясно, какую из них выбрать.n=p=2n=2p=3
В качестве заключительного комментария (согласно предложению @ gung), LASSO (с использованием штрафа ) обычно используется для задач большого размера, потому что он автоматически выполняет выбор переменных (устанавливает some ). Достаточно восхитительно, оказывается, что LASSO эквивалентно нахождению апостериорной моды при использовании двойной экспоненты (иначе Лапласа) перед вектором . У LASSO также есть некоторые ограничения, такие как насыщение в предикторах и необязательно идеальная обработка групп коррелированных предикторов, поэтому можно использовать эластичную сеть (выпуклая комбинация штрафов и ).L1βj=0βnL1L2