Почему штраф Лассо эквивалентен двойному экспоненциальному (Лапласу) ранее?


27

В ряде ссылок я читал, что оценка Лассо для вектора параметра регрессии эквивалентна апостериорной моде в которой предыдущее распределение для каждого является двойным экспоненциальным распределением (также известным как распределение Лапласа).BBBi

Я пытался доказать это, кто-то может конкретизировать детали?


@ user777 Сегодня я какое-то время просматривал эту книгу. Не смог найти ничего актуального.
Wintermute

Ответы:


30

Для простоты, давайте просто рассмотрим одно наблюдение переменной такое что Y

Y|μ,σ2N(μ,σ2),

μLaplace(λ) и неправильный предшествующий .f(σ)1σ>0

Тогда объединенная плотность пропорциональна Y,μ,σ2

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

Взятие журнала и отбрасывание терминов, которые не включают , \ log f (Y, \ mu, \ sigma ^ 2) = - \ frac {1} {\ sigma ^ 2} \ Vert y- \ mu \ Vert_2 ^ 2 - \ лямбда \ верт \ му \ верт. \ quad (1)μ

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

Таким образом, максимум (1) будет оценкой MAP и действительно является проблемой Лассо после того, как мы повторно параметризовали λ~=λσ2 .

Расширение на регрессию очевидно - замените на в правдоподобии Норма и установите предшествующий на последовательность независимых распределений Лапласа .μXββ(λ)


25

Это очевидно по количеству, оптимизируемому LASSO.

Возьмите априор для как независимый Лаплас со средним нулем и некоторой шкалой .βiτ

Итак, .p(β|τ)e12τi|βi|

Модель для данных - это обычное регрессионное предположение .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Теперь минус вдвое больше логово задних имеет форму

k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Пусть и мы получим posterior ofλ=σ2/τ2log

k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

Оценка MAP для сводит к минимуму вышеизложенное, что минимизируетβ

S=(yXβ)T(yXβ)+λi|βi|

Таким образом, оценщик MAP для - это LASSO.β

(Здесь я рассматривал как эффективно исправленный, но вы можете делать с ним другие вещи и при этом получать LASSO.)σ2

Изменить: это то, что я получаю за составление ответа в автономном режиме; Я не видел, чтобы хороший ответ был уже отправлен Эндрю. Мой действительно ничего не делает, его уже нет. Сейчас я оставлю свой, потому что он дает еще пару деталей развития с точки зрения .β


1
Кажется, есть разница в вашем ответе и ответе Эндрю. Ваш ответ имеет правильную форму регуляризатора: , а у Эндрюгде в линейной регрессии получаем . λβ1λ|μ|μ=Xβ
Алекс Р.

2
@AlexR Я думаю, вы неверно истолковали μ в ответе Эндрю. Μ соответствует в регрессии только с перехватом, а не в множественной регрессии; тот же аргумент следует для более крупного случая (обратите внимание на параллели с моим ответом), но в простом случае легче следовать. Ответ Эндрю по существу правильный, но он не связывает все точки с исходным вопросом, оставляя читателю небольшую сумму для заполнения. Я думаю, что наши ответы последовательны (вплоть до некоторых незначительных различий, касающихся σ, которые можно объяснить) и что он полностью заслужил галочкуβ0Xβ
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.