Байесовское лассо против обычного лассо


24

Различное программное обеспечение реализации доступно для лассо . Я знаю, что много обсуждали байесовский подход против частого подхода на разных форумах. Мой вопрос очень специфичен для лассо - каковы различия или преимущества ласио Байса против обычного лассо ?

Вот два примера реализации в пакете:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Так, когда я должен пойти на тот или иной метод? Или они такие же?

Ответы:


30

Стандартное лассо использует штраф за регуляризацию L1 для достижения разреженности в регрессии. Обратите внимание, что это также называется Basis Pursuit .

В байесовской системе выбор регуляризатора аналогичен выбору априора над весами. Если используется гауссовский априор, то решение Maximum a Posteriori (MAP) будет таким же, как если бы использовался штраф L2. Хотя это и не прямо эквивалентно, априор Лапласа (который резко достигает максимума около нуля, в отличие от гауссиана, который является гладким около нуля), производит такой же эффект сжатия для штрафа L1. Эта статья описывает байесовское лассо. ,

Фактически, когда вы размещаете априор Лапласа над параметрами, решение MAP должно быть идентичным (а не просто похожим) регуляризации со штрафом L1, и априор Лапласа будет производить эффект сжатия, идентичный штрафу L1. Тем не менее, из-за приближения в процедуре байесовского вывода или других численных проблем, решения могут фактически не быть идентичными.

В большинстве случаев результаты, полученные обоими методами, будут очень похожими. В зависимости от метода оптимизации и от того, используются ли аппроксимации, стандартный лассо, вероятно, будет более эффективным для вычисления, чем байесовский вариант. Байесовский метод автоматически создает интервальные оценки для всех параметров, включая дисперсию ошибок, если они необходимы.


«Если используется гауссовский априор, то решение с максимальным правдоподобием будет таким же…». Выделенная фраза должна читаться как «Максимальный апостериорный (MAP)», потому что оценка максимального правдоподобия будет просто игнорировать предыдущее распределение по параметрам, что приведет к нерегулярному решению, тогда как оценка MAP учитывает приоритет.
Мефатия

1
Когда вы помещаете приоритет Laplace поверх параметров, решение MAP будет идентичным (а не просто похожим) регуляризации со штрафом L1, а приоритет Laplace будет производить эффект сжатия, идентичный штрафу L1.
Мефатия

@mefathy да, вы правы в обоих случаях (не могу поверить, что я написал ML вместо MAP ....), хотя, конечно, на практике YMMV. Я обновил ответ, чтобы включить оба комментария.
TDC

6

«Наименьшие квадраты» означают, что общее решение минимизирует сумму квадратов ошибок, допущенных в результатах каждого уравнения. Наиболее важное применение - это подбор данных. Наилучшее соответствие в смысле наименьших квадратов сводит к минимуму сумму квадратов невязок, а остаток представляет собой разницу между наблюдаемым значением и подгоночным значением, обеспечиваемым моделью. Проблемы наименьших квадратов делятся на две категории: линейные или обычные наименьших квадратов и не линейные наименьшие квадраты, в зависимости от того, являются ли остатки линейными во всех неизвестных.

Байесовская линейная регрессия - это подход к линейной регрессии, при котором статистический анализ проводится в контексте байесовского вывода. Когда регрессионная модель имеет ошибки, которые имеют нормальное распределение, и если предполагается конкретная форма предварительного распределения, доступны явные результаты для апостериорных распределений вероятностей параметров модели.

| |β| |2

| |β| |1

Одно из основных различий между лассо и регрессией гребня состоит в том, что в регрессии гребня, когда увеличивается штраф, все параметры уменьшаются, но все еще остаются ненулевыми, в то время как в лассо увеличение штрафа приведет к тому, что все больше и больше параметров будут доведен до нуля.

В этой статье сравнивается регулярное лассо с байесовской лассо и регрессией гребня (см. Рисунок 1 ).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.