Если LASSO эквивалентен линейной регрессии с предшествующим Лапласом, как может быть масса на множествах с компонентами в нуле?


20

Мы все знакомы с хорошо документированным в литературе представлением о том, что оптимизация LASSO (для простоты ограничим здесь случай линейной регрессии) эквивалентно линейной модели с гауссовыми ошибками, в которой параметры задаются перед Лапласом \ exp (- \ lambda \ | \ beta \ | _1). Нам также известно, что старшая задает параметр настройки, \ лямбда , чем больше порция параметров устанавливается в ноль. При этом у меня возникает следующий вопрос:

loss=yXβ22+λβ1

exp(λβ1)
λ

Предположим, что с байесовской точки зрения мы можем вычислить апостериорную вероятность того, что, скажем, ненулевые оценки параметров лежат в любом заданном наборе интервалов, а параметры, установленные LASSO на ноль, равны нулю. Что меня смущает, так как при условии, что априор Лапласа непрерывен (фактически абсолютно непрерывен), тогда как может быть любая масса на любом множестве, являющемся произведением интервалов и синглетонов в {0} ?


8
Что заставляет вас думать, что апостериор не является непрерывным PDF? Тот факт, что максимум апостериорного происходит в точке, в которой много нулевых компонентов, сам по себе не означает, что апостериор не является непрерывным pdf.
Брайан Борчерз

Пост является непрерывным PDF. Рассматривается как оценка максимального правдоподобия с ограничениями, если мы представляем повторяющиеся отрисовки из одного и того же распределения данных, когда истинная модель имеет нули при множественных коэффициентах регрессии и константа настройки достаточно велика, тогда в CMLE всегда будут установлены одинаковые компоненты, равные нулю, и ненулевые нулевые параметры будут распространяться в соответствующие доверительные интервалы. С байесовской точки зрения это эквивалентно положительной вероятности для таких множеств. Мой вопрос, как это может быть так для непрерывного распространения.
Грант Измирлян

2
Решение CLME совпадает с оценкой MAP. Больше нечего сказать.
Sycorax говорит восстановить Monica

3
CMLE-решение не является образцом сзади.
Брайан Борчерс

2
Противоречия нет, потому что апостериор не ставит массу на множества меньшего измерения.
Сиань

Ответы:


7

Как и все вышеприведенные комментарии, байесовская интерпретация LASSO не принимает ожидаемое значение апостериорного распределения, что вы хотели бы сделать, если бы вы были пуристом. Если бы это было так, то вы были бы правы, так как существует очень малая вероятность того, что апостериор будет нулевым, учитывая данные.

В действительности байесовская интерпретация LASSO использует оценку MAP (Maximum A Posteriori) апостериорной. Похоже, вы знакомы, но для тех, кто не знаком, это в основном Байесовское максимальное правдоподобие, где вы используете значение, которое соответствует максимальной вероятности появления (или режиму), в качестве оценщика для параметров в LASSO. Поскольку распределение возрастает экспоненциально до нуля с отрицательного направления и экспоненциально падает в положительном направлении, если ваши данные не предполагают, что бета-версия является каким-то другим значимым значением, максимальное значение вашего апостериорного значения, вероятно, будет равно 0.

Короче говоря, кажется, что ваша интуиция основана на среднем значении апостериорного значения, но байесовская интерпретация LASSO основана на выборе режима апостериорного.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.