Почему Laplace ранее производил разреженные решения?


23

Я просматривал литературу по регуляризации, и часто вижу абзацы, которые связывают регуляризацию L2 с априорным гауссианом и L1 с Лапласом с центром в нуле.

Я знаю, как выглядят эти априорные значения, но я не понимаю, как это выражается, например, в весах в линейной модели. В L1, если я правильно понимаю, мы ожидаем разреженных решений, то есть некоторые веса будут сведены к нулю. И в L2 мы получаем малые веса, но не нулевые веса.

Но почему это происходит?

Пожалуйста, прокомментируйте, если мне нужно предоставить больше информации или уточнить мой образ мыслей.



1
Действительно простое интуитивное объяснение состоит в том, что штраф уменьшается при использовании нормы L2, но не при использовании нормы L1. Таким образом, если вы можете сохранить часть модели функции потерь примерно равной, и вы можете сделать это, уменьшив одну из двух переменных, лучше уменьшить переменную с высоким абсолютным значением в случае L2, но не в случае L1.
testuser

Ответы:


21

Отношение распределения Лапласа до медианы (или нормы L1) было обнаружено самим Лапласом, который обнаружил, что с помощью такого априора вы оцениваете медиану, а не среднее значение, как при нормальном распределении (см. Stingler, 1986 или Wikipedia ). Это означает, что регрессия с распределением ошибок Лапласа оценивает медиану (например, квантильную регрессию), в то время как нормальные ошибки относятся к оценке OLS.

Надежные приоры, о которых вы спрашивали, были описаны также Tibshirani (1996), который заметил, что надежная регрессия Лассо в байесовских условиях эквивалентна использованию предварительного Лапласа. Такие априорные коэффициенты центрируются вокруг нуля (с центрированными переменными) и имеют широкие хвосты - так что большинство коэффициентов регрессии, оцененных с использованием этого, в конечном итоге будут равны нулю. Это ясно, если вы внимательно посмотрите на рисунок ниже, распределение Лапласа имеет пик около нуля (есть большая масса распределения), в то время как нормальное распределение является более рассеянным вокруг нуля, поэтому ненулевые значения имеют большую вероятность. Другими возможностями для надежных априорных значений являются распределения Коши или распределения.T

Используя такие априоры, вы более склонны в конечном итоге получить множество нулевых коэффициентов, некоторые умеренного размера и несколько больших (длинный хвост), в то время как с нормальным приоритетом вы получаете более умеренные коэффициенты, которые скорее не точно равны нулю, но тоже не так далеко от нуля.

введите описание изображения здесь

(источник изображения Tibshirani, 1996)


Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года. Кембридж, Массачусетс: издательство Belknap Press, издательство Гарвардского университета.

Тибширани Р. (1996). Регрессивная усадка и отбор с помощью лассо. Журнал Королевского статистического общества. Серия B (Методологическая), 267-288.

Гельман А., Джакулин А., Питтау Г.М. и Су Ю.С. (2008). Слабоинформативное предварительное распределение по умолчанию для логистических и других регрессионных моделей. Анналы прикладной статистики, 2 (4), 1360-1383.

Нортон, РМ (1984). Двойное экспоненциальное распределение: использование исчисления для нахождения оценки максимального правдоподобия. Американский статистик, 38 (2): 135-136.


Вау, это очень хорошее объяснение, а также особая благодарность за связанный вопрос, где нормы регуляризации интуитивно связаны с модой, средними и средними, это действительно многое проясняет для меня!
Дмитрий Смирнов

1
@Tim, Распределение Коши имеет Тяжелый Хвост, но вероятность Ноля меньше, чем Нормальное Распределение. Так почему же это вызывает разреженное решение?
Рой

5

Частый взгляд 👀

В некотором смысле мы можем думать об обеих регуляризациях как о «снижении весов» ; L2 минимизирует евклидову норму весов, в то время как L1 минимизирует манхэттенскую норму. Следуя этой мысли, мы можем рассуждать, что эквипотенциалы L1 и L2 являются сферическими и ромбовидными соответственно, поэтому L1 с большей вероятностью приведет к разреженным решениям, как показано в Бишопе « Распознавание образов и машинное обучение» :

Бишоп * Распознавание образов и машинное обучение *

Байесовский вид 👀

Однако, чтобы понять, как априоры относятся к линейной модели , нам нужно понять байесовскую интерпретацию обычной линейной регрессии . Блог Кэтрин Бэйли отлично подходит для этого. Короче говоря, мы предполагаем нормально распределенные ошибки IID в нашей линейной модели

Yзнак равноθИкс+ε

NYя,язнак равно1,2,...,NεК~N(0,σ)

Y

п(Y|Икс,θ;ε)знак равноN(θИкс,σ)

Как выясняется ... Оценка максимального правдоподобия идентична минимизации квадрата ошибки между прогнозируемыми и фактическими выходными значениями при допущении нормальности для ошибки.

θ^MLEзнак равноArgМаксимумθжурналп(Y|θ)знак равноArgминθΣязнак равно1N(Yя-θИкся)2

Регуляризация как наложение априорных весов

Если бы мы поместили неоднородный априор в веса линейной регрессии, максимальная оценка апостериорной вероятности (MAP) была бы:

θ^КАРТАзнак равноArgМаксимумθжурналп(Y|θ)+журналп(θ)

п(θ)θ

п(θ)θ

Лаплас против Гаусса

Теперь у нас есть еще один взгляд на то, почему размещение Лапласа перед весами с большей вероятностью вызовет разреженность: поскольку распределение Лапласа более сконцентрировано вокруг нуля , наши веса с большей вероятностью будут равны нулю.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.