Частый взгляд 👀
В некотором смысле мы можем думать об обеих регуляризациях как о «снижении весов» ; L2 минимизирует евклидову норму весов, в то время как L1 минимизирует манхэттенскую норму. Следуя этой мысли, мы можем рассуждать, что эквипотенциалы L1 и L2 являются сферическими и ромбовидными соответственно, поэтому L1 с большей вероятностью приведет к разреженным решениям, как показано в Бишопе « Распознавание образов и машинное обучение» :
Байесовский вид 👀
Однако, чтобы понять, как априоры относятся к линейной модели , нам нужно понять байесовскую интерпретацию обычной линейной регрессии . Блог Кэтрин Бэйли отлично подходит для этого. Короче говоря, мы предполагаем нормально распределенные ошибки IID в нашей линейной модели
у = θ⊤X + ϵ
NYя, я = 1 , 2 , … , NεК∼ N( 0 , σ)
Yp ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
Как выясняется ... Оценка максимального правдоподобия идентична минимизации квадрата ошибки между прогнозируемыми и фактическими выходными значениями при допущении нормальности для ошибки.
θ^MLE= argМаксимумθжурналп(у| θ)знак равноargминθΣя = 1N(уя- θ⊤Икся)2
Регуляризация как наложение априорных весов
Если бы мы поместили неоднородный априор в веса линейной регрессии, максимальная оценка апостериорной вероятности (MAP) была бы:
θ^КАРТА= argМаксимумθжурналп( у| θ)+ логп( θ )
п( θ )θ
п( θ )θ
Теперь у нас есть еще один взгляд на то, почему размещение Лапласа перед весами с большей вероятностью вызовет разреженность: поскольку распределение Лапласа более сконцентрировано вокруг нуля , наши веса с большей вероятностью будут равны нулю.