Общий метод создания разреженных решений - это оценка MAP с нормальным нулевым значением до неизвестной дисперсии.
p(xi|σ2i)∼N(0,σ2i)
Если вы затем назначите перед которого режим равен нулю, то задний режим обычно разреженный. вытекает из этого подхода, принимая экспоненциальное распределение смешивания.σ2iL1
p(σ2i|λ)∼Expo(λ22)
Тогда вы получите
log[p(xi|λ)]=−λ|xi|+log[λ2]
Некоторыми альтернативами являются обобщенный двойной парето, полу-коши, инвертированная бета. В некотором смысле они лучше, чем лассо, потому что они не уменьшают большие значения. На самом деле я уверен, что обобщенное двойное парето можно записать как смесь экспонент. То есть мы пишем а затем гамма-приоритет перед . Мы получили:λ=λip(λi|αβ)
p(xi|αβ)=α2β(1+|xi|β)−(α+1)
Обратите внимание, что я включил нормализующие константы, так как они помогают выбрать хорошие глобальные параметры. Теперь, если мы применим ограничение по дальности, у нас будет более сложная проблема, так как нам нужно перенормировать симплекс.
Еще одна общая особенность штрафов, вызывающих разреженность, заключается в том, что они не дифференцируемы в нуле. Обычно это происходит потому, что левый и правый пределы имеют противоположный знак.
Это основано на блестящей работе Николаса Полсона и Джеймса Скотта о представлениях средней дисперсии смеси, которые они используют для разработки TIRLS - массового расширения наименьших квадратов до очень большого класса комбинаций потерь и штрафов.
В качестве альтернативы вы можете использовать априор, который определен на симплексе, но имеет режимы в маргинальных распределениях в нуле. Одним из примеров является распределение Дирихле со всеми параметрами от 0 до 1. Предполагаемое наказание будет выглядеть так:
−∑i=1n−1(ai−1)log(xi)−(an−1)log(1−∑i=1n−1xi)
Где . Однако вы должны быть осторожны при численной оптимизации, так как штраф имеет особенности. Более надежный процесс оценки заключается в использовании апостериорного среднего. Хотя вы теряете точную разреженность, вы получите множество задних значений, близких к нулю.0<ai<1