Интуитивно говоря, группа лассо может быть предпочтительнее лассо, поскольку она дает нам возможность включить (определенный тип) дополнительную информацию в нашу оценку истинного коэффициента . Как экстремальный сценарий, учитывая следующее:β∗
С , поместите в качестве поддержки . Рассмотрим оценку «оракула» которая является группой лассо с двумя группами - одна истинная поддержка и одно дополнение. Пусть будет наименьшим значением которое делает . Из-за характера группового штрафа Лассо мы знаем, что в перемещается из в (для некоторых небольшихy∼N(Xβ∗,σ2I)S={j:β∗j≠0}β∗
β^=argminβ∥y−Xβ∥22+λ(|S|1/2∥βS∥2+(p−|S|)1/2∥βSC∥2),
λmaxλβ^=0λλmaxλmax−ϵϵ>0 ), ровно одна группа будет входить в поддержку , который в народе считается оценкой для . Из-за того, что наша группа с высокой вероятностью выберет группу , мы отлично поработали.
β^SS
На практике мы не выбираем группы так хорошо. Однако группы, несмотря на то, что они более тонкие, чем приведенный выше экстремальный сценарий, все равно помогут нам: выбор все равно будет сделан между группой истинных ковариат и группой неверных ковариат. Мы все еще заимствуем силы.
Это формализовано здесь . Они показывают, при некоторых условиях, что верхняя граница ошибки предсказания группы лассо ниже, чем нижняя граница ошибки предсказания равнины лассо. То есть они доказали, что группировка делает нашу оценку лучше.
Для вашего второго вопроса: (простой) штраф Лассо является кусочно-линейным, и это приводит к кусочно-линейному пути решения. Интуитивно понятно, что в случае группового лассо штраф больше не является кусочно-линейным, поэтому у нас больше нет этого свойства. Отличная ссылка на кусочно-линейную траекторию решения здесь . См. Их предложение 1. Пусть и . Они показывают, что путь решения группы лассо является линейным тогда и только тогда, когда является кусочно-постоянной. Конечно, это не так, поскольку наш штраф имеет глобальную кривизну.L(β)=∥y−Xβ∥22J(β)=∑g∈G|g|1/2∥βg∥2
(∇2L(β^)+λ∇2J(β^))−1∇J(β^)
J