KKT против неограниченной формулировки регрессии лассо


20

Наказанная регрессия L1 (иначе лассо) представлена ​​в двух формулировках. Пусть две целевые функции: Тогда две разные формулировки: подчиняется и, что то же самое, Используя условия Каруша-Куна-Такера (KKT), легко увидеть, как условие стационарности для первой формулировки эквивалентно принятию градиента второй формулировки и установке его равным 0. Что я не могу найти или выяснить, , как дополнительное условие расслабления для первой формулировки,

Q1=12||YXβ||22Q2=12||YXβ||22+λ||β||1.
argminβQ1
||β||1t,
argminβQ2.
λ(||β||1t)=0, гарантированно будет выполнено решением второй формулировки.

Ответы:


16

Две формулировки эквивалентны в том смысле, что для каждого значения в первой формулировке существует значение для второй формулировки, так что две формулировки имеют одинаковый минимизатор .tλβ

Вот оправдание:

Рассмотрим формулировку Лассо: Пусть минимизатор будет и пусть b = || \ beta ^ * || _1 . Я утверждаю, что если вы установите t = b в первой формулировке, то решение первой формулировки также будет \ beta ^ * . Вот доказательство:

f(β)=12||YXβ||22+λ||β||1
βb=||β||1t=bβ

Рассмотрим первую формулировку

min12||YXβ||22 s.t.||β||1b
Если возможно, пусть эта вторая формулировка найдет решение β^ такой, что ||β^||1<||β||1=b (обратите внимание на знак строго меньше). Тогда легко увидеть, что f(β^)<f(β) противоречит тому факту, что β является решением для лассо. Таким образом, решение первой формулировки также является β .

Поскольку t=b , условие комплементарной слабости выполняется в точке решения β .

Итак, с помощью формулировки лассо с вы ограниченную формулировку, используя равное значению нормы решения лассо. И наоборот, при заданной ограниченной формулировке с вы найдете такой, что решение лассо будет равно решению ограниченной формулировки.t l 1 t λλtl1tλ

(Если вы знаете о субградиентах, вы можете найти эту , решив уравнение , гдеX T ( y - X β ) = λ z z | | β | | 1 )λXT(yXβ)=λzz||β||1)


1
Отлично. Как только вы видите решение, вы всегда чувствуете себя глупым, если не доберетесь туда сами. Я предполагаю, что вы, имея в виду противоречие, предположим, что мы находим такой, что ? ; | | & beta ; | | 1<| | β| | 1=бβ^||β^||1<||β||1=b
goodepic

Считайте верный ответ верным
bdeonovic,

2
Можете ли вы объяснить, почемуf(β^)<f(β)
goofd

Это доказывает, что решение первой формулировки также должно иметь l1-норму b. Как это доказывает, что два решения действительно одинаковы?
broncoAbierto

1
Кроме того, Лассо не всегда имеет единственное решение, поэтому мы не можем ссылаться на на минимайзера. arxiv.org/pdf/1206.0313.pdf . Мы могли бы, однако, сослаться на набор минимизаторов и показать, что некоторые должны принадлежать этому набору. β^β
broncoAbierto

3

Я думаю, что идея elexhobby для этого доказательства хорошая, но я не думаю, что она полностью верна.

Показано, что существует решение для первой формулировки, , такое, чтоприводит к противоречию, мы можем только предполагать необходимостьне то, что . | | β | |<| |β*| || | β | |=| |β*| | β =β*β^β^<ββ^=ββ^=β

Вместо этого я предлагаю действовать следующим образом:

Для удобства обозначим через и первую и вторую формулировку соответственно. Предположим, что у есть уникальное решение, , с . Пусть у есть решение, . Тогда у нас есть это(оно не может быть больше из-за ограничения) и поэтому . Если то не является решением , что противоречит нашим предположениям. ЕслиP 2 P 2 β P1P2P2βР 1 & beta ; ≠ & beta ; * | | & beta ; | | | | & beta ; * | | F ( & beta ; ) F ( & beta ; * ) е ( & beta ; ) < F ( & beta ; * ) β * P 2 F ( β )β=bP1β^ββ^βf(β^)f(β)f(β^)<f(β)βP2β = β *f(β^)=f(β)затем , так как мы предполагали, что решение уникально.β^=β

Тем не менее, это может быть случай, когда у Лассо есть несколько решений. По лемме 1 из arxiv.org/pdf/1206.0313.pdf мы знаем, что все эти решения имеют одинаковую (и, конечно, одно и то же минимальное значение). Мы устанавливаем эту норму как ограничение для и продолжаем.P 11P1

Обозначим через множество решений , с . Пусть есть решение, . Тогда у нас есть это и , следовательно . Если для некоторого (и, следовательно, для всех них), то , что противоречит нашим предположениям. Если для некоторого то не является множеством решений дляР 2 | | & beta ; | | = бSP2Р 1 & beta ; ∉ S | | & beta ; | | | | & beta ; | | & beta ; S F ( & beta ; ) F ( & beta ; ) & beta ; S F ( & beta ; ) = е ( & beta ; ) & beta ; S & beta ; ∈ Sβ=b βSP1β^Sβ^ββSf(β^)f(β)βSf(β^)=f(β)βSβ^S& beta ; S S P 2 P 1 S P 1 P 2f(β^)<f(β)βSSP2 . Следовательно, каждое решение находится в , т.е. любое решение также является решением . Осталось бы доказать, что дополняет также.P1SP1P2

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.