LASSO отношения между

Мое понимание регрессии LASSO заключается в том, что коэффициенты регрессии выбираются для решения проблемы минимизации:

min_{β} ‖ y - X β ‖_{2}^{2} s . t . ‖ β ‖_{1} \leq t

$\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t$

На практике это делается с использованием множителя Лагранжа, что позволяет решить проблему

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1$

Какая связь между $\lambda$ и $t$ ? Википедия бесполезно просто заявляет, что «зависит от данных».

Почему меня это волнует? Во-первых, для интеллектуального любопытства. Но меня также беспокоят последствия выбора $\lambda$ путем перекрестной проверки.

В частности, если я выполняю n-кратную перекрестную проверку, я подгоняю n разных моделей к n разным разделам моих тренировочных данных. Затем я сравниваю точность каждой из моделей по неиспользованным данным для заданной $\lambda$ . Но одно и то же $\lambda$ подразумевает другое ограничение ( $t$ ) для разных подмножеств данных (т. Е. $t=f(\lambda)$ "зависит от данных").

Разве это не проблема перекрестной проверки, которую я действительно хочу решить, чтобы найти $t$ который дает лучший компромисс точности смещения?

Я могу получить приблизительное представление о размере этого эффекта на практике, рассчитав для каждого разделения перекрестной проверки и и посмотрев полученное распределение. В некоторых случаях подразумеваемое ограничение ( ) может существенно различаться в моих подмножествах перекрестной проверки. Где по существу я имею в виду коэффициент вариации в . $\|\beta\|_1$ $\lambda$ $t$ $t>>0$

— ConstantAmateur
источник

Проголосование, чтобы отменить необъяснимое понижение. Вопрос находится далеко за пределами моей компетенции, но он кажется разумно сформулированным.

— mkt - Восстановить Монику

Это стандартное решение для регрессии гребня :

β = {(X^{'} X + λ I)}^{- 1} X^{'} y

$\beta = \left( X'X + \lambda I \right) ^{-1} X'y$

Мы также знаем, что , так что должно быть верно, что $\| \beta \| = t$

‖ {(X^{'} X + λ I)}^{- 1} X^{'} y ‖ = t

$\| \left( X'X + \lambda I \right) ^{-1} X'y \| = t$ .

что не легко решить для . $\lambda$

Лучше всего просто продолжать делать то, что вы делаете: вычислить на одной и той же подвыборке данных для нескольких значений . $t$ $\lambda$

— shadowtalker
источник