Выбор диапазона и плотности сетки для параметра регуляризации в LASSO


12

Тем временем я изучаю LASSO (оператор наименьшей абсолютной усадки и выбора). Я вижу, что оптимальное значение параметра регуляризации можно выбрать перекрестной проверкой. Я также вижу в регрессии гребня и во многих методах, которые применяют регуляризацию, мы можем использовать CV, чтобы найти оптимальный параметр регуляризации (скажем, штраф). Теперь мой вопрос о начальных значениях верхней и нижней границы параметра и о том, как определить длину последовательности.

Если быть точным, предположим, что у нас есть проблема и мы хотим найти оптимальное значение для штрафа, . Тогда как мы можем выбрать нижнюю и верхнюю границу для ? и сколько делится между этими двумя значениями ?

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?

Связанный вопрос здесь .
Ричард Харди

Ответы:


13

Эта методология описана в статье о путях регуляризации glmnet для обобщенных линейных моделей с помощью координатного спуска . Хотя здесь используется методология для общего случая регуляризации как и , она также должна применяться к LASSO (только ).L1L2L1

Решение для максимума приведено в разделе 2.5. λ

Когда , мы видим из (5), что останется нулевым, если . Следовательно,β~=0β~j1N|xj,y|<λαNαλmax=maxl|xl,y|

То есть мы наблюдаем, что правило обновления для бета приводит к обнулению всех оценок параметров для как определено выше.λ>λmax

Определение и количества точек сетки кажется менее принципиальным. В glmnet они устанавливают , а затем выбирают сетку из одинаково расположенных точек в логарифмическом масштабе.λminλmin=0.001λmax100

Это хорошо работает на практике, при моем широком использовании glmnet я никогда не находил эту сетку слишком грубой.

В случае LASSO ( ) все работает лучше, так как метод LARS обеспечивает точное вычисление того, когда различные предикторы входят в модель. Истинный LARS не выполняет поиск в сетке по , вместо этого производит точное выражение для путей решения для коэффициентов. Вот подробный взгляд на точное вычисление путей коэффициентов в случае двух предикторов.L1λ

Случай для нелинейных моделей (т. Е. Логистических, пуассоновских) более сложен. На высоком уровне сначала получается квадратичное приближение к функции потерь при начальных параметрах , а затем для определения используется приведенный выше расчет . Точное вычисление путей параметров в этих случаях невозможно, даже если обеспечивается только регуляризация , поэтому поиск по сетке является единственным вариантом.β=0λmaxL1

Выборочные веса также усложняют ситуацию, внутренние продукты должны быть заменены в соответствующих местах на взвешенные внутренние продукты.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.