Модификация Лассо для LARS


12

Я пытаюсь понять, как алгоритм Ларса может быть изменен для генерации лассо. Хотя я понимаю LARS, я не могу видеть модификацию Лассо из статьи Tibshirani et al. В частности, я не понимаю, почему условие знака в том, что знак ненулевой координаты должен совпадать со знаком текущей корреляции. Может кто-нибудь, пожалуйста, помогите мне с этим. Я предполагаю, что ищу математическое доказательство, используя условие KKT для исходной задачи нормы L-1, то есть лассо. Спасибо большое!


Вы ссылаетесь на stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf Эфрона и др. ? Это доказывается в лемме 8 раздела 5. Или я неправильно понимаю ваш вопрос?
Питер Эллис

1
Я также не уверен в этом вопросе, но на самом деле, Лассо является упрощением Ларса: для Лассо вы ищете только положительные корреляции между текущим остатком и оставшимися базовыми функциями, поскольку только положительные корреляции приводят к положительным (~ неотрицательные) коэффициенты.
г-н Уайт

Ответы:


2

Пусть (размер п × р ) обозначает набор стандартных входов, у (размера п × 1 ) с центром ответов, & beta ; (размером р × 1 ) весовые коэффициенты регрессии и Л > 0 л 1 -норм коэффициента Недостатки.Xn×pyn×1βp×1λ>0l1

β=argminβ L(β,λ)L(β,λ)=yXβ22+λβ1

Решение этого для всех значений дает так называемый путь регуляризации LASSO .λ>0β(λ)

Для фиксированного значения коэффициента штрафования (т.е. фиксированное число активных предикторов = фиксированный шаг алгоритма LARS) можно показать, что удовлетворяет (просто запишите условие стационарности KKT, как в этом ответь )λβ

λ=2 sign(βa)XaT(yXβ),   aA

с представляет набор активных предикторов.A

Поскольку должен быть положительным (это коэффициент штрафования), ясно, что знак (вес любого ненулевого, следовательно, активного предиктора) должен быть таким же, как у т.е. корреляция с текущим остатком регрессии.λβaXaT(yXβ)=XaTr


1

@ Mr._White дал интуитивно понятное объяснение основного различия между LARS и Лассо; Единственное, что я хотел бы добавить, это то, что лассо (своего рода) похоже на подход обратного выбора, выбивая термин на каждом шаге, пока существует термин, для которого существует такая («нормализованная» по ) корреляция. LARS держит там все - в основном выполняет лассо в каждом возможном порядке. Это означает, что в лассо каждая итерация зависит от того, какие термины уже удалены. X×X

Реализация Effron хорошо иллюстрирует различия: lars.R в исходном pkg для lars . Обратите внимание на шаг обновления матриц matrix и начиная со строки 180, и удаление терминов, для которых . Я могу представить себе некоторые странные ситуации, возникающие в пространствах где термины не сбалансированы ( и очень коррелированы, но не с другими, с но не с другими и т. Д.). Порядок выбора может быть весьма предвзятым.X×Xζζmin<ζcurrentAx1x2x2x3

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.