Применение регрессии гребня для недоопределенной системы уравнений?


9

Когда Yзнак равноИксβ+е , задача наименьших квадратов, которая накладывает сферическое ограничение на значение может быть записана как для переопределенной системы. \ | \ cdot \ | _2 - евклидова норма вектора.δβ

мин | |Y-Иксβ| |22s,T,  | |β| |22δ2
| || |2

Соответствующее решение для задается как который может быть получен из метода множителей Лагранжа ( - множитель): & beta ; = ( Х Т Х + λ I ) - 1 х Т у , λ L ( & beta ; , λ ) = | | у - Х & beta ; | | 2 2 + λ ( | | & beta ; | | 2 2 - δ 2 )β

β^знак равно(ИксTИкс+λя)-1ИксTY ,
λ
L(β,λ)знак равно| |Y-Иксβ| |22+λ(| |β| |22-δ2)

Я понимаю, что есть свойство, которое Правая часть напоминает псевдообратную матрицу регрессора в недоопределенном случае (с добавленным параметром регуляризации ). Означает ли это, что одно и то же выражение можно использовать для аппроксимации для недоопределенного случая? Есть ли отдельный вывод для соответствующего выражения в недоопределенном случае, поскольку сферическое ограничение ограничения избыточно с целевой функцией (минимальная норма ):Xλββ

(ИксTИкс+λя)-1ИксTзнак равноИксT(ИксИксT+λя)-1 ,
Иксλββ

мяN, | |β| |2s,T, Иксβзнак равноY ,

Ответы:


12

Начиная с постановки задачи регрессии гребня как

мин| |Иксβ-Y| |22+λ| |Икс| |22

Вы можете написать проблему как

мин| |Aβ-б| |22

где

Aзнак равно[Иксλя]

а также

бзнак равно[Y0],

Матрица имеет полный ранг по столбцам из-за часть. Таким образом, проблема наименьших квадратов как единственное решениеAλя

β^знак равно(ATA)-1ATб

Записывая это с точки зрения и , и упрощая множество нулей, мы получаемИксY

β^знак равно(ИксTИкс+λя)-1ИксTY

Ничто в этом выводе не зависит от того, имеет ли больше строк или столбцов, или даже от того, имеет ли полный ранг. Таким образом, эта формула применима к неопределенному случаю. ИксИкс

Это алгебраический факт, что для ,λ>0

(ИксTИкс+λя)-1ИксTзнак равноИксT(ИксИксT+λя)-1

Таким образом, у нас также есть возможность использования

β^знак равноИксT(ИксИксT+λя)-1Y .

Чтобы ответить на ваши конкретные вопросы:

  1. Да, обе формулы работают как для неопределенного случая, так и для чрезмерно определенного случая. Они также работают , если меньше минимального числа строк и столбцов . Вторая версия может быть более эффективной для задач, которые не определены, потому что меньше, чем в этом случае. ранг(Икс)ИксИксИксTИксTИкс

  2. Я не знаю какого-либо вывода альтернативной версии формулы, которая начинается с некоторой другой задачи с наименьшими квадратами и использует нормальные уравнения. В любом случае вы можете получить его прямым способом, используя немного алгебры.

Возможно, вы думаете о проблеме регрессии гребня в форме

мин| |β| |22

при условии

| |Иксβ-Y| |22ε,

Тем не менее, эта версия проблемы регрессии гребня просто приводит к той же самой проблеме затухающих наименьших квадратов .мин| |Иксβ-Y| |22+λ| |β| |22


2
Стоит отметить, что происходит в пределе, когда обращается в 0, если имеет полный ранг строки или полный ранг столбца. Если имеет полный ранг столбца, то в пределе вы получите псевдообратную форму . Точно так же, если имеет полный ранг строки, то в пределе вы получите псевдообратную . Итак, это работает так, как мы и ожидали. X X ( X T X ) - 1 X T X X T ( X X T ) - 1λИксИкс(ИксTИкс)-1ИксTИксИксT(ИксИксT)-1
Брайан Борчерс

Это феноменально исчерпывающий ответ, и вывод из расширенных массивов (плюс пропущенная мной алгебра) очень удовлетворителен. Я не думал о проблеме регрессии гребня в форме, которую вы представили в конце, но интересно видеть, что она приводит к той же целевой функции. Большое спасибо!
hatmatrix

1
Спасибо. Я вставлю здесь бесстыдную заглушку. Вы можете найти это (и множество связанных материалов) в учебнике по оценке параметров и обратным задачам, соавтором которого я был с Риком Астером и Клиффом Тербером.
Брайан Борчерз

1
Позвольте мне также добавить, что на самом деле вычисление этой обратной матрицы обычно не лучший способ использования этой формулы. В зависимости от размера и возможной разреженности вы можете быть гораздо лучше использовать итерационную схему или просто с помощью Чолески факторизации матрицы . X T X + λ IИксИксTИкс+λя
Брайан Борчерс

Спасибо за ваши предложения! Я ценю ссылку на вашу книгу, так как у меня возникли проблемы с поиском учебника по этому материалу. Наш размер данных на самом деле не очень большой (только то, что нам, возможно, придется применять это много раз для разделения наборов данных), поэтому может быть поддается прямому обращению, но спасибо за дополнительные указатели!
hatmatrix
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.