Ответы:
Достаточно изменить функцию потерь, добавив штраф. В матричных терминах начальная функция квадратичных потерь становится
Давайте будем опираться на то, что мы знаем, а именно на то, что всякий раз, когда матрица модели равна , вектор ответа равен , а параметр -vector равен , целевой функцииX n y p β
(которое является суммой квадратов невязок) минимизируется, когда решает нормальные уравнения
Регрессия гребня добавляет еще один термин к целевой функции (обычно после стандартизации всех переменных, чтобы поставить их в общую основу), прося минимизировать
для некоторой неотрицательной константы . Это сумма квадратов невязок плюс кратная сумма квадратов самих коэффициентов (делая очевидным, что у нее есть глобальный минимум). Поскольку , он имеет положительный квадратный корень .λ ≥ 0 ν 2
Рассмотрим матрицу дополненную строками, соответствующими умноженному на единичной матрице :ν p × p
Когда вектор аналогично расширен нулей в конце концов к , матричное произведение в целевой функции добавляет дополнительные слагаемые вида к первоначальной цели. Следовательноp y ∗ p ( 0 - ν β i ) 2 = λ β 2 i
Из формы левого выражения сразу видно, что нормальные уравнения
Поскольку мы добавили нули к концу , правая часть совпадает с . На левой стороне добавляется к исходному . Поэтому новые нормальные уравнения упрощаются доX ′ y ν 2 I = λ I X ′ X
Помимо того, что он является концептуально экономичным - для получения этого результата не требуется никаких новых манипуляций - он также является экономически вычислительным: ваше программное обеспечение для выполнения обычных наименьших квадратов также будет выполнять регрессию гребня без каких-либо изменений. (Тем не менее, в больших задачах может быть полезно использовать программное обеспечение, разработанное для этой цели, потому что оно будет использовать специальную структуру для эффективного получения результатов для плотно разнесенного интервала , позволяя вам исследовать, как варьируются ответы с .) λ λ
Еще одна прелесть этого взгляда на вещи заключается в том, как он помогает нам понять регрессию гребня. Когда мы хотим по-настоящему понять регрессию, это почти всегда помогает думать о ней геометрически: столбцы составляют векторов в реальном векторном пространстве размерности . Присоединяя к , продолжая тем самым их от векторов до -векторов, мы встраиваем в большее пространство , включая «мнимые», взаимно ортогональные направления. Первый столбецp n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0дается небольшая мнимая составляющая размера , что удлиняет его и выводит из пространства, созданного исходными столбцами . Второй, третий, ..., столбцы аналогичным образом удлиняются и перемещаются из исходного пространства на ту же величину - но все в разных новых направлениях. Следовательно, любая коллинеарность, присутствующая в исходных столбцах, будет немедленно разрешена. Более того, чем больше становится, тем больше эти новые векторы приближаются к индивидуальномувоображаемые направления: они становятся все более ортонормированными. Следовательно, решение нормальных уравнений сразу станет возможным, и оно быстро станет численно устойчивым при увеличении от .
Это описание процесса предлагает некоторые новые и творческие подходы к решению проблем, для решения которых была разработана Ridge Regression. Например, используя любые средства (такие как разложение дисперсии, описанное Белсли, Кухом и Уэлшем в их книге 1980 года о регрессионной диагностике , глава 3), вы сможете определить подгруппы почти коллинеарных столбцов , где каждая подгруппа почти ортогонально к любому другому. Вам нужно только присоединить столько строк к (и нули к ), сколько есть элементов в самой большой группе, выделив одно новое «мнимое» измерение для смещения каждого элемента группы от его братьев и сестер: вам не нужно воображаемое Размеры, чтобы сделать это.X y p
Недавно я наткнулся на тот же вопрос в контексте P-сплайнов, и поскольку концепция та же самая, я хочу дать более подробный ответ о выводе оценки гребня.
Мы начнем с штрафной целевой функции, которая отличается от классической OLS-целевой функции своим штрафным членом в последнем слагаемом:
где
Мы можем переписать этот критерий в матричной нотации и далее разбить его:
где I - единичная матрица
Теперь мы ищем который минимизирует наш критерий. Среди прочего мы используем правило матрицы дифференцирования ∂ х T хкоторый мы можем применить здесь как(XTX+λI)∈Rn×n:
Есть несколько важных вещей, которые отсутствуют в ответах.
Решение для является производным от необходимого условия первого порядка: ∂ е р я д г е ( β , λ )которое даетр=(XTX+λI)-1хТУ. Но достаточно ли этого? То есть решение является глобальным минимумом только в том случае, еслиfridge(β,λ)строго выпуклая. Это может быть показано, чтобы быть правдой.
Другой способ взглянуть на проблему - это увидеть эквивалентность между и f O L S ( β ) = ( Y - β T X ) T ( Y - β T X ), ограниченную | | β | | 2 2 ≤ т . OLS обозначает Обычные Наименьшие Квадраты. С этой точки зрения ф г I- это только лагранжева функция, используемая для нахождения глобальных минимумов выпуклой целевой функции f O L S (β),ограниченной выпуклой функцией | | β | | 2 2 .
Хорошее объяснение этих моментов и происхождение можно найти в этих прекрасных заметках к лекции: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf