Является ли регуляризация Тихонова такой же, как и у хребта?

Регуляризация Тихонова и регрессия гребня - термины, часто используемые, как если бы они были идентичны. Можно ли точно указать, в чем разница?

— деревенщина
источник

Ответы:

Регуляризация Тихонова представляет собой больший набор, чем гребневая регрессия. Вот моя попытка объяснить, как именно они отличаются.

Предположим, что для известной матрицы $A$ и вектора $b$ мы хотим найти вектор $\mathbf{x}$ такой, что:

$A\mathbf{x}=\mathbf{b}$ .

Стандартный подход - обычная линейная регрессия наименьших квадратов. Однако, если нет $x$ удовлетворяет уравнение или более чем один $x$ делает тот это решение не единственно-проблема , как говорят, чтобы быть некорректными. Обычные наименьшие квадраты стремятся минимизировать сумму квадратов невязок, которая может быть кратко записана как:

$\|A\mathbf{x}-\mathbf{b}\|^2$

гдеэто евклидова норма. В матричной записи решение, обозначаемое , имеет вид: $\left \| \cdot \right \|$ $\hat{x}$

$\hat{x} = (A^{T}A)^{-1}A^{T}\mathbf{b}$

Тихоновская регуляризация минимизирует

$\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$

для некоторой подходяще выбранной матрицы Тихонова . Явное решение в форме матрицы, обозначаемое , задается как: $\Gamma$ $\hat{x}$

$\hat{x} = (A^{T}A+ \Gamma^{T} \Gamma )^{-1}A^{T}{b}$

Эффект регуляризации может варьироваться через шкалу матрицы . Для это сводится к нерегулярному решению наименьших квадратов при условии, что (A ^T A) ⁻¹ $\Gamma$ $\Gamma = 0$ .

Обычно для регрессии гребня описаны два отклонения от регуляризации Тихонова. Во-первых, матрица Тихонова заменяется кратным единичной матрицы

$\Gamma= \alpha I$ ,

отдавая предпочтение решениям с меньшей нормой, т. е. норме . Тогда становится приводя к $L_2$ $\Gamma^{T} \Gamma$ $\alpha^2 I$

$\hat{x} = (A^{T}A+ \alpha^2 I )^{-1}A^{T}{b}$

Наконец, для регрессии гребня обычно предполагается, что переменные масштабируются так, чтобы имел форму корреляционной матрицы. и - вектор корреляции между переменными и , приводящий к $A$ $X^{T}X$ $X^{T}b$ $x$ $b$

$\hat{x} = (X^{T}X+ \alpha^2 I )^{-1}X^{T}{b}$

Обратите внимание, что в этом виде множитель Лагранжа обычно заменяется на , или каким-либо другим символом, но сохраняет свойство $\alpha^2$ $k$ $\lambda$ $\lambda\geq0$

Формулируя этот ответ, я признаю заимствование свободно из Википедии и из оценки Риджа весов передаточных функций.

— деревенщина
источник

(+1) Для полноты картины стоит отметить, что при практическом применении регуляризованная система обычно записывается в виде

, который затем может быть решена как стандарт линейной задачи наименьших квадратов (напримерпомощью QR/ СВД на

, без явного формирования нормальных уравнений).

[\begin{matrix} A \\ α Γ \end{matrix}] x \approx [\begin{matrix} b \\ 0 \end{matrix}] ⟹ \hat{A} x \approx \hat{b}

$\begin{bmatrix}A\\ \alpha \Gamma\\ \end{bmatrix}x\approx\begin{bmatrix}b\\0\\ \end{bmatrix}\implies \hat{A}x\approx \hat{b}$

\hat{A}

$\hat{A}$

— GeoMatt22

Хорошая точка зрения. Я добавлю это позже.

— Карл

Являются ли сглаживающие сплайны и подобные методы расширения базиса подмножеством регуляризации Тихонова?

— Sycorax говорит восстановить Monica

@ Sycorax Я не ожидаю, что так. Например, B-сплайн установит производные в ноль в конечных точках и сопоставит производные и величины сплайна с данными между конечными точками. Регуляризация Тихонова минимизирует любую ошибку параметров, о которой вы сообщаете, изменяя наклон подгонки. Итак, разные вещи.

— Карл

Кроме того, регуляризация Тихонова имеет формулировку в произвольных размерностях для (сепарабельных?) Гильбертовых пространств

— AIM_BLB

Карл дал исчерпывающий ответ, который хорошо объясняет математические различия между регуляризацией Тихонова и регрессией гребня. Вдохновленный исторической дискуссией здесь , я подумал, что было бы полезно добавить короткий пример, демонстрирующий, как более общая структура Тихонова может быть полезна.

Сначала краткая заметка о контексте. Хребетная регрессия возникла в статистике, и в то время как регуляризация в настоящее время широко распространена в статистике и машинном обучении, подход Тихонова был первоначально мотивирован обратными проблемами, возникающими при ассимиляции данных на основе моделей (особенно в геофизике ). Упрощенный пример ниже относится к этой категории (более сложные версии используются для реконструкций палеоклимата ).

Представьте, что мы хотим восстановить температуры в прошлом на основе современных измерений . В нашей упрощенной модели мы будем предполагать, что температура развивается в соответствии с уравнением теплопроводности в 1D с периодическими граничными условиями конечная разность $u[x,t=0]$ $u[x,t=T]$

u_{t} = u_{x x}

$u_t = u_{xx}$

u [x + L, t] = u [x, t]

$u[x+L,t] = u[x,t]$ A просто (явно) подход приводит к дискретной модели

Математически матрица эволюции

обратима, поэтому мы имеем

Однакочисленнотрудности возникнут, если интервал времени

слишком велик.

\frac{Δ u}{Δ t} = \frac{L u}{Δ x^{2}} ⟹ u_{t + 1} = {A u}_{t}

$\frac{\Delta\mathbf{u}}{\Delta{t}} = \frac{\mathbf{Lu}}{\Delta{x^2}} \implies \mathbf{u}_{t+1} = \mathbf{Au}_t$

A

$\mathbf{A}$

u_{t} = {A^{- 1} u}_{t + 1}

$\mathbf{u}_t = \mathbf{A^{-1}u}_{t+1}$

T

$T$

Тихонов регуляризация может решить эту проблему путем решения

\begin{aligned} {A u}_{t} & \approx u_{t + 1} \\ ω {L u}_{t} & \approx 0 \end{aligned}

$\begin{align} \mathbf{Au}_t &\approx \mathbf{u}_{t+1} \\ \omega\mathbf{Lu}_t &\approx \mathbf{0} \end{align}$

ω^{2} ≪ 1

$\omega^2\ll{1}$

u_{x x}

$u_{xx}$

Ниже приводится сравнение результатов:

$u_0$ $u_\mathsf{fwd}$ $u_0$ $u_\mathsf{inv}$ $u_\mathsf{reg}$ $u_0$ с достаточно хорошей точностью.

$\mathbf{u}$ $u_t\approx{0}$

Код Matlab для примера приведен ниже (его можно запустить здесь ).

% Tikhonov Regularization Example: Inverse Heat Equation
n=15; t=2e1; w=1e-2; % grid size, # time steps, regularization
L=toeplitz(sparse([-2,1,zeros(1,n-3),1]/2)); % laplacian (periodic BCs)
A=(speye(n)+L)^t; % forward operator (diffusion)
x=(0:n-1)'; u0=sin(2*pi*x/n); % initial condition (periodic & smooth)
ufwd=A*u0; % forward model
uinv=A\ufwd; % inverse model
ureg=[A;w*L]\[ufwd;zeros(n,1)]; % regularized inverse
plot(x,u0,'k.-',x,ufwd,'k:',x,uinv,'r.:',x,ureg,'ro');
set(legend('u_0','u_{fwd}','u_{inv}','u_{reg}'),'box','off');

— GeoMatt22
источник

Все комплименты тепло приняты. Стоит отметить, хотя и немного не по теме, что регуляризация Тихонова и регрессия гребня могут использоваться для нацеливания на цели физической регрессии. (+1)

— Карл

@ Карл, это, конечно, правда. Мы могли бы даже использовать это здесь , переключая переменные в

v = L u

$v=Lu$ ! (В общем, любая задача Тихонова с обратимой матрицей Тихонова может быть преобразована в регрессию гребня.)

— GeoMatt22