Регуляризованная линейная или RKHS-регрессия

Я изучаю разницу между регуляризацией в регрессии RKHS и линейной регрессией, но мне трудно понять решающее различие между ними.

Учитывая пары ввода-вывода , я хочу оценить функцию следующим образом: где - функция ядра. Коэффициенты можно найти, решив где с некоторым неправильным обозначением -й элемент матрицы ядра это . Это дает $(x_i,y_i)$ $f(\cdot)$

f (x) \approx u (x) = \sum_{i = 1}^{m} α_{i} K (x, x_{i}),

$\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}$

K (\cdot, \cdot)

$K(\cdot,\cdot)$

α_{m}

$\alpha_m$

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} K α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}$

i, j

$i,j$

K

$K$

K (x_{i}, x_{j})

$K(x_{i},x_{j})$

α^{*} = (K + λ n I)^{- 1} Y .

$\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation}$ В качестве альтернативы, мы могли бы рассматривать эту проблему как проблему нормальной регрессии / линейной регрессии:

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}\alpha},\end{equation}$ с решением

α^{*} = (K^{T} K + λ n I)^{- 1} K^{T} Y .

$\begin{equation} {\alpha^*=(K^{T}K +\lambda nI)^{-1}K^{T}Y}. \end{equation}$

Какова будет принципиальная разница между этими двумя подходами и их решениями?

— MthQ
источник

stats.stackexchange.com/questions/79192/…

— Кагдас Озгенц

@MThQ - Разве ваше описание «нормальной» регрессии гребня все еще работает в дуале? Просто чтобы уточнить, что я думаю, что нормальная регрессия гребня предполагается работать в первичном (где делается явное представление признаков).

— rnoodle

Как вы, наверное, заметили, записывая задачи оптимизации, единственное различие в минимизации состоит в том, какую норму Гильберта использовать для наказания. То есть, чтобы определить, какие «большие» значения используются для целей наказания. В настройке RKHS мы используем внутренний продукт RKHS, , тогда как регрессия гребня штрафует по отношению к евклидовой норме. $\alpha$ $\alpha^tK\alpha$

Интересный теоретический результат является , как каждым метод эффектов спектров воспроизводящего ядра . Согласно теории RKHS, симметрично положительно определен. По спектральной теореме можно написать где - диагональная матрица собственных значений, а - ортонормированная матрица собственных векторов. Следовательно, в настройке RKHS Между тем, в настройке регрессии Риджа обратите внимание, что по симметрии, $K$ $K$ $K = U^tDU$ $D$ $U$

\begin{aligned} (K + λ n I)^{- 1} Y & = [U^{t} (D + λ n I) U]^{- 1} Y \\ = U^{t} [D + λ n I]^{- 1} U Y . \end{aligned}

$\begin{align} (K+\lambda nI)^{-1}Y &= [U^t(D+\lambda nI)U]^{-1}Y\\ &= U^t[D+\lambda nI]^{-1}UY. \end{align}$

K^{t} K = K^{2}

$K^tK=K^2$

\begin{aligned} (K^{2} + λ n I)^{- 1} K Y & = [U^{t} (D^{2} + λ n I) U]^{- 1} K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} U K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} D U Y \\ = U^{t} [D + λ n D^{- 1}]^{- 1} U Y . \end{aligned}

$\begin{align} (K^2+\lambda nI)^{-1}KY &= [U^t(D^2+\lambda nI)U]^{-1}KY\\ &= U^t[D^2+\lambda nI]^{-1}UKY\\ &= U^t[D^2+\lambda nI]^{-1}DUY\\ &= U^t[D+\lambda nD^{-1}]^{-1}UY. \end{align}$ Пусть спектр будет . В регрессии RKHS собственные значения стабилизируются с помощью . В регрессии Риджа мы имеем . В результате RKHS равномерно изменяет собственные значения, в то время как Ridge добавляет большее значение, если соответствующий меньше.

K

$K$

ν_{1}, \dots, ν_{n}

$\nu_1,\ldots,\nu_n$

ν_{i} \to ν_{i} + λ n

$\nu_i\rightarrow\nu_i+\lambda n$

ν_{i} \to ν_{i} + λ n / ν_{i}

$\nu_i\rightarrow \nu_i + \lambda n/\nu_i$

ν_{i}

$\nu_i$

В зависимости от выбора ядра две оценки для могут быть близки или удалены друг от друга. Расстояние в смысле нормы оператора будет Однако, это все еще ограничено для данного $\alpha$

\begin{aligned} ‖ α_{RKHS} - α_{Ridge} ‖_{ℓ^{2}} & = ‖ A_{RKHS} Y - A_{Ridge} Y ‖_{ℓ^{2}} \\ \leq ‖ [D + λ n I]^{- 1} - [D + λ n D^{- 1}]^{- 1} ‖_{\infty} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {| (ν_{i} + λ n)^{- 1} - (ν_{i} + λ n / ν_{i})^{- 1} |} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {\frac{λ n | 1 - ν_{i} |}{(ν_{i} + λ n) (ν_{i}^{2} + λ n)}} ‖ Y ‖_{ℓ^{2}} \end{aligned}

$\begin{align} \|{\alpha_\text{RKHS}-\alpha_\text{Ridge}}\|_{\ell^2} &= \|{ A_\text{RKHS}Y-A_\text{Ridge}Y }\|_{\ell^2}\\ &\le \|[D+\lambda nI]^{-1}-[D+\lambda n D^{-1}]^{-1}\|_\infty\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{| (\nu_i+\lambda n)^{-1} - (\nu_i+\lambda n/\nu_i)^{-1} |\right\}\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{ \frac{\lambda n|1-\nu_i|}{(\nu_i+\lambda n)(\nu_i^2+\lambda n)} \right\}\|Y\|_{\ell^2}\\ \end{align}$

Y

$Y$ Таким образом, ваши две оценки не могут быть произвольно далеко друг от друга. Следовательно, если ваше ядро близко к идентичности, то, скорее всего, будет мало различий в подходах. Если ваши ядра сильно различаются, оба подхода могут привести к схожим результатам.

На практике трудно сказать однозначно, является ли одно лучше другого в данной ситуации. Поскольку мы минимизируем квадратичную ошибку при представлении данных в терминах функции ядра, мы эффективно выбираем лучшую регрессионную кривую из соответствующего гильбертова пространства функций. Следовательно, наказание по отношению к внутреннему продукту RKHS, кажется, естественный путь.

— Адам Б Кашлак
источник

У вас есть ссылка на это?

— rnoodle