Гауссово RBF против гауссова ядра

В чем разница между выполнением линейной регрессии с помощью гауссовой радиальной базисной функции (RBF) и выполнением линейной регрессии с использованием гауссовского ядра?

regression normal-distribution kernel-trick

— user35965
источник

Добро пожаловать на сайт, @ user35965. Пожалуйста, напишите свои аббревиатуры. Под «RBF» вы подразумеваете радиальную базисную функцию ?

— gung - Восстановить Монику

Да, это то, что я имел в виду. Должным образом отмечено для дальнейшего использования.

— user35965

Единственная реальная разница заключается в применяемой регуляризации. Регуляризованная сеть RBF обычно использует штраф, основанный на квадрате нормы весов. Для версии ядра штраф обычно накладывается на квадратичную норму весов линейной модели, неявно построенной в пространстве признаков, индуцированном ядром. Ключевое практическое отличие, которое это делает, состоит в том, что штраф за сеть RBF зависит от центров сети RBF (и, следовательно, от выборки используемых данных), тогда как для ядра RBF пространство индуцированных признаков является одинаковым независимо от выборки данные, поэтому штраф является штрафом за функцию модели, а не за ее параметризацию .

Другими словами, для обеих моделей мы имеем

$f(\vec{x}') = \sum_{i=1}^\ell \alpha_i \mathcal{K}(\vec{x}_i, \vec{x}')$

Для сетевого подхода RBF критерием обучения является

$L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \|\alpha\|^2$

Для метода ядра RBF у нас есть $\mathcal{K}(\vec{x},\vec{x}') = \phi(\vec{x})\cdot\phi(\vec{x}')$ и $\vec{w} = \sum_{i=1}^\ell \alpha_i\phi(\vec{x}_i)$ . Это означает, что квадрат нормы штрафа для весов модели в индуцированном пространстве признаков, $\vec{w}$ можно записать в терминах двойственных параметров, $\vec{\alpha}$ как

$\|\vec{w}\|^2 = \vec{\alpha}^T\matrix{K}\vec{\alpha},$

где - это матрица попарных оценок ядра для всех шаблонов обучения. Тогда критерий обучения $\matrix{K}$

$L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \vec{\alpha}^T\matrix{K}\vec{\alpha}$ .

Единственное различие между этими двумя моделями заключается в в члене регуляризации. $\matrix{K}$

Ключевое теоретическое преимущество подхода на основе ядра состоит в том, что он позволяет интерпретировать нелинейную модель как линейную модель после фиксированного нелинейного преобразования, которое не зависит от выборки данных. Таким образом, любая статистическая теория обучения, существующая для линейных моделей, автоматически переходит к нелинейной версии. Тем не менее, все это ломается, как только вы пытаетесь настроить параметры ядра, и в этот момент мы возвращаемся к той же точке теоретически, как и в случае с нейронными сетями RBF (и MLP). Так что теоретическое преимущество, возможно, не так велико, как хотелось бы.

Это может реально повлиять на производительность? Наверное, не очень. Теоремы «без бесплатного обеда» предполагают, что нет никакого априорного превосходства какого-либо алгоритма над всеми другими, и различие в регуляризации довольно тонкое, поэтому, если сомневаетесь, попробуйте оба варианта и выберите лучший в соответствии, например, с перекрестной проверкой.

— Дикран Сумчатый
источник

@CagdasOzgenc Да, для RBF регуляризатором является а не для компьютера ядра. Они станут более похожими , как ширина базисной функции приближается к нулю, будет приближаться . Я думаю, что это в основном потому, что учитывает корреляцию между основными функциями.

‖ \vec{α} ‖^{2} = {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\|\vec{\alpha}\|^2 = \vec{\alpha}^T\matrix{I}\vec{\alpha}$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha}$

K

$K$

I

$I$

K

$K$

— Дикран Marsupial

@CagdasOzgenc С моей точки зрения, в регуляризаторе по-разному взвешивает штраф для каждого базисного вектора, а штраф зависит от выбора других базисных векторов. Этот вес зависит от их корреляции, поэтому, если вы выберете другую выборку, веса изменятся, чтобы компенсировать. Другой способ взглянуть на это состоит в том, что модель определяется в пространстве признаков, определяемом , которое не зависит от выбора базисных векторов (при условии, что они охватывают пространство, содержащее данные).

K

$K$

ϕ (x)

$\phi(x)$

— Дикран Marsupial

@CagdasOzgenc Конечно, мы можем преобразовать пространство базисных функций путем собственного разложения и вернуть регуляризатор в стиле (действительно, это полезный прием для оптимизации параметра регуляризации - doi.org/10.1016/j.neunet.2007.05.005 ). Однако это преобразование устраняет зависимость первоначального выбора базисной функции. Для того, чтобы две вещи были равны, потребуется , что, как правило, не так (особенно не для ядра RBF).

K

$K$

‖ {\vec{α}}^{'} ‖^{2}

$\|\vec{\alpha}'\|^2$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α} = μ {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha} = \mu\vec{\alpha}^T\matrix{I}\vec{\alpha}$

— Дикран Marsupial

Спасибо. Я поразмышляю над этим, вернусь к вам. На данный момент кажется, что я не на вашем уровне понимания. Мне нужно больше думать :).

— Кагдас Озгенц

@CagdasOzgenc без проблем, большинство стандартных текстов объясняют это через собственные функции ядра, которые также делают мой мозг болящим! ; о)

— Дикран Сумчатый