Как доказать, что радиальная базисная функция является ядром?

35

Как доказать, что радиальная базисная функция $k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})$ ядро? Насколько я понимаю, чтобы доказать это, мы должны доказать одно из следующего:

Для любого набора векторов $x_1, x_2, ..., x_n$ матрица $K(x_1, x_2, ..., x_n)$ = $(k(x_i, x_j))_{n \times n}$ неотрицательно.
Отображение $\Phi$ может быть представлен , например , как $k(x, y)$ = $\langle\Phi(x), \Phi(y)\rangle$ .

Любая помощь?

svm kernel-trick

— Лео
источник

1

Просто чтобы связать это более очевидно: карта характеристик также обсуждается в этом вопросе , в частности , ответ Марка Клезена, основанный на моих рядах Тейлора, который обсуждает как RKHS, так и общую версию вложения

L_{2}

$L_2$ приведенную Дугласом ниже.

— Дугал

26

Дзен использовал метод 1. Вот метод 2: Отображение $x$ в сферически симметричное гауссово распределение с центром в $x$ в гильбертовом пространстве $L^2$ . Стандартное отклонение и постоянный коэффициент должны быть настроены для точной работы. Например, в одном измерении

\int_{- \infty}^{\infty} \frac{\exp [- (x - z)^{2} / (2 σ^{2})]}{\sqrt{2 π} σ} \frac{\exp [- (y - z)^{2} / (2 σ^{2})}{\sqrt{2 π} σ} d z = \frac{\exp [- (x - y)^{2} / (4 σ^{2})]}{2 \sqrt{π} σ} .

$\int_{-\infty}^\infty \frac{\exp[-(x-z)^2/(2\sigma^2)]}{\sqrt{2 \pi} \sigma} \frac{\exp[-(y-z)^2/(2 \sigma^2)}{\sqrt{2 \pi} \sigma} dz = \frac{\exp [-(x-y)^2/(4 \sigma^2)]}{2 \sqrt \pi \sigma}.$

Итак, используйте стандартное отклонение и масштабировать гауссово распределениечтобы получить. Это последнее изменение масштаба происходит потому, чтонорманормального распределенияв общем случаене равна. $\sigma/\sqrt 2$ $k(x,y) = \langle \Phi(x), \Phi(y)\rangle$ $L^2$ $1$

— Дуглас Заре
источник

2

@Zen, Дуглас Заре: спасибо за ваши великолепные ответы. Как мне теперь выбрать официальный ответ?

— Лев

23

Я буду использовать метод 1. Проверьте ответ Дугласа Заре для доказательства, используя метод 2.

Я докажу случай , когда являются вещественными числами, поэтому . Общий случай вытекает mutatis mutandis из того же аргумента и заслуживает рассмотрения. $x,y$ $k(x,y)=\exp(-(x-y)^2/2\sigma^2)$

Без ограничения общности предположим, что . $\sigma^2=1$

Запишите , где $k(x,y)=h(x-y)$ - характеристическая функция случайной величинысраспределением.

h (t) = \exp (- \frac{t^{2}}{2}) = E [e^{i t Z}]

$h(t)=\exp\left(-\frac{t^2}{2}\right)=\mathrm{E}\left[e^{itZ}\right]$

Z

$Z$

N (0, 1)

$N(0,1)$

Для действительных чисел и имеем $x_1,\dots,x_n$ $a_1,\dots,a_n$ что влечет за собой то, что - положительная полуопределенная функция, то есть ядро.

\sum_{j, k = 1}^{n} a_{j} a_{k} h (x_{j} - x_{k}) = \sum_{j, k = 1}^{n} a_{j} a_{k} E [e^{i (x_{j} - x_{k}) Z}] = E [\sum_{j, k = 1}^{n} a_{j} e^{i x_{j} Z} a_{k} e^{- i x_{k} Z}] = E [{| \sum_{j = 1}^{n} a_{j} e^{i x_{j} Z} |}^{2}] \geq 0,

$\sum_{j,k=1}^n a_j\,a_k\,h(x_j-x_k) = \sum_{j,k=1}^n a_j\,a_k\,\mathrm{E} \left[ e^{i(x_j-x_k)Z}\right] = \mathrm{E} \left[ \sum_{j,k=1}^n a_j\,e^{i x_j Z}\,a_k\,e^{-i x_k Z}\right] = \mathrm{E}\left[ \left| \sum_{j=1}^n a_j\,e^{i x_j Z}\right|^2\right] \geq 0 \, ,$

k

$k$

Чтобы понять этот результат в большей общности, ознакомьтесь с теоремой Бохнера: http://en.wikipedia.org/wiki/Positive-definite_function

— Zen
источник

2

Это хорошее начало в правильном направлении с двумя оговорками: (a)

не равно ожидаемому показанию (проверьте знак в показателе степени) и (b) это, по-видимому, ограничивает внимание случаем, когда

и

скаляры, а не векторы. Тем временем я проголосовал, потому что выставка хорошая и чистая, и я уверен, что вы быстро закроете эти небольшие пробелы. :-)

h (t)

$h(t)$

x

$x$

y

$y$

— кардинал

1

Tks! Я спешу сюда. :-)

— Zen

1

Извините, я действительно не понимаю, как вы управляете mutatis mutandis здесь. Если вы разрабатываете норму до перехода в форму

, значит, у вас есть продукты, и вы не можете менять продукты и суммировать. И я просто не вижу, как разработать норму после перехода в форму h, чтобы получить хорошее выражение. Можете ли вы привести меня немного там? :)

h

$h$

— Alburkerk

23

Я добавлю третий метод, просто для разнообразия: сборка ядра из последовательности общих шагов, известных для создания ядер pd. Обозначим через область нижних ядер и отображения признаков. $\mathcal X$ $\varphi$

$\kappa$ $\gamma \kappa$ $\gamma > 0$

$\varphi$ $\kappa$ $\sqrt\gamma \varphi$ $\gamma \kappa$
$\kappa_1$ $\kappa_2$ $\kappa_1 + \kappa_2$

$\varphi_1$ $\varphi_2$ $x \mapsto \begin{bmatrix}\varphi_1(x) \\ \varphi_2(x)\end{bmatrix}$
$\kappa_1, \kappa_2, \dots$ are pd kernels, and $\kappa(x, y) := \lim_{n \to \infty} \kappa_n(x, y)$ exists for all $x, y$ , then $\kappa$ is pd.

Proof: For each $m, n \ge 1$ and every $\{ (x_i, c_i) \}_{i=1}^m \subseteq \mathcal{X} \times \mathbb R$ we have that $\sum_{i=1}^m c_i \kappa_n(x_i, x_j) c_j \ge 0$ . Taking the limit as $n \to \infty$ gives the same property for $\kappa$ .
Products: If $\kappa_1$ and $\kappa_2$ are pd kernels, so is $g(x, y) = \kappa_1(x, y) \, \kappa_2(x, y)$ .

Proof: It follows immediately from the Schur product theorem, but Schölkopf and Smola (2002) give the following nice, elementary proof. Let
$(V_{1}, \dots, V_{m}) \sim N (0, {[κ_{1} (x_{i}, x_{j})]}_{i j}) (W_{1}, \dots, W_{m}) \sim N (0, {[κ_{2} (x_{i}, x_{j})]}_{i j})$ $(V_1, \dots, V_m) \sim \mathcal{N}\left( 0, \left[ \kappa_1(x_i, x_j) \right]_{ij} \right) \\ (W_1, \dots, W_m) \sim \mathcal{N}\left( 0, \left[ \kappa_2(x_i, x_j) \right]_{ij} \right)$ be independent. Thus $C o v (V_{i} W_{i}, V_{j} W_{j}) = C o v (V_{i}, V_{j}) C o v (W_{i}, W_{j}) = κ_{1} (x_{i}, x_{j}) κ_{2} (x_{i}, x_{j}) .$ $\mathrm{Cov}(V_i W_i, V_j W_j) = \mathrm{Cov}(V_i, V_j) \,\mathrm{Cov}(W_i, W_j) = \kappa_1(x_i, x_j) \kappa_2(x_i, x_j).$ Covariance matrices must be psd, so considering the covariance matrix of $(V_1 W_1, \dots, V_n W_n)$ proves it.
Powers: If $\kappa$ is a pd kernel, so is $\kappa^n(x, y) := \kappa(x, y)^n$ for any positive integer $n$ .

Proof: immediate from the "products" property.
Exponents: If $\kappa$ is a pd kernel, so is $e^\kappa(x, y) := \exp(\kappa(x, y))$ .

Proof: We have $e^\kappa(x, y) = \lim_{N \to \infty} \sum_{n=0}^N \frac{1}{n!} \kappa(x, y)^n$ ; use the "powers", "scalings", "sums", and "limits" properties.
Functions: If $\kappa$ is a pd kernel and $f : \mathcal X \to \mathbb R$ , $g(x, y) := f(x) \kappa(x, y) f(y)$ is as well.

Proof: Use the feature map $x \mapsto f(x) \varphi(x)$ .

Now, note that

\begin{aligned} k (x, y) & = \exp (- \frac{1}{2 σ^{2}} ‖ x - y ‖^{2}) \\ = \exp (- \frac{1}{2 σ^{2}} ‖ x ‖^{2}) \exp (\frac{1}{σ^{2}} x^{T} y) \exp (- \frac{1}{2 σ^{2}} ‖ y ‖^{2}) . \end{aligned}

$\begin{align*} k(x, y) &= \exp\left( - \tfrac{1}{2 \sigma^2} \lVert x - y \rVert^2 \right) \\&= \exp\left( - \tfrac{1}{2 \sigma^2} \lVert x \rVert^2 \right) \exp\left( \tfrac{1}{\sigma^2} x^T y \right) \exp\left( - \tfrac{1}{2 \sigma^2} \lVert y \rVert^2 \right) .\end{align*}$ Start with the linear kernel

κ (x, y) = x^{T} y

$\kappa(x, y) = x^T y$ , apply "scalings" with

\frac{1}{σ^{2}}

$\frac{1}{\sigma^2}$ , apply "exponents", and apply "functions" with

x \mapsto \exp (- \frac{1}{2 σ^{2}} ‖ x ‖^{2})

$x \mapsto \exp\left( - \tfrac{1}{2 \sigma^2} \lVert x \rVert^2 \right)$ .

— Dougal
источник