Преимущества гауссовских процессов

13

У меня эта путаница связана с преимуществами гауссовских процессов. Я имею в виду сравнение с простой линейной регрессией, где мы определили, что линейная функция моделирует данные.

Однако в гауссовых процессах мы определяем распределение функций, что означает, что мы не определяем, что функция должна быть линейной. Мы можем определить априор над функцией, которая является гауссовским априором, который определяет такие особенности, как то, насколько гладкой должна быть функция, и все.

Поэтому нам не нужно явно определять, какой должна быть модель. Однако у меня есть вопросы. У нас есть предельное правдоподобие, и, используя его, мы можем настроить параметры функции ковариации гауссовского априора. Так что это похоже на определение типа функции, которой она должна быть, не так ли.

Это сводится к тому же, что определяет параметры, хотя в GP они являются гиперпараметрами. Например, в этой статье . Они определили, что средняя функция ГП является чем-то вроде

м (Икс) знак равно a {Икс}^{2} + б Икс + с т.е. многочлен второго порядка.

$m(x) = ax ^2 + bx + c \quad \text{i.e. a second order polynomial.}$

Так что определенно модель / функция определена не так ли. Так какая разница в определении функции, которая будет линейной, как в LR.

Я просто не понял, какая польза от использования GP

gaussian-process

— user34790
источник

7

Давайте вспомним некоторые формулы о регрессии гауссовского процесса. Предположим, что у нас есть выборка . Для этого примера логарифмическое правдоподобие имеет вид: $D = (X,\mathbf{y}) = \{(\mathbf{x}_i, y_i)\}_{i = 1}^N$ где является матрицей ковариации образца. Там- ковариационная функция с параметрами, которые мы настраиваем, используя максимизацию логарифмического правдоподобия. Предсказание (среднее значение) для новой точкиимеет вид:

L знак равно - \frac{1}{2} (журнал | К | + Y^{T} К^{- 1} Y),

$L = -\frac12 \left( \log |K| + \mathbf{y}^T K^{-1} \mathbf{y}\right),$

K = {k (x_{i}, x_{j})}_{i, j = 1}^{N}

$K = \{k(\mathbf{x}_i, \mathbf{x}_j)\}_{i, j = 1}^N$

k (x_{i}, x_{j})

$k(\mathbf{x}_i, \mathbf{x}_j)$

x

$\mathbf{x}$

- вектор ковариаций между новой точкой и точками выборки. там

\hat{Y} (Икс) знак равно К К^{- 1} Y,

$\hat{y}(\mathbf{x}) = \mathbf{k} K^{-1} \mathbf{y},$

k = {k (x, x_{i})}_{i = 1}^{N}

$\mathbf{k} = \{k(\mathbf{x}, \mathbf{x}_i)\}_{i = 1}^N$

$k(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i^T \mathbf{x}_j$

\hat{Y} (Икс) знак равно {Икс}^{T} {Икс}^{T} (Икс {Икс}^{T})^{- 1} Y знак равно {Икс}^{T} ({Икс}^{T} Икс)^{- 1} {Икс}^{T} Y,

$\hat{y}(\mathbf{x}) = \mathbf{x}^T X^T (X X^T)^{-1} \mathbf{y} = \mathbf{x}^T (X^T X)^{-1} X^T \mathbf{y}.$

(X X^{T})^{- 1}

$(X X^T)^{-1}$

$\exp \left( -(\mathbf{x}_i - \mathbf{x}_j)^T A^{-1} (\mathbf{x}_i - \mathbf{x}_j) \right)$ $A$ - матрица гиперпараметров настраиваем). Очевидно, что в этом случае апостериорное значение не является линейной функцией (см. Изображение).

введите описание изображения здесь ,

Таким образом, преимущество заключается в том, что мы можем моделировать нелинейные функции, используя правильную ковариационную функцию (мы можем выбрать современную, в большинстве случаев квадратная экспоненциальная ковариационная функция является довольно хорошим выбором). Источником нелинейности является не упомянутый вами компонент тренда, а ковариационная функция.

— Алексей Зайцев
источник

3

Я бы сказал, что это только одно преимущество GP, которое также используется другими методами ядра. Быть вероятностным и исходить из байесовских рамок - еще одно преимущество GP.

— Седа

2

$x$ $f$ $f(x)$

$max$ $f$ $x$ $f$ $\mu$ $\Sigma$ (неопределенность), позволяющая, например, оптимизировать дорогостоящие функции черного ящика.

— Томаш Бартковяк
источник