Почему средняя функция в гауссовском процессе неинтересна?

28

Я только начал читать о GP, и по аналогии с обычным распределением Гаусса оно характеризуется функцией среднего и ковариационной функцией или ядром. Я разговаривал, и оратор сказал, что средняя функция обычно неинтересна, и все усилия по выводу тратятся на оценку правильной ковариационной функции.

Может кто-нибудь объяснить мне, почему так должно быть?

gaussian-process

— Лука
источник

33

Я думаю, что знаю, к чему спикер. Лично я не полностью согласен с ней / ним, и есть много людей, которые этого не делают. Но, честно говоря, есть и многие, кто это делает :) Прежде всего, обратите внимание, что указание ковариационной функции (ядра) подразумевает указание предварительного распределения по функциям. Просто изменяя ядро, реализации гауссовского процесса радикально изменяются от очень гладких, бесконечно дифференцируемых функций, порожденных квадратом экспоненциального ядра.

«остроконечным», недифференцируемым функциям, соответствующим экспоненциальному ядру (или ядру Matern с ) $\nu=1/2$

Другой способ увидеть это состоит в том, чтобы записать прогнозирующее среднее (среднее из предсказаний гауссовского процесса, полученное путем кондиционирования ВО на тренировочных точках) в контрольной точке , в простейшем случае функции с нулевым средним: $x^*$

y^{*} = k^{* T} (K + σ^{2} I)^{- 1} y

$y^*=\mathbf{k}^{*T}(K+\sigma^{2}I)^{-1}\mathbf{y}$

где - вектор ковариаций между контрольной точкой и тренировочными точками , - ковариационная матрица обучающих точек, - шумовой термин (просто установите если ваша лекция касалась предсказаний без шума, т. е. интерполяции гауссовского процесса), а - вектор наблюдений в обучающем наборе. Как вы можете видеть, даже если среднее значение предшествующего уровня GP равняется нулю, среднее прогнозирующее значение совсем не равно нулю, и, в зависимости от ядра и количества тренировочных точек, это может быть очень гибкая модель, способная к чрезвычайно усвоенному обучению. сложные модели. $\mathbf{k}^*$ $x^*$ $x_1,\ldots,x_n$ $K$ $\sigma$ $\sigma=0$ $\mathbf{y}=(y_1,\ldots,y_n)$

В более общем смысле это ядро, которое определяет обобщающие свойства GP. Некоторые ядра обладают свойством универсальной аппроксимации , т. Е. Они в принципе способны аппроксимировать любую непрерывную функцию на компактном подмножестве к любой заданной максимальной толерантности при наличии достаточного количества тренировочных точек.

Тогда зачем вам вообще заботиться о средней функции? Во-первых, простая средняя функция (линейная или ортогональная полиномиальная) делает модель намного более интерпретируемой, и это преимущество не следует недооценивать для такой гибкой (а значит, сложной) модели, как ГП. Во-вторых, каким-то образом нулевое среднее (или, что важно, также и постоянное среднее) ГП отстой при прогнозировании вдали от обучающих данных. Многие стационарные ядра (кроме периодических ядер) таковы, что для $k(x_i-x^*) \to 0$ $\operatorname{dist}(x_i,x^*)\to\infty$ , Эта сходимость к 0 может произойти на удивление быстро, особенно с квадратным экспоненциальным ядром, и особенно, когда короткая длина корреляции необходима, чтобы хорошо соответствовать обучающему набору. Таким образом, терапевт с функцией нулевого среднего всегда будет предсказывать как только вы отойдете от тренировочного набора. $y^*\approx 0$

Теперь это может иметь смысл в вашем приложении: в конце концов, часто плохая идея использовать управляемую данными модель для выполнения прогнозов вдали от набора точек данных, используемых для обучения модели. Смотрите здесь много интересных и забавных примеров того, почему это может быть плохой идеей. В этом отношении нулевое среднее значение GP, которое всегда сходится к 0 от обучающего набора, является более безопасным, чем модель (такая как, например, многомерная ортогональная полиномиальная модель высокой степени), которая с радостью выбрасывает безумно большие прогнозы, как только вы уходите от данных обучения.

В других случаях, однако, вы можете захотеть, чтобы ваша модель имела определенное асимптотическое поведение, которое не должно сходиться к константе. Возможно, физические соображения скажут вам, что для достаточно большого ваша модель должна стать линейной. В этом случае вы хотите линейную функцию среднего. В общем, когда глобальные свойства модели представляют интерес для вашего приложения, вам следует обратить внимание на выбор средней функции. Когда вас интересует только локальное (близкое к тренировочным точкам) поведение вашей модели, тогда нулевого или постоянного среднего GP может быть более чем достаточно. $x^*$

— DeltaIV
источник

Дельта, ты знаешь, что было бы хорошей средней функцией?

— Старик в море.

1

@Anoldmaninthesea это зависит от приложения. Как я объяснил, если вам не нужна интерпретируемая модель, или если вы заинтересованы в предсказаниях «далеко» от вашего обучающего набора, вероятно, было бы лучше сконцентрировать свои усилия на улучшении функции ковариации, а не функции среднего значения

— DeltaIV

1

Дельта, ну в моем случае мне нужно попытаться сделать некоторые прогнозы, которые могут быть далеки от наблюдаемых данных ... Я задал этот вопрос здесь stats.stackexchange.com/questions/375468/…

— Старик в море.

6

Мы не можем говорить от имени человека, который давал лекцию; возможно, оратор имел в виду другую идею, когда оратор сделал это заявление. Однако в случае, когда вы пытаетесь построить апостериорные прогнозы из GP, функция постоянного среднего имеет решение в замкнутой форме, которое можно точно вычислить. Однако в случае более общей средней функции вы должны прибегнуть к приближенным методам, например, к моделированию.

Кроме того, ковариационная функция контролирует, как быстро (и где) происходят отклонения от средней функции, поэтому часто бывает так, что более гибкая / жесткая ковариационная функция может быть «достаточно хорошей» для аппроксимации более богатой средней функции, которая снова предоставляет доступ к вспомогательным свойствам функции постоянного среднего.

— Sycorax говорит восстановить Монику
источник

Спасибо за это объяснение. Да, я не мог задать свой вопрос и задавался вопросом, есть ли принципиальная причина для этого.

— Лука

6

$y_t=c+\gamma y_{t-1}+e_t$ $E[y_t]\equiv\mu=\frac{c}{1-\gamma}$

$c$ $\gamma$

V = \frac{μ}{r}

$V=\frac{\mu}{r}$

r

$r$

y_{1} = c + γ y_{0}

$y_1=c+\gamma y_0$

y_{0}

$y_0$

— Аксакал
источник

6

$x_i$ $\mu(x_i)$

$x$

— j__
источник

0

Проще говоря, функция среднего доминирует в ковариационной функции для входов «далеко» от наблюдений.
Это способ внедрить ваши предыдущие знания в макродинамику вашей системы.

— МИК
источник

1

Я не понимаю ваш ответ. Не могли бы вы уточнить?

— Майкл Р. Черник