Понимание регрессии гауссовского процесса через бесконечномерное представление базисной функции


14

Часто говорят, что регрессия Гауссова процесса соответствует (GPR) байесовской линейной регрессии с (возможно) бесконечным количеством базисных функций. В настоящее время я пытаюсь понять это в деталях, чтобы понять, какие модели я могу выразить, используя GPR.

  1. Как вы думаете, это хороший подход, чтобы попытаться понять GPR?

В книге « Гауссовские процессы для машинного обучения» Расмуссен и Уильямс показывают, что множество гауссовых процессов, описываемых параметризованным экспоненциальным квадратом ядра можно эквивалентно описать как байесовскую регрессию с предварительным убеждениемwN(0,σ 2 p I)на весах и бесконечным количеством базисных функций видаϕc(x;l)=exp(-(х-в)2

k(x,x;l)=σp2exp((xx)22l2)
wN(0,σp2I) Таким образом, параметризация ядра может быть полностью переведена в параметризацию базисных функций.
ϕc(x;l)=exp((xc)22l2)
  1. Может ли параметризация дифференцируемого ядра всегда переводиться в параметризацию предшествующей и базисной функций или существуют дифференцируемые ядра, где, например, количество базисных функций зависит от конфигурации?

k(x,x)

k(x,x)=i=1λiϕi(x)ϕi(x)
ϕiwN(0,diag([λ12,]))ϕik(x,x,θ)θ

Мой следующий вопрос об обратной теореме Мерсера.

  1. Какие наборы базисных функций приводят к действительным ядрам?

И расширение

  1. Какие наборы параметризованных базисных функций приводят к действительным дифференцируемым ядрам?

Ответы:


1

Вот несколько замечаний. Возможно, кто-то еще может заполнить детали.

1) Основные представления всегда хорошая идея. Трудно избежать их, если вы действительно хотите сделать что-то вычислительное с вашей ковариационной функцией. Расширение базы может дать вам представление о ядре и о том, с чем можно работать. Надежда состоит в том, что вы можете найти основу, которая имеет смысл для проблемы, которую вы пытаетесь решить.

θθ

Как правило, число базовых функций будет (счетно) бесконечным, поэтому число не будет зависеть от параметра, если только некоторые значения не приведут к вырождению ядра.

wN(0,diag[λ12,])wdiag[λ12,]

λiλix «ы

Если базисные функции не являются ортогональными, то будет сложнее показать, что определенная из них ковариация является положительно определенной. Очевидно, что в этом случае вы имеете дело не с собственным разложением, а с каким-то другим способом аппроксимации интересующей функции.

Тем не менее, я не думаю, что люди обычно начинают с множества функций, а затем пытаются построить из них ковариационное ядро.

RE: Дифференцируемость ядра и дифференцируемость базисных функций. На самом деле я не знаю ответа на этот вопрос, но я бы предложил следующее наблюдение.

Функциональный анализ происходит путем аппроксимации функций (из бесконечномерного пространства) конечными суммами более простых функций. Чтобы сделать эту работу, все зависит от типа сближения. Как правило, если вы работаете над компактным набором со свойствами сильной сходимости (равномерная сходимость или абсолютная суммируемость) по интересующим функциям, то вы получите тот интуитивный результат, который вы ищете: свойства простых функций переходят к функция предела - например, если ядро ​​является дифференцируемой функцией параметра, то функции расширения должны быть дифференцируемыми функциями одного и того же параметра, и наоборот. При более слабых свойствах сходимости или некомпактных областях этого не происходит. По моему опыту, есть контрпример к каждой «разумной» идее.

Примечание: чтобы предотвратить возможную путаницу со стороны читателей этого вопроса, обратите внимание, что гауссово разложение точки 1 не является примером собственного разложения точки 2.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.