Слияние наблюдений в гауссовском процессе


11

Я использую гауссовский процесс (ГП) для регрессии.

В моей задаче довольно часто две или более точек данных находятся близко друг к другу относительно длины масштабы проблемы. Также наблюдения могут быть очень шумными. Чтобы ускорить вычисления и повысить точность измерений , кажется естественным объединять / интегрировать кластеры точек, которые находятся близко друг к другу, если я забочусь о прогнозах в большем масштабе длины.Икс(1),Икс(2),...

Интересно, что такое быстрый, но полу-принципиальный способ сделать это?

Если две точки данных были полностью перекрыты, , и шум наблюдения (т. Е. Вероятность) является гауссовским, возможно, гетероскедастическим, но известным , кажется, что естественный способ объединения их в одну точку данных:Икс(1)знак равноИкс(2)

  • Икс¯Икс(К) , для .Кзнак равно1,2

  • Наблюдаемое значение которое является средним значением наблюдаемых значений взвешенных по их относительной точности: . у(1),у(2) ˉ у =σ 2 у (х ( 2 ) )Y¯Y(1),Y(2)Y¯знак равноσY2(Икс(2))σY2(Икс(1))+σY2(Икс(2))Y(1)+σY2(Икс(1))σY2(Икс(1))+σY2(Икс(2))Y(2)

  • Шум, связанный с наблюдением, равен: .σY2(Икс¯)знак равноσY2(Икс(1))σY2(Икс(2))σY2(Икс(1))+σY2(Икс(2))

Тем не менее, как мне объединить две точки, которые близки, но не перекрываются?

  • Я думаю, что должен быть средневзвешенным значением двух позиций, опять же с использованием относительной достоверности. Обоснование - аргумент центра масс (т. Е. Думать о очень точном наблюдении как о наборе менее точных наблюдений).Икс¯

  • Для та же формула, что и выше.Y¯

  • Для шума, связанного с наблюдением, мне интересно, если в дополнение к формуле выше, я должен добавить поправочный член к шуму, потому что я перемещаю точку данных вокруг. По сути, я бы получил увеличение неопределенности, которое связано с и (соответственно, дисперсия сигнала и масштаб длины ковариационной функции). Я не уверен в форме этого термина, но у меня есть некоторые предварительные идеи о том, как его вычислить, учитывая ковариационную функцию.σе22

Прежде чем продолжить, я подумал, что там уже что-то есть; и если это кажется разумным путем, или есть более быстрые методы.

Самая близкая вещь, которую я мог найти в литературе, это статья: Э. Снелсон и З. Гахрамани, « Разреженные процессы Гаусса с использованием псевдо-входов» , NIPS '05; но их метод (относительно) вовлекает, требуя оптимизации, чтобы найти псевдо-входы.


1
Кстати, я ценю, что я мог бы использовать приблизительный вывод или некоторые крупномасштабные методы, но это другой момент.
Lacerbi

Ответы:


4

Отличный вопрос, и то, что вы предлагаете, звучит разумно. Однако лично я поступил бы иначе, чтобы быть эффективным. Как вы сказали, две близкие точки дают мало дополнительной информации, и, следовательно, эффективные степени свободы модели меньше, чем количество наблюдаемых точек данных. В таком случае, возможно, стоит использовать метод Nystroms, который хорошо описан в GPML (главу о разреженных аппроксимациях можно увидеть http://www.gaussianprocess.org/gpml/ ). Этот метод очень прост в реализации, и недавно было доказано, что он очень высок, Rudi et al. ( http://arxiv.org/abs/1507.04717 )


Спасибо, метод Нистрома кажется интересным подходом, я посмотрю на него. Однако в своем первом посте я забыл упомянуть, что шум в наблюдениях может быть очень высоким (возможно, больше, чем сигнал), так что усреднение близлежащих точек даст дополнительную информацию.
Lacerbi

1
Ну, это на самом деле еще больше причин использовать метод Nystroms. Высокий шум уменьшает эффективные степени свободы, поэтому, если сигнал содержит только первые собственные значения, а остальные - просто шум, то метод Nystroms отбрасывает все те, которые меньше первых m. Я думаю, что это будет соответствовать требованиям того, что вы ищете. Удачи!
января

Я бы предложил метод Nystrom (+1). Простое объединение точек в одну может столкнуться с проблемами при оценке предельной вероятности модели, поскольку два подлинных точки данных вряд ли будут иметь тот же эффект, что и одна отдельная точка. Мой совет состоял бы в том, чтобы разделить эти две точки, но чтобы найти способ сделать вычисления менее дорогостоящими, чего должен достичь эмстод Nystrom,
Dikran Marsupial

Какие проблемы? Если вы рассмотрите случай двух перекрывающихся точек с гауссовским шумом, то метод усреднения является точным (если вы отслеживаете уменьшение шума наблюдения). Я не понимаю, почему один и тот же аргумент не должен работать для точек, близких по шкале длины задачи (с приближением, которое ухудшается с увеличением расстояния). Возможно, это то, что делает метод Нистрома более принципиальным образом - мне все еще нужно понять детали. Мне любопытно сравнить его с методом усреднения, как с точки зрения точности и скорости. Спасибо
Lacerbi

1
@ Seeda, мы не используем nystrom в качестве предварительного условия, а не обычного сокращенного времени, так что да.
j__

1

Я также исследовал слияние наблюдений при выполнении регрессии Гауссова процесса. В моей задаче у меня есть только один ковариат.

Я не уверен, что обязательно согласен с тем, что приближение Nystrom является предпочтительным. В частности, если на основе объединенного набора данных можно найти достаточное приближение, вычисления могут быть быстрее, чем при использовании приближения Нистрома.

Ниже приведены некоторые графики, показывающие 1000 точек данных и среднее значение задней части GP, среднее значение задней части GP с объединенными записями и среднее значение задней части GP с использованием приближения Nystrom. Записи были сгруппированы на основе равных по размеру сегментов упорядоченного ковариата. Порядок аппроксимации относится к числу групп при объединении записей и порядку аппроксимации Нистрома. Подход слияния и аппроксимация Nystrom дают результаты, идентичные стандартной регрессии GP, когда порядок аппроксимации равен количеству точек.

В этом случае, когда порядок приближения равен 10, подход слияния кажется предпочтительным. Когда порядок равен 20, среднее из приближения Нистрома визуально неотличимо от точного апостериорного среднего значения, хотя среднее, основанное на слиянии наблюдений, вероятно, достаточно хорошее. Когда порядок 5, оба довольно бедны.

введите описание изображения здесь введите описание изображения здесь введите описание изображения здесь

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.