Я использую гауссовский процесс (ГП) для регрессии.
В моей задаче довольно часто две или более точек данных находятся близко друг к другу относительно длины масштабы проблемы. Также наблюдения могут быть очень шумными. Чтобы ускорить вычисления и повысить точность измерений , кажется естественным объединять / интегрировать кластеры точек, которые находятся близко друг к другу, если я забочусь о прогнозах в большем масштабе длины.
Интересно, что такое быстрый, но полу-принципиальный способ сделать это?
Если две точки данных были полностью перекрыты, , и шум наблюдения (т. Е. Вероятность) является гауссовским, возможно, гетероскедастическим, но известным , кажется, что естественный способ объединения их в одну точку данных:
, для .
Наблюдаемое значение которое является средним значением наблюдаемых значений взвешенных по их относительной точности: . у(1),у(2) ˉ у =σ 2 у ( → х ( 2 ) )
Шум, связанный с наблюдением, равен: .
Тем не менее, как мне объединить две точки, которые близки, но не перекрываются?
Я думаю, что должен быть средневзвешенным значением двух позиций, опять же с использованием относительной достоверности. Обоснование - аргумент центра масс (т. Е. Думать о очень точном наблюдении как о наборе менее точных наблюдений).
Для та же формула, что и выше.
Для шума, связанного с наблюдением, мне интересно, если в дополнение к формуле выше, я должен добавить поправочный член к шуму, потому что я перемещаю точку данных вокруг. По сути, я бы получил увеличение неопределенности, которое связано с и (соответственно, дисперсия сигнала и масштаб длины ковариационной функции). Я не уверен в форме этого термина, но у меня есть некоторые предварительные идеи о том, как его вычислить, учитывая ковариационную функцию.
Прежде чем продолжить, я подумал, что там уже что-то есть; и если это кажется разумным путем, или есть более быстрые методы.
Самая близкая вещь, которую я мог найти в литературе, это статья: Э. Снелсон и З. Гахрамани, « Разреженные процессы Гаусса с использованием псевдо-входов» , NIPS '05; но их метод (относительно) вовлекает, требуя оптимизации, чтобы найти псевдо-входы.