Модели гауссовских процессов, как правило, хорошо подходят для многомерных наборов данных (я использовал их с данными микрочипов и т. Д.). Они играют ключевую роль в выборе хороших значений для гиперпараметров (которые эффективно контролируют сложность модели аналогично регуляризации).
Разреженные методы и методы псевдо-ввода больше подходят для наборов данных с большим количеством выборок (> около 4000 для моего компьютера), а не с большим количеством функций. Если у вас достаточно мощный компьютер, чтобы выполнить разложение по Холески ковариационной матрицы (n на n, где n - количество выборок), то вам, вероятно, не нужны эти методы.
Если вы являетесь пользователем MATLAB, то я настоятельно рекомендую набор инструментов GPML и книгу Расмуссена и Уильямса как хорошие места для начала.
ОДНАКО, если вы заинтересованы в выборе функции, то я бы избегал врачей общей практики. Стандартный подход к выбору характеристик с помощью GP заключается в том, чтобы использовать ядро автоматического определения релевантности (например, covSEard в GPML), а затем добиться выбора функции путем настройки параметров ядра для максимизации предельной вероятности. К сожалению, это очень вероятно приведет к тому, что вы превысите предельную вероятность и в конечном итоге получите модель, которая работает (возможно, намного) хуже, чем модель с простой сферической радиальной базисной функцией (covSEiso в GPML) ковариации.
Моя текущая исследовательская задача сосредоточена на переосмыслении выбора моделей в данный момент, и я обнаружил, что это является такой же проблемой для максимизации доказательств в GP, как и для перекрестной проверки на основе оптимизации гипер-паранетеров в моделях ядра, для деталей. см. этот документ , и этот .
Выбор функций для нелинейных моделей очень сложен. Часто вы получаете лучшую производительность, придерживаясь линейной модели и используя подходы типа регуляризации L1 (Lasso / LARS / Elastic net и т. Д.) Для достижения разреженных или случайных методов леса.