Гауссовская регрессия процесса для наборов данных больших размеров


10

Просто хотел посмотреть, есть ли у кого-нибудь опыт применения Гауссовой регрессии процессов (GPR) к многомерным наборам данных. Я изучаю некоторые из различных методов разреженного георадара (например, разреженных псевдо-входов георадара), чтобы увидеть, что может работать для наборов данных большого размера, где в идеале выбор объектов является частью процесса выбора параметров.

Любые предложения по бумагам / коду / или различным методам, безусловно, приветствуются.

Спасибо.


2
Как указано, этот вопрос довольно расплывчатый. Вопросы, которые являются самостоятельными, конкретными и мотивированными, как правило, получают здесь наибольшее внимание и лучшие ответы. (Например, если у вас есть конкретная проблема, которую вы пытаетесь решить, подумайте о том, чтобы предоставить достаточно информации, чтобы читатели могли понять, что вы пытаетесь сделать.)
кардинал

Ответы:


13

Модели гауссовских процессов, как правило, хорошо подходят для многомерных наборов данных (я использовал их с данными микрочипов и т. Д.). Они играют ключевую роль в выборе хороших значений для гиперпараметров (которые эффективно контролируют сложность модели аналогично регуляризации).

Разреженные методы и методы псевдо-ввода больше подходят для наборов данных с большим количеством выборок (> около 4000 для моего компьютера), а не с большим количеством функций. Если у вас достаточно мощный компьютер, чтобы выполнить разложение по Холески ковариационной матрицы (n на n, где n - количество выборок), то вам, вероятно, не нужны эти методы.

Если вы являетесь пользователем MATLAB, то я настоятельно рекомендую набор инструментов GPML и книгу Расмуссена и Уильямса как хорошие места для начала.

ОДНАКО, если вы заинтересованы в выборе функции, то я бы избегал врачей общей практики. Стандартный подход к выбору характеристик с помощью GP заключается в том, чтобы использовать ядро ​​автоматического определения релевантности (например, covSEard в GPML), а затем добиться выбора функции путем настройки параметров ядра для максимизации предельной вероятности. К сожалению, это очень вероятно приведет к тому, что вы превысите предельную вероятность и в конечном итоге получите модель, которая работает (возможно, намного) хуже, чем модель с простой сферической радиальной базисной функцией (covSEiso в GPML) ковариации.

Моя текущая исследовательская задача сосредоточена на переосмыслении выбора моделей в данный момент, и я обнаружил, что это является такой же проблемой для максимизации доказательств в GP, как и для перекрестной проверки на основе оптимизации гипер-паранетеров в моделях ядра, для деталей. см. этот документ , и этот .

Выбор функций для нелинейных моделей очень сложен. Часто вы получаете лучшую производительность, придерживаясь линейной модели и используя подходы типа регуляризации L1 (Lasso / LARS / Elastic net и т. Д.) Для достижения разреженных или случайных методов леса.


Спасибо, Дикран. Я пытался смотреть на glmnet в R для регуляризованных линейных моделей. К сожалению, мои прогнозы в конечном итоге остаются одинаковыми (я думаю, что среднее значение моего тренировочного набора). Похоже, линейным моделям трудно вытащить сигнал из моих данных. Вот почему я искал нелинейные модели, которые могли бы иметь дело со многими взаимодействиями функций / потенциальных функций. Я уверен, что это требует много. Есть предложения на этот счет? У меня нет проблем с P >> N. Использование 150 функций, 1000 примеров.
Томас

Эй, Дикран. Это был довольно расплывчатый вопрос, который я задал в своих комментариях. Я поставил более конкретный вопрос на доски. В очередной раз благодарим за помощь. stats.stackexchange.com/questions/30411/...
Tomas

нет проблем, часто решить, какие вопросы сложнее, чем ответить на них! Я позабочусь о других вопросах.
Дикран Marsupial

Спасибо за этот ответ. Можно ли использовать ARD для ускорения вычислений в случае больших размерных объектов, но не таких больших наборов данных (n ~ 10k d ~ 1k)? Я использую панель инструментов GPML. Можем ли мы автоматически «разбить» ковариационную матрицу, чтобы сосредоточиться на соответствующих функциях?
Эмиль

1
ссылка " r.csail.mit.edu/papers/v8/cawley07a.html " не работает ... Это она? jmlr.org/papers/v8/cawley07a.html . Возможно, было бы полезно добавить полные цитаты вместо просто ссылок :-)
Любопытно

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.