Настройка гиперпараметра в регрессии Гаусса

Я пытаюсь настроить гиперпараметры алгоритма гауссовой регрессии, который я реализовал. Я просто хочу максимизировать предельное правдоподобие, определяемое формулой где - ковариационная матрица с элементы , где , и и являются гиперпараметры.

\log (y | X, θ) = - \frac{1}{2} y^{T} K_{y}^{- 1} y - \frac{1}{2} \log (det (K)) - \frac{n}{2} \log (2 π)

$\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)$

K

$K$

K_{i j} = k (x_{i}, x_{j}) = b^{- 1} \exp (- \frac{1}{2} (x_{i} - x_{j})^{T} M (x_{i} - x_{j})) + a^{- 1} δ_{i j}

$K_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}$

M = l I

$M=lI$

a, b

$a,b$

l

$l$

частная производная логарифмического предельного правдоподобия по параметрам определяется следующим образом:

\frac{\log (y | X, θ)}{d θ} = \frac{1}{2} t r a c e (K^{- 1} \frac{d K}{d θ}) + \frac{1}{2} (y \frac{d K}{d θ} K^{- 1} \frac{d K}{d θ} y)

$\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y})$

Поскольку элементы матрицы $K$ зависит от параметров, так что производные и обратную $K$ . Это означает, что когда используется оптимизатор на основе градиента, оценка градиента в данной точке (значение параметра) потребует повторного вычисления ковариационной матрицы. В моем приложении это неосуществимо, потому что вычисление ковариационной матрицы с нуля и вычисление ее обратного значения в каждой итерации градиентного подъема слишком дорого. Мой вопрос заключается в том, каковы мои варианты, чтобы найти довольно хорошую комбинацию этих трех параметров? и я также не знаю, какой параметр оптимизировать в первую очередь, и я был бы признателен за любые указания по этому вопросу.

— bfaskiplar
источник

Я успешно использовал HMC для выборки гиперпараметров GP для наборов данных скромного размера.

— Sycorax сообщает, что восстановит Монику

Привет @Sycorax, не могли бы вы рассказать нам, как вы использовали эту технику для решения этой проблемы? У меня та же проблема, что и у ОП, и я думал об использовании MCMC для ее решения, но пока не знаю, как это сделать.

— Виллиан Фукс

Я только что закодировал GP в Stan. Гиперпараметры GP были объявлены как параметры модели и выведены соответственно. Это породило один набор прогнозов для каждой итерации HMC. Гельман иллюстрирует, как все это работает в BDA3.

— Sycorax говорит восстановить Monica

Вы правы, что вам нужно новое вычисление ковариационной матрицы на каждой итерации подъема градиента. Так что, если матричные вычисления не подходят для вашей настройки, то, я думаю, вы не можете использовать градиентную вероятностную оптимизацию на основе градиента.

Мое предложение заключается в использовании методов без градиента для настройки гиперпараметров, таких как поиск по сетке, случайный поиск или поиск на основе байесовской оптимизации . Эти методы широко используются для оптимизации гиперпараметров других алгоритмов машинного обучения, например SVM.

Я предлагаю поиск по сетке для вашей первой попытки. Вы в основном формируете таблицу (сетку) возможных гиперпараметров, пробуете каждый и ищите лучшую производительность проверки (или наилучшую предельную вероятность).

Поиск по сетке дал бы неоптимальный набор гиперпараметров, и вы должны указать сетку самостоятельно (подсказка: создайте сетку в логарифмическом масштабе), но требуется гораздо меньше вычислений. (и вам не нужен градиент!)

Если вы не знакомы с поиском по сетке, вы можете посмотреть Википедию: Оптимизация гиперпараметров - Поиск по сетке

— Сангвон Юн
источник