Вывод BFGS является более интуитивным, если рассматривать (строго) выпуклые функционалы стоимости:
Однако некоторая
справочная информация необходима: Предположим, что нужно минимизировать выпуклый функционал
Скажем, есть приблизительное решение х к . Тогда каждый приближает минимум f к минимуму усеченного разложения Тейлора
f ( x k + p ) ≈ f ( x k ) + ∇ f ( x k ) T p +
е( х ) → минx ∈ RN,
ИксКе
То есть, ищется
p такой, что
( ∗ ) минимально и задает
x k + 1 : = x k + p . Вычисление градиента
( ∗ ) - «по отношению к
p » - и установка его в ноль дает соотношение
H ( x k ) [ x k + 1 - x k ] = ∇ f ( x k + 1 ) -е( хК+ p ) ≈ f( хК) + ∇ f( хК)Tр + 12пTЧАС( хК) с .( ∗ )
п( ∗ )Икск + 1: = хК+ р( ∗ )п
где
H - «якобиан градиента» или матрица Гессе.
ЧАС( хК) [ xк + 1- хК] = ∇ f( хк + 1) - ∇ f( хК) ,
ЧАС
Поскольку вычисление и инверсия гессиана стоит дорого ...
... короткий ответ
(см. обновление Бройдена) может быть, что обновление BFGS минимизирует
‖ H - 1 k - H - 1 ‖ W
в умно выбранной взвешенной норме Фробениуса, при условииЧАС- 1к + 1
∥ H- 1К- H- 1∥W
- ЧАС[ хк + 1- хК] = ∇ f( хк + 1) - ∇ f( хК)
- ЧАСT= H
W∥ H∥W: = ∥ W1 / 2ЧАСW1 / 2∥F
G : = ∫10ЧАС( хК+ τр ) гταК= 1
Основные моменты:
- Попытка приблизить решение для фактических затрат решением для квадратичного приближения
- Вычисление гессиана и его обратное дорого. Один предпочитает простые обновления.
- Обновление выбрано оптимально для обратного, а не фактического гессиана.
- То, что это обновление ранга 2, является следствием особого выбора весов в норме Фробениуса.
п