Аппроксимация второго порядка функции потерь (Книга глубокого обучения, 7.33)

В книге Гудфеллоу (2016) о глубоком обучении он говорил об эквивалентности раннего прекращения регуляризации L2 ( https://www.deeplearningbook.org/contents/regularization.html стр. 247).

Квадратичная аппроксимация функции стоимости $j$ определяется как:

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

$H$

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

— stevew
источник

Они говорят о весах в оптимальном режиме:

Мы можем смоделировать функцию стоимости с квадратичным приближением в окрестности эмпирически оптимального значения весов $J$ $w^∗$

В этот момент первая производная равна нулю, поэтому средний член не учитывается.

— Ян Кукацка
источник