Аппроксимация второго порядка функции потерь (Книга глубокого обучения, 7.33)


11

В книге Гудфеллоу (2016) о глубоком обучении он говорил об эквивалентности раннего прекращения регуляризации L2 ( https://www.deeplearningbook.org/contents/regularization.html стр. 247).

Квадратичная аппроксимация функции стоимости j определяется как:

J^(θ)=J(w)+12(ww)TH(ww)

H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Ответы:


15

Они говорят о весах в оптимальном режиме:

Мы можем смоделировать функцию стоимости с квадратичным приближением в окрестности эмпирически оптимального значения весовJw

В этот момент первая производная равна нулю, поэтому средний член не учитывается.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.