Как работает импульс импульса для алгоритма обратного распространения?

При обновлении весов нейронной сети с использованием алгоритма обратного распространения с импульсом, должна ли скорость обучения применяться и к члену импульса?

Большая часть информации, которую я мог найти об использовании импульса, имеет уравнения, выглядящие примерно так:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

где - скорость обучения, а - член импульса. $\alpha$ $\mu$

если член больше, чем член то на следующей итерации $\mu$ $\alpha$ $\Delta W$ из предыдущей итерации будет иметь большее влияние на вес, чем текущая.

Это цель импульса? или уравнение должно выглядеть больше так?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

то есть. масштабировать все по скорости обучения?

machine-learning neural-networks

— guskenny83
источник

Использование обратного распространения с импульсом в сети с различных весов -й коррекции для веса задаются $n$ $W_k$ $i$ $W_k$

где $\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ - изменение потерь относительно. $\frac{\partial E}{\partial W_k}$ $W_k$

Введение скорости импульса позволяет ослаблять колебания при градиентном спуске. Геометрическая идея, лежащая в основе этой идеи, вероятно, может быть лучше всего понята с точки зрения анализа собственного пространства в линейном случае. Если соотношение между самым низким и самым большим собственным значением велико, то выполнение градиентного спуска происходит медленно, даже если скорость обучения велика из-за кондиционирования матрицы. Импульс вводит некоторую балансировку в обновлении между собственными векторами, связанными с более низкими и большими собственными значениями.

Для более подробной информации я обращаюсь к

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

— Nico
источник

Что означает нижняя часть тела?

— Дэвид Ричерби

в порядке, так что термин импульса вводится при вычислении

термин, а не добавлен при расчете «новое» значение веса? Просто чтобы уточнить, должен ли ваш член

быть

? или это пропорция фактического веса, а не изменение курса? спасибо за ваш ответ и за ссылку на статью.

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

— guskenny83

спасибо за указание на ошибку. Это, конечно,

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

— Нико

Что вы подразумеваете под «изменением потерь»? Это что-то вроде «вариации в ошибке»?

— starbeamrainbowlabs

Это означает только производную от ошибки по весам.

— Нико