Сумма или среднее градиентов в (мини) пакетном градиенте приличное?

Когда я реализовал мини-пакетный градиент приличный, я просто усреднил градиенты всех примеров в обучающей партии. Тем не менее, я заметил, что сейчас оптимальная скорость обучения намного выше, чем для приличного онлайн градиента. Моя интуиция заключается в том, что это происходит из-за того, что усредненный градиент менее шумный и, таким образом, его можно отслеживать быстрее. Так что, возможно, имеет смысл просто суммировать градиенты партии. Значения могут быть положительными и отрицательными в любом случае.

Я знаю, что это просто постоянный фактор, который можно сбалансировать с помощью скорости обучения. Но мне интересно, с каким определением учёные согласились, чтобы я мог воспроизвести результаты из работ нейронной сети.

Делят ли обычно суммированные градиенты партии на размер партии?

neural-networks gradient-descent backpropagation

— Данияр
источник

Средний.

Примеры: Примечания к курсу Эндрю Нг по машинному обучению на Coursera, составленному Алексом Хоулхаусом.

Суммируя градиенты за счет отдельных образцов, вы получаете гораздо более плавный градиент. Чем больше партия, тем более плавный градиент используется при обновлении веса.

Разделение суммы на размер партии и получение среднего градиента дает эффект:

Величина веса не растет пропорционально. Добавление регуляризации L2 к обновлению веса наказывает большие значения веса. Это часто приводит к улучшению производительности обобщения. Если взять среднее значение, особенно если градиенты указывают в одном и том же направлении, не допускайте слишком большого веса.
Величина градиента не зависит от размера партии. Это позволяет сравнивать веса из других экспериментов с использованием разных размеров партии.
Противодействие влиянию размера пакета с помощью скорости обучения может быть численно эквивалентным, но в итоге вы получаете скорость обучения, которая зависит от конкретной реализации. Трудно сообщить ваши результаты и экспериментальную настройку, если люди не могут определить масштаб используемых вами параметров, и у них возникнут проблемы с воспроизведением вашего эксперимента.

Усреднение обеспечивает более четкую сопоставимость и сохраняет величины градиента независимыми от размера партии. Выбор размера пакета иногда ограничен имеющимися у вас вычислительными ресурсами, и вы хотите уменьшить влияние этого при оценке вашей модели.

— уРх
источник

Ссылка теперь мертва

— cdeterman

обновленная ссылка, больше нельзя ссылаться на оригинальные слайды, поэтому выбрал хорошо скомпилированные заметки Алекса Хоулхауса .

— ypx

Похоже, что это руководство предназначено для суммирования, а не для усреднения .. deeplearning.net/tutorial/gettingstarted.html#regularization

— AD