Когда я реализовал мини-пакетный градиент приличный, я просто усреднил градиенты всех примеров в обучающей партии. Тем не менее, я заметил, что сейчас оптимальная скорость обучения намного выше, чем для приличного онлайн градиента. Моя интуиция заключается в том, что это происходит из-за того, что усредненный градиент менее шумный и, таким образом, его можно отслеживать быстрее. Так что, возможно, имеет смысл просто суммировать градиенты партии. Значения могут быть положительными и отрицательными в любом случае.
Я знаю, что это просто постоянный фактор, который можно сбалансировать с помощью скорости обучения. Но мне интересно, с каким определением учёные согласились, чтобы я мог воспроизвести результаты из работ нейронной сети.
Делят ли обычно суммированные градиенты партии на размер партии?