Я видел аналогичный вывод из многих дискуссий, что с увеличением размера мини-пакета конвергенция SGD становится все труднее / хуже, например, в этой статье и в этом ответе . Также я слышал о людях, использующих такие уловки, как небольшая скорость обучения или размеры партий на ранней стадии, для решения этой проблемы с большими размерами партий.
Однако это кажется нелогичным, поскольку средние потери мини-пакета можно рассматривать как приближение к ожидаемым потерям при распределении данных
Вот некоторые из моих (вероятно, неправильных) мыслей, которые пытаются объяснить.
Параметры модели сильно зависят друг от друга: когда партия становится слишком большой, это повлияет на слишком много параметров одновременно, так что для параметров трудно достичь стабильной внутренней зависимости? (например, проблема внутреннего ковариатного сдвига, упомянутая в статье о нормализации партии )
Или когда почти все параметры отвечают за каждую итерацию, они склонны изучать избыточные неявные шаблоны и, следовательно, снижают производительность модели? (Я имею в виду, скажем, для задач классификации цифр некоторые шаблоны должны отвечать за точки, некоторые за края, но когда это происходит, каждый шаблон пытается отвечать за все формы).
Или это потому, что, когда размер пакетов становится ближе к масштабу обучающего набора, мини-пакеты больше не могут рассматриваться как идентифицированные из распределения данных, поскольку будет большая вероятность для коррелированных мини-пакетов?
Обновить
Как указывалось в ответе Бенуа Санчеса, одна важная причина заключается в том, что для больших мини-пакетов требуется больше вычислений для выполнения одного обновления, а в большинстве анализов для сравнения используется фиксированное количество тренировочных эпох.
Однако эта статья (Wilson and Martinez, 2003) показывает, что больший размер партии все еще несколько невыгоден даже при достаточном количестве тренировочных эпох. Это вообще так?