1
Выбор подходящего размера мини-партии для стохастического градиентного спуска (SGD)
Есть ли литература, в которой рассматривается выбор размера мини-партии при выполнении стохастического градиентного спуска? По моему опыту, это, кажется, эмпирический выбор, обычно находящийся в перекрестной проверке или с использованием различных практических правил. Является ли хорошей идеей медленно увеличивать размер мини-пакета по мере уменьшения ошибки проверки? Как это повлияет на ошибку …