Есть ли литература, в которой рассматривается выбор размера мини-партии при выполнении стохастического градиентного спуска? По моему опыту, это, кажется, эмпирический выбор, обычно находящийся в перекрестной проверке или с использованием различных практических правил.
Является ли хорошей идеей медленно увеличивать размер мини-пакета по мере уменьшения ошибки проверки? Как это повлияет на ошибку обобщения? Могу ли я использовать очень маленький мини-пакет и обновлять мою модель сотни тысяч раз? Буду ли мне лучше иметь сбалансированное число где-то между очень маленьким и партиями?
Должен ли я масштабировать размер своей мини-партии в соответствии с размером набора данных или ожидаемым количеством объектов в наборе данных?
У меня, очевидно, много вопросов по реализации схем мини-пакетного обучения. К сожалению, большинство статей, которые я читаю, на самом деле не указывают, как они выбрали этот гиперпараметр. У меня был некоторый успех у таких авторов, как Янн ЛеКун, особенно из сборника статей «Уловки торговли». Тем не менее, я до сих пор не видел эти вопросы в полном объеме. Есть ли у кого-нибудь какие-либо рекомендации для бумаг или советы относительно того, какие критерии я могу использовать для определения хороших размеров мини-пакетов при попытке изучить функции?