В « Обучении в больших пакетах для глубокого обучения: разрывы обобщения и резкие минимумы» есть пара интересных предложений:
На практике наблюдалось, что при использовании более крупной партии качество модели ухудшается, что измеряется ее способностью обобщать [...]
методы больших партий имеют тенденцию сходиться к точным минимизаторам функций обучения и тестирования - и, как хорошо известно, острые минимумы приводят к худшему обобщению. п. Напротив, мелкосерийные методы постоянно сходятся к плоским минимизаторам, и наши эксперименты подтверждают распространенное мнение о том, что это связано с собственным шумом при оценке градиента.
Из моей магистерской диссертации : Отсюда и выбор размера мини-партии влияет:
- Время тренировки до сближения : кажется, это сладкое место. Если размер партии очень мал (например, 8), это время увеличивается. Если размер партии огромен, он также выше минимального.
- Время обучения на эпоху : большие вычисления быстрее (эффективнее)
- Результирующее качество модели : чем ниже, тем лучше из-за лучшего обобщения (?)
Важно отметить гиперпараметрическое взаимодействие : размер пакета может взаимодействовать с другими гиперпараметрами, в частности с частотой обучения. В некоторых экспериментах это взаимодействие может затруднить выделение влияния размера партии только на качество модели. Другое сильное взаимодействие - ранняя остановка регуляризации.
Смотрите также