Я читал статью о пакетной нормализации (BN) (1) и не понимал необходимости использовать скользящие средние для отслеживания точности модели, и даже если я признал, что это было правильно, я не понимаю что они делают точно.
Насколько я понимаю (что я могу ошибаться), в статье упоминается, что она использует статистику населения, а не мини-серию, статистику, когда модель закончила обучение. После некоторого обсуждения непредвзятых оценок (которые кажутся мне касательными и я не понимаю, почему это говорит об этом) они идут и говорят:
Используя вместо этого скользящие средние, мы отслеживаем точность модели во время обучения.
Это та часть, которая смущает меня. Почему они делают скользящие средние, чтобы оценить точность модели и какой набор данных?
Обычно, что люди делают, чтобы оценить обобщение своей модели, они просто отслеживают ошибку валидации своей модели (и потенциально рано прекращают свой градиентный спуск для регуляризации). Тем не менее, кажется, что пакетная нормализация делает что-то совершенно другое. Может кто-то уточнить, что и почему он делает что-то другое?
1 : Иоффе С. и Сегеди С. (2015 г.),
«Нормализация партии: ускорение глубокого сетевого обучения за счет уменьшения внутреннего смещения ковариат»,
Материалы 32-й Международной конференции по машинному обучению , Лилль, Франция, 2015 г.
Журнал исследований в области машинного обучения: W & CP том 37