Итак, недавно появилась статья о нормализации слоя . Есть также реализация этого на Керасе.
Но я помню, что есть статьи под названием Рекуррентная пакетная нормализация (Cooijmans, 2016) и Пакетная нормализованная рекуррентная нейронная сеть (Laurent, 2015). В чем разница между этими тремя?
Есть раздел «Связанные работы», который я не понимаю:
Пакетная нормализация ранее была распространена на рецидивирующие нейронные сети [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Предыдущая работа [Cooijmans et al., 2016] предполагает, что наилучшие показатели нормализации периодических партий достигаются при ведении независимой статистики нормализации для каждого временного шага. Авторы показывают, что инициализация параметра усиления в слое нормализации периодической партии до 0,1 существенно влияет на конечную производительность модели. Наша работа также связана с нормализацией веса [Salimans and Kingma, 2016]. При нормализации веса вместо дисперсии норма L2 поступающих весов используется для нормализации суммированных входов в нейрон, Применение либо нормализации веса, либо нормализации партии с использованием ожидаемой статистики эквивалентно другой параметризации исходной нейронной сети прямой связи. Повторная параметризация в сети ReLU была изучена в патологически нормированной SGD [Neyshabur et al., 2015]. Однако предложенный нами метод нормализации слоев не является перепараметризацией исходной нейронной сети. Таким образом, нормализованная модель слоя обладает инвариантными свойствами, отличными от других методов , которые мы изучим в следующем разделе.