Я много читал о сверточных нейронных сетях и удивлялся, как они избегают исчезающей проблемы градиента. Я знаю, что сети глубокого убеждения объединяют одноуровневые автокодеры или другие предварительно обученные мелкие сети и, таким образом, могут избежать этой проблемы, но я не знаю, как этого избежать в CNN.
Согласно Википедии :
«Несмотря на вышеупомянутую« проблему исчезающего градиента », превосходная вычислительная мощность графических процессоров делает возможным прямое обратное распространение для глубоких нейронных сетей с прямой связью и многими уровнями».
Я не понимаю, почему обработка на GPU устранит эту проблему?
GPU's are fast correlated with vanishing gradients
, я могу понять быструю логику с большой пропускной способностью памяти для обработки нескольких умножений матриц! но не могли бы вы объяснить, что это имеет отношение к производным? Исчезающий градиент вопрос , кажется, делать больше с инициализацией веса , не так ли!