Удивительно, но об этом раньше не спрашивали - по крайней мере, я не нашел ничего, кроме некоторых смутно связанных вопросов.
Итак, что такое рекуррентная нейронная сеть и каковы их преимущества перед обычными NN?
Удивительно, но об этом раньше не спрашивали - по крайней мере, я не нашел ничего, кроме некоторых смутно связанных вопросов.
Итак, что такое рекуррентная нейронная сеть и каковы их преимущества перед обычными NN?
Ответы:
Рекуррентные нейронные сети (RNN) представляют собой класс искусственной архитектуры нейронных сетей, основанной на циклическом соединении нейронов в мозге. Он использует итеративные циклы функций для хранения информации.
Разница с традиционными нейронными сетями с использованием картинок из этой книги :
И RNN:
Обратите внимание на разницу - соединения нейронных сетей с прямой связью не образуют циклов. Если мы ослабим это условие, а также допустим циклические связи, мы получим рекуррентные нейронные сети (RNN). Вы можете видеть это в скрытом слое архитектуры.
Хотя различие между многослойным персептроном и RNN может показаться незначительным, последствия для изучения последовательности являются далеко идущими. MLP может отображать только входные и выходные векторы , тогда как RNN в принципе может отображать всю историю предыдущих входных данных на каждый выходной . Действительно, эквивалентный результат теории универсального приближения для MLP состоит в том, что RNN с достаточным количеством скрытых единиц может аппроксимировать любое измеримое отображение последовательность-последовательность с произвольной точностью.
Важный вынос:
Периодические соединения позволяют «памяти» предыдущих входов сохраняться во внутреннем состоянии сети и, таким образом, влиять на выход сети.
Разговоры о преимуществах неуместны, так как они являются современными и особенно хороши в определенных задачах. Широкая категория задач, в которых RNN превосходит следующие:
Целью маркировки последовательностей является назначение последовательностей меток, взятых из фиксированного алфавита, последовательностям входных данных.
Пример: Переписать последовательность акустических функций с произнесенными словами (распознавание речи) или последовательность видеокадров с жестами (распознавание жестов).
Некоторые из подзадач в маркировке последовательности:
Классификация последовательности
Последовательности меток должны иметь длину один. Это называется классификацией последовательностей, поскольку каждая входная последовательность присваивается одному классу. Примеры задач классификации последовательности включают идентификацию одного разговорного произведения и распознавание отдельного рукописного письма.
Сегментная классификация
Классификация сегментов относится к тем задачам, где целевые последовательности состоят из нескольких меток, но расположение меток, то есть позиции входных сегментов, к которым применяются метки, известно заранее.
Рецидивирующий нейронная сеть (РННЫ) является искусственной нейронной сетью , которая содержит отсталое или сам-соединение, а не только имеющие вперед соединение, как в прямоточной нейронной сети (FFNN). Прилагательное «возвратный», таким образом, относится к этим отсталым или самоподключениям, которые создают петли в этих сетях.
RNN может быть обучен с использованием обратного распространения во времени (BBTT), так что эти обратные или самоподключения «запоминают» ранее увиденные входы. Следовательно, эти соединения в основном используются для отслеживания временных отношений между элементами последовательности входов, что делает RNN хорошо подходящими для прогнозирования последовательности и аналогичных задач.
Существует несколько моделей RNN: например, RNN с блоками LSTM или GRU. LSTM (или GRU) - это RNN, чьи единичные блоки выполняют более сложное преобразование, чем единица в «обычном RNN», которая выполняет линейное преобразование входа с последующим применением к нему нелинейной функции (например, ReLU). линейное преобразование. Теоретически, «простые RNN» так же мощны, как и RNN с блоками LSTM. На практике они страдают от проблемы «исчезающих и взрывающихся градиентов». Следовательно, на практике используются LSTM (или аналогичные сложные рекуррентные единицы).