Echo State Network является примером более общей концепции Reservoir Computing . Основная идея ESN состоит в том, чтобы получить преимущества от RNN (обработать последовательность входов, которые зависят друг от друга, то есть временные зависимости, такие как сигнал), но без проблем обучения традиционной RNN, такой как проблема исчезающего градиента .
ESN достигают этого, имея относительно большой резервуар из редко соединенных нейронов, используя сигмоидальную передаточную функцию (относительно размера входного сигнала, что-то вроде 100-1000 единиц). Соединения в резервуаре назначаются один раз и являются полностью случайными; веса резервуара не тренируются. Входные нейроны соединяются с резервуаром и подают входные активации в резервуар - им тоже присваиваются нетренированные случайные веса. Единственными весами, которые обучаются, являются выходные веса, которые соединяют резервуар с выходными нейронами.
При обучении входные данные будут подаваться в резервуар, а выходные данные учителя будут применяться к выходным единицам. Состояния коллектора фиксируются с течением времени и сохраняются. После того как все входные данные для обучения были применены, можно использовать простое применение линейной регрессии между зафиксированными состояниями коллектора и целевыми выходными данными. Эти выходные веса могут быть затем включены в существующую сеть и использованы для новых входных данных.
Идея состоит в том, что редкие случайные соединения в резервуаре позволяют эхо-сигналам предыдущих состояний даже после того, как они прошли, так что если сеть получает новый ввод, который похож на то, чему она обучалась, динамика в резервуаре начнет следуйте траектории активации, соответствующей входу, и таким образом можете подать сигнал, совпадающий с тем, на чем он обучен, и если он хорошо обучен, он сможет обобщить то, что уже видел, следуя траекториям активации, которые имели бы смысл с учетом входного сигнала вождения резервуара.
Преимущество этого подхода заключается в невероятно простой процедуре обучения, поскольку большинство весов назначаются только один раз и случайным образом. Тем не менее, они способны фиксировать сложную динамику с течением времени и способны моделировать свойства динамических систем. Безусловно, самые полезные документы, которые я нашел на ESN:
Они оба имеют простые для понимания объяснения в сочетании с формализмом и выдающимися советами по созданию реализации с руководством по выбору подходящих значений параметров.
ОБНОВЛЕНИЕ: Книга глубокого обучения от Goodfellow, Bengio и Courville содержит чуть более подробное, но все же приятное обсуждение на высоком уровне сетей Echo State. В разделе 10.7 обсуждается исчезающая (и взрывающаяся) проблема градиента и трудности изучения долгосрочных зависимостей. Раздел 10.8 посвящен сетям Echo State. В частности, подробно рассказывается о том, почему важно выбирать веса коллектора, которые имеют подходящее значение спектрального радиуса, - он работает вместе с нелинейными активационными единицами для обеспечения стабильности, в то же время распространяя информацию во времени.