2
Почему RNN с блоками LSTM также могут страдать от «взрывных градиентов»?
У меня есть базовые знания о том, как работают RNN (и, в частности, с блоками LSTM). У меня есть графическое представление об архитектуре модуля LSTM, то есть ячейки и нескольких шлюзов, которые регулируют поток значений. Однако, по-видимому, я не до конца понял, как LSTM решает проблему «исчезающих и взрывающихся градиентов», …