Я думаю, что вы имеете в виду вертикально сложенные слои LSTM (предполагая, что горизонтальная ось является временной осью).
В этом случае основная причина стекирования LSTM состоит в том, чтобы допустить большую сложность модели. В случае простой сети с прямой связью мы складываем слои для создания иерархического представления объектов входных данных, которые затем используются для какой-либо задачи машинного обучения. То же самое относится к сложенным LSTM.
На каждом шаге по времени LSTM, кроме периодического ввода. Если входные данные уже являются результатом слоя LSTM (или слоя прямой связи), тогда текущий LSTM может создать более сложное представление элемента текущего ввода.
Теперь разница между наличием слоя прямой связи между входом объекта и слоем LSTM и наличием другого слоя LSTM заключается в том, что слой прямой связи (скажем, полностью подключенный слой) не получает обратную связь от своего предыдущего временного шага и, следовательно, не может учитывать определенные узоры. Вместо LSTM (например, с использованием сложенного представления LSTM) более сложные входные шаблоны могут быть описаны на каждом уровне