FULL GRU Unit
с~T= загар( Wс[ Gр∗ ст - 1, хT] + бс)
граммU= σ( WU[ ст - 1, хT] + бU)
граммр= σ( Wр[ ст - 1, хT] + бр)
сT= GU∗ с~T+ ( 1 - GU) ∗ ст - 1
aT= сT
Блок LSTM
с~T= загар( Wс[ ат - 1, хT] + бс)
граммU= σ( WU[ ат - 1, хT] + бU)
грамме= σ( Wе[ ат - 1, хT] + бе)
граммо= σ( Wо[ ат - 1, хT] + бо)
сT= GU∗ с~T+ Gе∗ ст - 1
aT= Gо∗ t a n h ( cT)
Как видно из уравнений, LSTM имеют отдельный шлюз обновления и шлюз забывания. Это явно делает LSTM более сложными, но в то же время более сложными. Нет простого способа решить, какой использовать для вашего конкретного случая использования. Вы всегда должны делать проб и ошибок, чтобы проверить производительность. Однако, поскольку GRU проще, чем LSTM, для обучения GRU потребуется гораздо меньше времени, и он более эффективен.
Кредиты: Андрей Нг