Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами нейронных сетей. Есть ли причина для этого? Если людям просто все равно, есть ли причина, почему мы не должны заботиться вне нейронных сетей?