Недавно я прочитал статью Yann Dauphin et al. Выявление и устранение проблемы седловой точки в многомерной невыпуклой оптимизации , где они вводят интересный алгоритм спуска, называемый Ньютоном без седла , который, похоже, специально предназначен для оптимизации нейронной сети и не должен страдать от застревания в седловых точках. как методы первого порядка, как ванильный SGD.
Документ датируется 2014 годом, поэтому в нем нет ничего нового, однако я не видел, чтобы его использовали «в дикой природе». Почему этот метод не используется? Является ли гессенское вычисление слишком запретным для задач / сетей реального размера? Есть ли какая-то реализация этого алгоритма с открытым исходным кодом, возможно, для использования с некоторыми из основных структур глубокого обучения?
Обновление: февраль 2019 г .: теперь доступна реализация: https://github.com/dave-fernandes/SaddleFreeOptimizer )