[Примечание 5 апреля 2019 года: новая версия документа была обновлена на arXiv со многими новыми результатами. Мы также представляем версии Momentum и NAG с обратной связью и доказываем сходимость при тех же предположениях, что и для Backtracking Gradient Descent.
Исходные коды доступны на GitHub по ссылке: https://github.com/hank-nguyen/MBT-optimizer
Мы улучшили алгоритмы для применения к DNN и получили лучшую производительность, чем современные алгоритмы, такие как MMT, NAG, Adam, Adamax, Adagrad, ...
Наиболее характерной особенностью наших алгоритмов является то, что они являются автоматическими, вам не нужно выполнять ручную подстройку скорости обучения в качестве обычной практики. Наша автоматическая подстройка по своей природе отличается от Адама, Адамакса, Адаграда и т. Д. Более подробная информация в статье.
]
Основано на очень недавних результатах: в моей совместной работе в этой статье https://arxiv.org/abs/1808.05160
е
Исходя из вышеизложенного, мы предложили новый метод глубокого обучения, который соответствует современным современным методам и не требует ручной настройки скоростей обучения. (В двух словах , идея состоит в том, что вы запускаете обратный градиентный спуск определенное время, пока не увидите, что скорости обучения, которые меняются с каждой итерацией, стабилизируются. Мы ожидаем эту стабилизацию, особенно в критической точке, которая C ^ 2 и является невырожденным из-за результата сходимости, о котором я упоминал выше. В этот момент вы переключаетесь на стандартный метод градиентного спуска. Для получения более подробной информации см. Цитируемую статью. Этот метод также может быть применен к другим оптимальным алгоритмам .)
PS Относительно вашего первоначального вопроса о стандартном методе градиентного спуска, насколько мне известно, только в случае, когда производная карты глобально липшицева, а скорость обучения достаточно мала, чтобы было доказано, что стандартный метод градиентного спуска сходится. [Если эти условия не выполняются, существуют простые контрпримеры, показывающие, что результат сходимости невозможен, см. Цитируемую статью для некоторых.] В цитированной выше статье мы утверждали, что в конечном счете метод обратного градиентного спуска станет стандартный метод градиентного спуска, который объясняет, почему стандартный метод градиентного спуска обычно хорошо работает на практике.