Почему мы не используем непостоянную скорость обучения для градиента, приличного для вещей, отличных от нейронных сетей?

Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами нейронных сетей. Есть ли причина для этого? Если людям просто все равно, есть ли причина, почему мы не должны заботиться вне нейронных сетей?

— Тим
источник

Я думаю, что поиск по линии или метод доверительной области являются «непостоянными» показателями обучения.

— Haitao Du

Есть много методов непостоянного градиента, которые были разработаны независимо от NN. Barzilai-Borwein GD и Nesterov GD являются двумя яркими примерами.

— Sycorax говорит восстановить Monica

@Sycorax, но используются ли они ежедневно за пределами NN?

— Тим

@ Тим, я не могу сказать. Когда мне нужно выполнить локальный поиск за пределами NN, я могу позволить себе использовать методы второго порядка. Но я был взволнован, чтобы узнать о более быстрых методах GD для случая, когда у меня мог бы быть симпатичный трюк в моем заднем кармане.

— Sycorax говорит восстановить Monica

Стоит отметить, что (к моему удивлению) я сталкивался со случаями, когда GBM не используют постоянные скорости обучения, что несколько удивляет людей. Конкретным примером была реализация DART на LightGBM. В то время как в оригинальных документах LR не используется все меньше и меньше, фактическая реализация используется по умолчанию.

— usεr11852 говорит восстановить Monic

Отказ от ответственности: у меня нет такого большого опыта в оптимизации вне нейронных сетей, поэтому мой ответ будет явно предвзятым, но есть несколько вещей, которые играют роль:

(Глубокие) нейронные сети имеют много параметров . Это имеет несколько последствий:

Во-первых, он как бы исключает методы более высокого порядка просто потому, что вычисление гессиана и высших производных становится невозможным. В других доменах это может быть правильным подходом лучше, чем любые настройки SGD.

Во-вторых, хотя SGD замечательный , он имеет тенденцию быть непрактично медленным. Эти улучшенные варианты SGD в основном обеспечивают более быстрое обучение, в то же время потенциально утрачивая некоторые приятные свойства SGD . В других областях время обучения SGD не может быть узким местом, поэтому улучшения, достигнутые за счет его ускорения, могут быть просто незначительными.
Обучение (глубоким) нейронным сетям является невыпуклой оптимизацией, и я не знаю о значительных выпуклых результатах релаксации в поле. В отличие от других областей, нейронные сети не ориентированы на доказуемо глобально оптимальные решения, что приводит к тому, что мы вкладываем больше усилий в улучшение свойств поверхности потерь и ее обхода при оптимизации.

В других областях использование выпуклой релаксации и получение глобально оптимальных решений может оказаться в центре интереса вместо алгоритма оптимизации, поскольку, если задача определена как выпуклая задача, выбор алгоритма оптимизации не может улучшить качество решения. ,

Я полагаю, что этот ответ не охватывает все возможные аспекты, и мне самому любопытно узнать другие мнения.

— Ян Кукацка
источник

Таким образом, вы в основном говорите, что другие проблемы намного проще, так что вам не нужны хитрости и достаточно ванильного SGD?

— Тим

Это упрощает мое сообщение. 1) некоторые проблемы могут использовать методы более высокого порядка, нет необходимости в адаптивном SGD. 2) некоторые проблемы не могут выиграть от улучшения SGD по закону Амдала. 3) некоторые проблемы могут предлагать выпуклые решения, и основная трудность состоит в том, чтобы представить их как выпуклые. Ни одно из них не говорит о том, что другие проблемы намного проще, чем глубокое обучение, скорее объясняет, почему улучшение SGD не в центре их внимания.

— Ян Кукацка

Возможный пункт 4: если бы вы взяли какой-то другой метод и сделали его достаточно сложным (многомерный, нелинейный, невыпуклый), чтобы извлечь выгоду из сложных методов градиентного спуска, его, вероятно, назвали бы нейронной сетью.

— Натаниэль

@JanKukacka Я знаю, я искал разъяснения, так как ваш ответ был косвенным

— Тим