В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?


20

Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики?

Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были разработаны, чтобы избежать застревания в локальных минимумах.


Ответы:


13

Расширяя ответ @Dikran Marsupial ....

Анна Чороманска и ее коллеги из группы Яна ЛеКунна в Нью-Йоркском университете рассказывают об этом в своей статье AISTATS 2014 года «Поверхность потерь многослойных сетей» . Используя теорию случайных матриц, наряду с некоторыми экспериментами, они утверждают, что:

  • Для сетей большого размера большинство локальных минимумов эквивалентны и дают аналогичную производительность в тестовом наборе.

  • Вероятность нахождения «плохого» (высокого значения) локального минимума ненулевая для сетей малого размера и быстро уменьшается с ростом размера сети.

  • Попытка найти глобальный минимум на тренировочном наборе (в отличие от одного из множества хороших локальных) на практике бесполезна и может привести к переоснащению.

[Со страницы 2 статьи]

С этой точки зрения, нет веских оснований для развертывания тяжеловесных подходов для нахождения глобального минимума. Это время лучше потратить на опробование новых топологий сети, функций, наборов данных и т. Д

Тем не менее, многие люди думали об увеличении или замене SGD. Для довольно небольших сетей (по современным стандартам) эти улучшенные мета-эвристики, по-видимому, делают что-то, что Mavrovouniotis и Yang (2016) показывают, что оптимизация колоний муравьев + backprop превосходит неизмененный backprop в нескольких наборах эталонных данных (хотя и ненамного). Rere el al. (2015) используют моделируемый отжиг для обучения CNN и обнаруживают, что первоначально он лучше работает на наборе валидации. Однако после 10 эпох остается лишь небольшая (и не проверенная на значимость) разница в производительности. Более быстрое преимущество сходимости на эпоху также компенсируется значительно большим количеством времени вычислений на эпоху, так что это не является очевидной победой для имитации отжига.

Вполне возможно, что эти эвристики лучше справляются с инициализацией сети, и как только она будет указана верным путем, подойдет любой оптимизатор. Sutskever et al. (2013) из группы Джеффа Хинтона утверждают что-то подобное в своей статье ICML 2013 года .


17

Локальные минимумы на самом деле не такая большая проблема с нейронными сетями, как это часто предлагается. Некоторые из локальных минимумов происходят из-за симметрии сети (то есть вы можете переставить скрытые нейроны и выйти из функциисети без изменений. Все, что необходимо, - это найти хорошие локальные минимумы, а не глобальные минимумы. Как это происходит, агрессивная оптимизация очень гибкой модели, такой как нейронная сеть, скорее всего, станет рецептом для подбора данных, поэтому использование, например, имитированного отжига для нахождения глобальных минимумов критерия обучения, вероятно, даст нейронной сети худшую производительность обобщения, чем обучаемая по градиентному спуску, которая заканчивается в локальных минимумах. Если используются эти эвристические методы оптимизации, я бы посоветовал включить термин регуляризации, чтобы ограничить сложность модели.

... или в качестве альтернативы используйте, например, метод ядра или модель радиальной базисной функции, что, вероятно, будет меньше проблем.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.