Первые два упомянутых вами алгоритма (Nelder-Mead и Simulated Annealing) обычно считаются в кругах оптимизации в значительной степени устаревшими, поскольку есть гораздо лучшие альтернативы, которые являются более надежными и менее дорогостоящими. Генетические алгоритмы охватывают широкий спектр, и некоторые из них могут быть разумными.
Однако в более широком классе алгоритмов оптимизации без производных (DFO) есть много, которые значительно лучше, чем эти «классики», поскольку в последние десятилетия это была активная область исследований. Итак, могут ли некоторые из этих новых подходов быть разумными для глубокого изучения?
Сравнительно недавний документ, в котором сравнивается уровень техники, заключается в следующем:
Риос, Л.М. & Сахинидис, Н.В. (2013) Оптимизация без деривативов: обзор алгоритмов и сравнение программных реализаций. Журнал глобальной оптимизации.
Это хорошая статья, в которой есть много интересных идей о последних технологиях. Например, результаты ясно показывают, что все лучшие локальные оптимизаторы основаны на модели, используя различные формы последовательного квадратичного программирования (SQP).
Однако, как отмечено в их реферате: «Мы находим, что способность всех этих решателей получать хорошие решения уменьшается с увеличением размера проблемы». Чтобы дать представление о числах, для всех задач решающим был дан бюджет 2500 оценок функций, а размеры задач составляли максимум ~ 300 параметров для оптимизации. Помимо параметров O [10], очень немногие из этих оптимизаторов работали очень хорошо, и даже лучшие из них показали заметное снижение производительности при увеличении размера проблемы.
Таким образом, для задач с очень большими измерениями алгоритмы DFO просто не могут конкурировать с производными. Чтобы дать некоторую перспективу, оптимизация на основе PDE (уравнения с частными производными) - это еще одна область с очень большими размерными проблемами (например, несколько параметров для каждой ячейки большой трехмерной сетки конечных элементов). В этой области « сопряженный метод » является одним из наиболее часто используемых методов. Это также оптимизатор градиентного спуска, основанный на автоматическом дифференцировании кода прямой модели.
Наиболее близким к многомерному оптимизатору DFO является, возможно, ансамблевый фильтр Калмана , используемый для ассимиляции данных в сложные моделирования PDE, например, модели погоды. Интересно, что это по существу подход SQP, но с байесовско-гауссовой интерпретацией (поэтому квадратичная модель является положительно определенной, то есть без седловых точек). Но я не думаю, что количество параметров или наблюдений в этих приложениях сопоставимо с тем, что можно увидеть в глубоком обучении.
Дополнительное примечание (локальные минимумы). Из того, что я прочитал о глубоком обучении, я думаю, что единодушным является то, что именно седловые точки, а не локальные минимумы, являются наиболее проблематичными для пространств с NN-параметрами большой размерности.
Например, недавний обзор в Nature говорит: «Недавние теоретические и эмпирические результаты убедительно свидетельствуют о том, что локальные минимумы не являются серьезной проблемой в целом. Вместо этого ландшафт заполнен комбинаторно большим количеством седловых точек, где градиент равен нулю, и поверхность изгибается в большинстве измерений и изгибается в остальном. "
Связанное с этим беспокойство касается локальной и глобальной оптимизации (например, этот вопрос указан в комментариях). Хотя я не занимаюсь глубоким обучением, в моем опыте переоснащение определенно является серьезной проблемой. На мой взгляд, методы глобальной оптимизации наиболее подходят для задач инженерного проектирования, которые не сильно зависят от «естественных» данных. В задачах ассимиляции данных, любые текущие глобальные минимумы легко могут измениться при добавлении новых данных (предостережение: Мой опыт будет сосредоточен в задачах геонаучных, где данные обычно «разреженный» по отношению к модели емкости).
Возможно, интересная перспектива
О. Буске и Л. Ботту (2008) . Компромиссы крупномасштабного обучения. NIPS.
который обеспечивает полуторетические аргументы о том, почему и когда приближенная оптимизация может быть предпочтительнее на практике.
Конечное примечание (мета-оптимизация): хотя методы обучения на основе градиента, по-видимому, доминируют в обучающих сетях, DFO может играть роль в связанных задачах мета-оптимизации.
Одним из примеров будет настройка гиперпараметров. (Интересно, что успешные оптимизаторы DFO на основе моделей от Rios & Sahinidis можно рассматривать как принципиально решающие последовательность задач проектирования экспериментов / поверхности отклика .)
Другим примером может быть проектирование архитектур с точки зрения настройки уровней (например, число, тип, последовательность, узлы / уровень). В этом контексте дискретной оптимизации алгоритмы генетического стиля могут быть более подходящими. Обратите внимание, что здесь я имею в виду случай, когда связность неявно определяется этими факторами (например, полностью связные слои, сверточные слои и т. Д.). Другими словами, связность явно оптимизирована мета. (Сила соединения может упасть при обучении, где, например, разреженность может быть обеспечена регуляризацией и / или активацией ReLU ... однако этот выбор может быть мета-оптимизирован.)O[N2]notL1