У вас будет один глобальный минимум, если проблема выпуклая или квазивыпуклая.
О выпуклых «строительных блоках» при построении нейронных сетей (версия для информатики)
Я думаю, что есть несколько из них, которые можно упомянуть:
max (0, x) - выпуклый и возрастающий
log-sum-exp - выпуклый и растущий по каждому параметру
y = Ax является аффинным и поэтому выпуклым в (A), может увеличиваться, а может уменьшаться. y = Ax является аффинным и поэтому выпуклым в (x), может увеличиваться, а может уменьшаться.
К сожалению, он не является выпуклым в (A, x), потому что выглядит как неопределенная квадратичная форма.
Обычная математическая дискретная свертка (под «обычным» я подразумеваю определение с повторяющимся сигналом) Y = h * X Похоже, что это аффинная функция h или переменной X. Так что это выпуклая переменная h или переменная X. Об обеих переменных Я так не думаю, потому что, когда h и X - скаляры, свертка сведется к неопределенной квадратичной форме.
max (f, g) - если f и g выпуклые, то max (f, g) также является выпуклым.
Если вы подставляете одну функцию в другую и создаете композиции, то все еще в выпуклой комнате для y = h (g (x), q (x)), но h должно быть выпуклым и увеличиваться (не уменьшаться) в каждом аргументе. ...
Почему нейронные сети в невыпуклых:
Я думаю, что свертка Y = h * X не обязательно увеличивается в h. Поэтому, если вы не используете никаких дополнительных предположений о ядре, вы сразу же выйдете из выпуклой оптимизации после применения свертки. Так что не все в порядке с составом .
Также свертка и умножение матриц не являются выпуклыми, если учитывать пару параметров, как указано выше. Таким образом, есть еще одна проблема с умножением матрицы: это невыпуклая операция по параметрам (A, x)
y = Ax может быть квазивыпуклым в (A, x), но также следует принимать во внимание дополнительные предположения.
Пожалуйста, дайте мне знать, если вы не согласны или у вас есть дополнительные соображения. Вопрос тоже очень интересный для меня.
ps max-pooling - то, что понижающая выборка с выбором max выглядит как некоторая модификация элементарных операций max с аффинной предкомпозицией (для извлечения нужных блоков), и для меня это выглядит выпуклым.
О других вопросах
Нет, логистическая регрессия не является выпуклой или вогнутой, но является лог-вогнутой. Это означает, что после применения логарифма у вас будет вогнутая функция в объясняющих переменных. Так что здесь уловка максимального правдоподобия велика.
Если существует не только один глобальный минимум. Ничего нельзя сказать о связи между локальными минимумами. Или, по крайней мере, вы не можете использовать выпуклую оптимизацию и ее расширения для нее, потому что эта область математики глубоко основана на глобальном недооценке.
Может быть, у вас есть путаница по этому поводу. Потому что на самом деле люди, которые создают такие схемы, просто делают «что-то» и получают «что-то». К сожалению, потому что у нас нет идеального механизма для решения с невыпуклой оптимизацией (в общем).
Но кроме нейронных сетей есть еще более простые вещи, которые не могут быть решены как нелинейные наименьшие квадраты - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)