Я знаю, что эта ветка довольно старая, а другие проделали большую работу по объяснению таких понятий, как локальные минимумы, переоснащение и т. Д. Однако, поскольку OP искал альтернативное решение, я постараюсь внести одно и надеюсь, что оно вдохновит на более интересные идеи.
Идея состоит в том, чтобы заменить каждый вес w на w + t, где t - случайное число, следующее за распределением Гаусса. Конечный выходной сигнал сети представляет собой средний выходной сигнал по всем возможным значениям t. Это можно сделать аналитически. Затем вы можете оптимизировать проблему с помощью градиентного спуска или LMA или других методов оптимизации. После завершения оптимизации у вас есть два варианта. Один из вариантов - уменьшить сигма в распределении Гаусса и проводить оптимизацию снова и снова, пока сигма не достигнет 0, тогда у вас будет лучший локальный минимум (но потенциально это может привести к переобучению). Другой вариант - продолжать использовать тот, у которого случайное число в его весах, обычно он имеет лучшее свойство обобщения.
Первый подход - это трюк оптимизации (я называю его сверточным туннелированием, поскольку он использует свертку параметров для изменения целевой функции), он сглаживает поверхность ландшафта функции стоимости и избавляет от некоторых локальных минимумов, таким образом облегчить поиск глобального минимума (или лучше локального минимума).
Второй подход связан с введением шума (на весах). Обратите внимание, что это делается аналитически, что означает, что конечный результат - одна сеть, а не несколько сетей.
Ниже приведены примеры выходных данных для задачи с двумя спиралями. Архитектура сети одинакова для всех трех: существует только один скрытый уровень из 30 узлов, а выходной уровень является линейным. Используемый алгоритм оптимизации - LMA. Левое изображение для настройки ванили; середина использует первый подход (а именно многократное уменьшение сигмы к 0); третий использует сигма = 2.
Вы можете видеть, что ванильное решение является наихудшим, сверточное туннелирование работает лучше, а внедрение шума (с сверточным туннелированием) является лучшим (с точки зрения свойства обобщения).
И сверточное туннелирование, и аналитический способ введения шума - мои оригинальные идеи. Возможно они - альтернатива, кому-то может быть интересно. Подробности можно найти в моей статье « Объединение бесконечного числа нейронных сетей в одну» . Предупреждение: я не профессиональный академический писатель, и статья не рецензируется. Если у вас есть вопросы по поводу упомянутых мной подходов, пожалуйста, оставьте комментарий.