При обучении нейронной сети с использованием алгоритма обратного распространения метод градиентного спуска используется для определения обновлений веса. Мой вопрос: вместо того, чтобы использовать метод градиентного спуска, чтобы медленно найти минимальную точку относительно определенного веса, почему бы нам просто не установить производную , и найти значение веса которое минимизирует ошибку?
Кроме того, почему мы уверены, что функция ошибок при обратном распространении будет минимальной? Разве не получается, что функция ошибок - максимум? Существует ли специальное свойство функций сжатия, которое гарантирует, что сеть с любым количеством скрытых узлов с произвольными весами и входными векторами всегда будет давать функцию ошибки, которая имеет некоторые минимумы?