Вопросы с тегом «gradient-descent»

Градиентный спуск - это алгоритм итеративной оптимизации первого порядка. Чтобы найти локальный минимум функции с использованием градиентного спуска, необходимо выполнить шаги, пропорциональные отрицательному значению градиента (или приблизительного градиента) функции в текущей точке. Для стохастического градиентного спуска есть также тег [sgd].

6
Почему бы не использовать третью производную для численной оптимизации?
Если гессианы так хороши для оптимизации (см., Например , метод Ньютона ), зачем останавливаться на достигнутом? Давайте использовать третий, четвертый, пятый и шестой производные? Почему бы нет?

4
Как получается функция затрат из логистической регрессии
Я прохожу курс машинного обучения в Стэнфорде на Coursera. В главе о логистической регрессии функция затрат выглядит следующим образом: Затем он получен здесь: Я попытался получить производную функции стоимости, но я получил что-то совершенно другое. Как получается производная? Какие промежуточные шаги?


6
Для выпуклых задач всегда ли градиент в Стохастическом градиентном спуске (SGD) указывает на глобальное экстремальное значение?
Учитывая выпуклую функцию стоимости, используя SGD для оптимизации, мы будем иметь градиент (вектор) в определенной точке в процессе оптимизации. Мой вопрос, учитывая точку на выпуклом, градиент только указывает в направлении, в котором функция увеличивается / уменьшается быстрее всего, или градиент всегда указывает на оптимальную / крайнюю точку функции стоимости ? …

1
Как определить условие завершения градиентного спуска?
На самом деле, я хотел спросить вас, как я могу определить условие завершения градиентного спуска. Могу ли я остановить его, основываясь на количестве итераций, т.е. учитывая значения параметров, скажем, для 100 итераций? Или мне следует подождать, чтобы различия в значениях двух параметров 'new' и 'old' были очень малы, скажем, ? …

3
Координата против градиентного спуска
Мне было интересно, каковы разные варианты использования для двух алгоритмов, Coordinate Descent и Gradient Descent . Я знаю, что у координатного спуска есть проблемы с негладкими функциями, но он используется в популярных алгоритмах, таких как SVM и LASSO. Однако градиентный спуск, по-моему, используется более широко, особенно при возрождении ANN и …

1
Обратное распространение градиента через пропускаемые соединения ResNet
Мне любопытно, как градиенты распространяются обратно через нейронную сеть с помощью модулей ResNet / пропуска соединений. Я видел пару вопросов о ResNet (например, Нейронная сеть с пропускаемыми соединениями ), но этот вопрос специально задает о обратном распространении градиентов во время обучения. Основная архитектура здесь: Я прочитал эту статью, Изучение остаточных …

3
Зачем использовать градиентный спуск с нейронными сетями?
При обучении нейронной сети с использованием алгоритма обратного распространения метод градиентного спуска используется для определения обновлений веса. Мой вопрос: вместо того, чтобы использовать метод градиентного спуска, чтобы медленно найти минимальную точку относительно определенного веса, почему бы нам просто не установить производную , и найти значение веса которое минимизирует ошибку?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Кроме …

3
Возможно ли градиентное спуск для SVM с ядром (если так, почему люди используют квадратичное программирование)?
Почему люди используют методы квадратичного программирования (например, SMO) при работе с SVM с ядром? Что не так с градиентным спуском? Это невозможно использовать с ядрами или просто слишком медленно (и почему?). Здесь немного больше контекста: пытаясь немного лучше понять SVM, я использовал Gradient Descent для обучения линейного классификатора SVM, используя …

3
От правила персептрона к градиентному спуску: чем отличаются перцептроны с функцией активации сигмовидной кишки от логистической регрессии?
По сути, мой вопрос заключается в том, что в многослойных персептронах персептроны используются с сигмовидной активационной функцией. Так что в правиле обновления у вычисляется какY^Y^\hat{y} Y^= 11 + опыт( - шTИкся)Y^знак равно11+ехр⁡(-весTИкся)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Чем этот «сигмовидный» персептрон отличается от логистической регрессии? Я бы сказал , что однослойный персептрон сигмовидной …

2
В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?
Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики? Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были разработаны, чтобы избежать застревания в локальных минимумах.

3
Когда генетические алгоритмы являются хорошим выбором для оптимизации?
Генетические алгоритмы являются одной из форм метода оптимизации. Часто стохастический градиентный спуск и его производные являются лучшим выбором для оптимизации функций, но генетические алгоритмы все еще иногда используются. Например, антенна космического корабля НАСА ST5 была создана с использованием генетического алгоритма: Когда методы генетической оптимизации являются лучшим выбором, чем более распространенные …

3
Может ли быть несколько локальных оптимальных решений, когда мы решаем линейную регрессию?
Я прочитал это утверждение на одном старом истинном / ложном экзамене: Мы можем получить несколько локальных оптимальных решений, если решим задачу линейной регрессии путем минимизации суммы квадратов ошибок с использованием градиентного спуска. Решение: Неверно У меня вопрос, какая часть этого вопроса не так? Почему это утверждение неверно?


3
Как размер партии влияет на конвергенцию SGD и почему?
Я видел аналогичный вывод из многих дискуссий, что с увеличением размера мини-пакета конвергенция SGD становится все труднее / хуже, например, в этой статье и в этом ответе . Также я слышал о людях, использующих такие уловки, как небольшая скорость обучения или размеры партий на ранней стадии, для решения этой проблемы …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.