Вопросы с тегом «sgd»

3
Пакетный градиентный спуск против стохастического градиентного спуска
Предположим, у нас есть некоторый обучающий набор ( х( я ), у( я ))(x(i),y(i))(x_{(i)}, y_{(i)}) для я = 1 , … , мi=1,…,mi = 1, \dots, m . Также предположим, что мы запускаем некоторый тип контролируемого алгоритма обучения на тренировочном наборе. Гипотезы представлены в виде часθ( х( я )) = …

2
Кто изобрел стохастический градиентный спуск?
Я пытаюсь понять историю градиентного спуска и стохастического градиентного спуска . Градиентный спуск был изобретен в Коши в 1847 году. Общий метод решения проблем симуляций . С. 536–538. Подробнее об этом см. здесь . С тех пор методы градиентного спуска продолжали развиваться, и я не знаком с их историей. В …

6
Для выпуклых задач всегда ли градиент в Стохастическом градиентном спуске (SGD) указывает на глобальное экстремальное значение?
Учитывая выпуклую функцию стоимости, используя SGD для оптимизации, мы будем иметь градиент (вектор) в определенной точке в процессе оптимизации. Мой вопрос, учитывая точку на выпуклом, градиент только указывает в направлении, в котором функция увеличивается / уменьшается быстрее всего, или градиент всегда указывает на оптимальную / крайнюю точку функции стоимости ? …

3
Как размер партии влияет на конвергенцию SGD и почему?
Я видел аналогичный вывод из многих дискуссий, что с увеличением размера мини-пакета конвергенция SGD становится все труднее / хуже, например, в этой статье и в этом ответе . Также я слышал о людях, использующих такие уловки, как небольшая скорость обучения или размеры партий на ранней стадии, для решения этой проблемы …

1
Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?
Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента weights_grad функции потерь для всего набора данных с нашими параметрами вектора параметров. Stochastic …

4
Как это может быть пойман в ловушку в седловой точке?
В настоящее время я немного озадачен тем, как мини-пакетный градиентный спуск может быть пойман в ловушку. Решение может быть слишком тривиальным, чтобы я его не понял. Вы получаете новую выборку каждую эпоху, и она вычисляет новую ошибку на основе новой партии, поэтому функция стоимости является статической только для каждой партии, …

1
RMSProp и Адам против SGD
Я выполняю эксперименты на валидации EMNIST, используя сети с RMSProp, Adam и SGD. Я достиг 87% точности с SGD (скорость обучения 0,1) и отсева (0,1 отсева), а также регуляризация L2 (1e-05 штраф). При тестировании точно такой же конфигурации с RMSProp и Adam, а также с начальной скоростью обучения 0,001 я …

1
В чем разница между VAE и стохастическим обратным распространением для моделей с глубокой генерацией?
В чем разница между авто-кодированием вариационного байесовского алгоритма и стохастическим обратным распространением для моделей с глубокой генерацией ? Приводит ли вывод в обоих методах к тем же результатам? Я не знаю каких-либо явных сравнений между этими двумя методами, несмотря на то, что обе группы авторов цитируют друг друга.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.