Статистика и большие данные backpropagation

6

Можно ли обучить нейронную сеть без обратного распространения?

Многие книги и учебные пособия по нейронной сети тратят много времени на алгоритм обратного распространения, который по сути является инструментом для вычисления градиента. Давайте предположим, что мы строим модель с ~ 10K параметров / весов. Можно ли запустить оптимизацию, используя некоторые алгоритмы оптимизации без градиента? Я думаю, что вычисление числового …

94 machine-learning neural-networks optimization backpropagation

1

Насколько большим должен быть размер партии для стохастического градиентного спуска?

Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер партии?

49 machine-learning neural-networks gradient-descent backpropagation

1

Чем softmax_cross_entropy_with_logits отличается от softmax_cross_entropy_with_logits_v2?

В частности, я предполагаю, что мне интересно это утверждение: Будущие основные версии TensorFlow позволят градиентам перетекать в метки, введенные на backprop по умолчанию. Который показан, когда я использую tf.nn.softmax_cross_entropy_with_logits. В том же сообщении он призывает меня взглянуть tf.nn.softmax_cross_entropy_with_logits_v2. Я просмотрел документацию, но она только утверждает, что для tf.nn.softmax_cross_entropy_with_logits_v2: Обратное распространение …

41 machine-learning supervised-learning tensorflow backpropagation

6

Обратное распространение с Softmax / Cross Entropy

Я пытаюсь понять, как работает обратное распространение для выходного слоя softmax / cross-entropy. Функция кросс-энтропийной ошибки E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j с и в качестве цели и выхода на нейроне соответственно. Сумма по каждому нейрону в выходном слое. Сам является результатом функции softmax:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Опять же, сумма по каждому нейрону …

40 backpropagation derivative softmax cross-entropy

5

Обратное распространение против генетического алгоритма для обучения нейронной сети

Я читал несколько статей, в которых обсуждались плюсы и минусы каждого метода, некоторые утверждали, что GA не дает никакого улучшения в поиске оптимального решения, в то время как другие показывают, что оно более эффективно. Кажется, что GA в литературе обычно предпочитают (хотя в основном люди модифицируют ее каким-то образом для …

34 neural-networks genetic-algorithms backpropagation

4

Почему tanh почти всегда лучше сигмовидной как функция активации?

В курсе Эндрю Нг « Нейронные сети и глубокое обучение» на Coursera он говорит, что использование tanhTaNчасtanh почти всегда предпочтительнее использования sigmoidsягмояdsigmoid . Причине он дает то , что выходные сигналы с помощью tanhTaNчасtanh центром , вокруг 0 , а не sigmoidsягмояdsigmoid «с 0.5, и это„делает обучение для следующего слоя …

33 machine-learning neural-networks backpropagation sigmoid-curve

7

Опасность установки всех начальных весов в ноль при обратном распространении

Почему опасно инициализировать веса нулями? Есть ли простой пример, который демонстрирует это?

30 neural-networks backpropagation

1

Почему неактивные функции активации являются проблемой при обратном распространении?

Я прочитал здесь следующее: Сигмоидальные выходы не центрированы по нулю . Это нежелательно, поскольку нейроны на более поздних уровнях обработки в нейронной сети (подробнее об этом в ближайшее время) будут получать данные, которые не центрированы по нулю. Это влияет на динамику во время градиентного спуска, потому что, если данные, поступающие …

26 neural-networks deep-learning backpropagation

1

Обратное распространение градиента через пропускаемые соединения ResNet

Мне любопытно, как градиенты распространяются обратно через нейронную сеть с помощью модулей ResNet / пропуска соединений. Я видел пару вопросов о ResNet (например, Нейронная сеть с пропускаемыми соединениями ), но этот вопрос специально задает о обратном распространении градиентов во время обучения. Основная архитектура здесь: Я прочитал эту статью, Изучение остаточных …

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

3

Зачем использовать градиентный спуск с нейронными сетями?

При обучении нейронной сети с использованием алгоритма обратного распространения метод градиентного спуска используется для определения обновлений веса. Мой вопрос: вместо того, чтобы использовать метод градиентного спуска, чтобы медленно найти минимальную точку относительно определенного веса, почему бы нам просто не установить производную , и найти значение веса которое минимизирует ошибку?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Кроме …

22 neural-networks gradient-descent backpropagation

2

В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?

Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики? Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были разработаны, чтобы избежать застревания в локальных минимумах.

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Почему обратное распространение не работает, когда вы инициализируете весовые значения одного и того же значения?

Почему обратное распространение не работает, когда вы инициализируете все веса одним и тем же значением (скажем, 0,5), но работает нормально, когда заданы случайные числа? Разве алгоритм не должен вычислять ошибку и работать оттуда, несмотря на то, что веса изначально одинаковы?

20 machine-learning neural-networks backpropagation

2

Алгоритм обратного распространения

Я получил небольшую путаницу с алгоритмом обратного распространения , используемым в многослойном персептроне (MLP). Ошибка корректируется функцией стоимости. В обратном распространении мы пытаемся отрегулировать вес скрытых слоев. Я могу понять ошибку вывода, то есть e = d - y[Без подписки]. Вопросы: Как получить ошибку скрытого слоя? Как рассчитать это? Если …

19 machine-learning neural-networks backpropagation

1

Сумма или среднее градиентов в (мини) пакетном градиенте приличное?

Когда я реализовал мини-пакетный градиент приличный, я просто усреднил градиенты всех примеров в обучающей партии. Тем не менее, я заметил, что сейчас оптимальная скорость обучения намного выше, чем для приличного онлайн градиента. Моя интуиция заключается в том, что это происходит из-за того, что усредненный градиент менее шумный и, таким образом, …

15 neural-networks gradient-descent backpropagation

3

Зачем обратно размножаться во времени в РНН?

В рекуррентной нейронной сети вы, как правило, продвигаетесь вперед через несколько временных шагов, «разворачиваете» сеть, а затем распространяетесь обратно через последовательность входов. Почему бы вам не просто обновить веса после каждого отдельного шага в последовательности? (эквивалент использования длины усечения 1, поэтому развернуть нечего) Это полностью устраняет проблему исчезающего градиента, значительно …

14 time-series neural-networks backpropagation rnn

Вопросы с тегом «backpropagation»