Вопросы с тегом «backpropagation»

Обратное распространение, аббревиатура от «обратного распространения ошибок», является распространенным методом обучения искусственных нейронных сетей, используемым в сочетании с методом оптимизации, таким как градиентный спуск.

2
В чем преимущество усеченного нормального распределения при инициализации весов в нейронной сети?
При инициализации весов соединений в нейронной сети с прямой связью важно инициализировать их случайным образом, чтобы избежать любых симметрий, которые алгоритм обучения не сможет нарушить. Рекомендация, которую я видел в разных местах (например, в учебнике MNIST от TensorFlow ), заключается в использовании усеченного нормального распределения с использованием стандартного отклонения , …

2
Почему RNN с блоками LSTM также могут страдать от «взрывных градиентов»?
У меня есть базовые знания о том, как работают RNN (и, в частности, с блоками LSTM). У меня есть графическое представление об архитектуре модуля LSTM, то есть ячейки и нескольких шлюзов, которые регулируют поток значений. Однако, по-видимому, я не до конца понял, как LSTM решает проблему «исчезающих и взрывающихся градиентов», …

1
Матричная форма обратного распространения с нормализацией партии
Нормализация партии была приписана существенным улучшениям производительности в глубоких нейронных сетях. Много материала в интернете показывает, как реализовать его на основе активации за активацию. Я уже реализовал backprop, используя матричную алгебру, и учитывая, что я работаю на языках высокого уровня (полагаясь Rcpp(и, в конечном итоге, на GPU) на плотное матричное …

2
Захват начальных образцов при использовании усеченного обратного распространения по времени (RNN / LSTM)
Скажем, я использую RNN / LSTM для анализа настроений, который является подходом «многие к одному» (см. Этот блог ). Сеть обучается по усеченному обратному распространению по времени (BPTT), где сеть разворачивается всего за 30 последних шагов, как обычно. В моем случае каждый из моих текстовых разделов, которые я хочу классифицировать, …

2
Как мини-пакетный градиентный спуск обновляет веса для каждого примера в пакете?
Если мы обрабатываем, скажем, 10 примеров в пакете, я понимаю, что мы можем суммировать потери для каждого примера, но как работает обратное распространение в отношении обновления весов для каждого примера? Например: Пример 1 -> потеря = 2 Пример 2 -> потеря = -2 Это приводит к средней потере 0 (E …

1
Обучение сверточной нейронной сети
В настоящее время я работаю над программным обеспечением для распознавания лиц, которое использует нейронные сети свертки для распознавания лиц. Основываясь на своих результатах, я понял, что сверточная нейронная сеть имеет общие веса, чтобы сэкономить время во время обучения. Но как адаптировать обратное распространение, чтобы его можно было использовать в сверточной …

2
Как обучить SVM через обратное распространение?
Мне было интересно, можно ли обучить SVM (скажем, линейный, чтобы упростить задачу) с использованием обратного распространения? В настоящее время я нахожусь в затруднительном положении, потому что я могу думать только о том, чтобы записать вывод классификатора как f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) Следовательно, когда мы пытаемся вычислить …

2
Что такое предварительная подготовка и как вы обучаете нейронную сеть?
Я понимаю, что предварительная подготовка используется, чтобы избежать некоторых проблем с обычным обучением. Если я использую обратное распространение, скажем, с помощью автоматического кодера, я знаю, что у меня возникнут проблемы со временем, потому что обратное распространение идет медленно, а также что я могу застрять в локальном оптимуме и не изучить …

1
Градиенты для скипграмм word2vec
Я изучаю проблемы письменных заданий в классе глубокого обучения Стэнфордского НЛП http://cs224d.stanford.edu/assignment1/assignment1_soln Я пытаюсь понять ответ для 3а, где они ищут производную от вектора для центрального слова. Предположим, вам дан вектор предсказанного слова соответствующий центральному слову c для скипграммы, а предсказание слова выполняется с помощью функции softmax, найденной в моделях …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.