Вопросы с тегом «neural-networks»

Искусственные нейронные сети (ИНС) представляют собой широкий класс вычислительных моделей, в основе которых лежат биологические нейронные сети. Они включают в себя NN с прямой связью (включая "глубокие" NN), сверточные NN, рекуррентные NN и т. Д.

3
Softmax слой в нейронной сети
Я пытаюсь добавить слой softmax в нейронную сеть, обученную обратному распространению, поэтому я пытаюсь вычислить его градиент. Выходные данные softmax: где - номер выходного нейрона.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Если я получу это, то я получу ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Похоже на логистическую регрессию. Однако это неправильно, так как моя проверка градиента не удалась. Что …

2
Что такое maxout в нейронной сети?
Кто-нибудь может объяснить, что делают блоки maxout в нейронной сети? Как они работают и чем они отличаются от обычных единиц? Я попытался прочитать статью «Maxout Network» за 2013 год, написанную Goodfellow et al. (из группы профессора Йошуа Бенжио), но я не совсем понимаю.

1
Нейронные сети: импульс изменения веса и снижение веса
Momentum используется для уменьшения колебаний веса в последовательных итерациях:αα\alpha Е(ш)шηΔ ωя( t + 1 ) = - η∂Е∂веся+ α Δ ωя( т ) ,Δωя(T+1)знак равно-η∂Е∂веся+αΔωя(T),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), где - функция ошибки, - вектор весов, - скорость обучения.Е( ш )Е(вес)E({\bf w})весвес{\bf w}ηη\eta Снижение веса …

4
Почему сигмовидная функция вместо всего остального?
Почему де-факто стандартная сигмоидальная функция так популярна в (не глубоких) нейронных сетях и логистической регрессии?11 + е- х11+e−x\frac{1}{1+e^{-x}} Почему бы нам не использовать многие из других производных функций с более быстрым временем вычисления или более медленным затуханием (так что исчезающий градиент происходит меньше). Немного примеров в Википедии о сигмоидальных функциях …

3
Чем отличаются скрытые марковские модели от нейронных сетей?
Я просто промочил статистику, поэтому извините, если этот вопрос не имеет смысла. Я использовал модели Маркова для прогнозирования скрытых состояний (нечестных казино, бросков игральных костей и т. Д.) И нейронных сетей для изучения кликов пользователей в поисковой системе. У обоих были скрытые состояния, которые мы пытались выяснить, используя наблюдения. Насколько …

4
Как прямолинейная функция активации решает проблему исчезающего градиента в нейронных сетях?
Я нашел выпрямленную линейную единицу (ReLU), восхваляемую в нескольких местах как решение проблемы исчезающего градиента для нейронных сетей. То есть, в качестве функции активации используется max (0, x). Когда активация положительна, очевидно, что это лучше, чем, скажем, функция активации сигмоида, поскольку ее вывод всегда равен 1, а не сколь угодно …

7
Нормализация и стандартизация данных в нейронных сетях
Я пытаюсь предсказать результат сложной системы, используя нейронные сети (ИНС). Исходные (зависимые) значения находятся в диапазоне от 0 до 10000. Разные входные переменные имеют разные диапазоны. Все переменные имеют примерно нормальное распределение. Я рассматриваю разные варианты масштабирования данных перед тренировкой. Один из вариантов - масштабировать входные (независимые) и выходные (зависимые) …

2
ImageNet: что такое топ-1 и топ-5 ошибок?
В классификационных документах ImageNet показатели ошибок топ-1 и топ-5 являются важными единицами измерения успешности некоторых решений, но каковы эти коэффициенты ошибок? В классификации ImageNet с глубокими сверточными нейронными сетями Крижевский и соавт. каждое решение, основанное на одной CNN (стр. 7), не имеет топ-5 ошибок, в то время как решения с …

5
Как визуализировать / понять, что делает нейронная сеть?
Нейронные сети часто рассматриваются как «черные ящики» из-за их сложной структуры. Это не идеально, так как часто полезно иметь интуитивное представление о том, как модель работает внутри. Каковы методы визуализации работы обученной нейронной сети? В качестве альтернативы, как мы можем извлечь легко усваиваемые описания сети (например, этот скрытый узел в …

7
Почему регуляризация не устраняет голод данных в Deep Neural Nets?
Проблема, с которой я часто сталкивался в контексте нейронных сетей в целом и глубоких нейронных сетей в частности, заключается в том, что они «жаждут данных» - то есть они плохо работают, если у нас нет большого набора данных с помощью которого тренируется сеть. Насколько я понимаю, это связано с тем, …

4
Что мне делать, если моя нейронная сеть плохо обобщается?
Я тренирую нейронную сеть, и потери на обучение уменьшаются, но потери на валидацию не уменьшаются или уменьшаются намного меньше, чем я ожидал, основываясь на ссылках или экспериментах с очень похожими архитектурами и данными. Как я могу это исправить? Что касается вопроса Что мне делать, если моя нейронная сеть не учится? …


3
Машинное обучение: должен ли я использовать категориальную кросс-энтропию или двоичную кросс-энтропийную потерю для бинарных предсказаний?
Прежде всего, я понял, что если мне нужно выполнить двоичные предсказания, я должен создать как минимум два класса, выполняя горячее кодирование. Это верно? Однако является ли двоичная кросс-энтропия только для предсказаний только с одним классом? Если бы я использовал категориальную кросс-энтропийную потерю, которая обычно встречается в большинстве библиотек (например, TensorFlow), …

5
Функция стоимости нейронной сети невыпуклая?
Функция стоимости нейронной сети равна J(W,b)J(W,b)J(W,b) , и она называется невыпуклой . Я не совсем понимаю, почему это так, поскольку, как я вижу, это очень похоже на функцию стоимости логистической регрессии, верно? Если оно невыпукло, значит, производная 2-го порядка ∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0, верно? ОБНОВИТЬ Благодаря ответам ниже, а …

4
Как LSTM предотвращает проблему исчезающего градиента?
LSTM был изобретен специально, чтобы избежать проблемы исчезающего градиента. Предполагается, что это будет сделано с помощью карусели постоянных ошибок (CEC), которая на диаграмме ниже (от Греффа и др. ) Соответствует петле вокруг ячейки . (источник: deeplearning4j.org ) И я понимаю, что эту часть можно рассматривать как своего рода функцию тождества, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.