Статистика и большие данные neural-networks

3

Я пытаюсь добавить слой softmax в нейронную сеть, обученную обратному распространению, поэтому я пытаюсь вычислить его градиент. Выходные данные softmax: где - номер выходного нейрона.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Если я получу это, то я получу ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Похоже на логистическую регрессию. Однако это неправильно, так как моя проверка градиента не удалась. Что …

43 neural-networks

2

Что такое maxout в нейронной сети?

Кто-нибудь может объяснить, что делают блоки maxout в нейронной сети? Как они работают и чем они отличаются от обычных единиц? Я попытался прочитать статью «Maxout Network» за 2013 год, написанную Goodfellow et al. (из группы профессора Йошуа Бенжио), но я не совсем понимаю.

42 machine-learning neural-networks

1

Нейронные сети: импульс изменения веса и снижение веса

Momentum используется для уменьшения колебаний веса в последовательных итерациях:αα\alpha Е(ш)шηΔ ωя( t + 1 ) = - η∂Е∂веся+ α Δ ωя( т ) ,Δωя(T+1)знак равно-η∂Е∂веся+αΔωя(T),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), где - функция ошибки, - вектор весов, - скорость обучения.Е( ш )Е(вес)E({\bf w})весвес{\bf w}ηη\eta Снижение веса …

42 neural-networks optimization regularization gradient-descent

4

Почему сигмовидная функция вместо всего остального?

Почему де-факто стандартная сигмоидальная функция так популярна в (не глубоких) нейронных сетях и логистической регрессии?11 + е- х11+e−x\frac{1}{1+e^{-x}} Почему бы нам не использовать многие из других производных функций с более быстрым временем вычисления или более медленным затуханием (так что исчезающий градиент происходит меньше). Немного примеров в Википедии о сигмоидальных функциях …

40 logistic neural-networks least-squares

3

Чем отличаются скрытые марковские модели от нейронных сетей?

Я просто промочил статистику, поэтому извините, если этот вопрос не имеет смысла. Я использовал модели Маркова для прогнозирования скрытых состояний (нечестных казино, бросков игральных костей и т. Д.) И нейронных сетей для изучения кликов пользователей в поисковой системе. У обоих были скрытые состояния, которые мы пытались выяснить, используя наблюдения. Насколько …

40 data-mining algorithms neural-networks markov-process

4

Как прямолинейная функция активации решает проблему исчезающего градиента в нейронных сетях?

Я нашел выпрямленную линейную единицу (ReLU), восхваляемую в нескольких местах как решение проблемы исчезающего градиента для нейронных сетей. То есть, в качестве функции активации используется max (0, x). Когда активация положительна, очевидно, что это лучше, чем, скажем, функция активации сигмоида, поскольку ее вывод всегда равен 1, а не сколь угодно …

40 machine-learning neural-networks deep-learning gradient-descent

7

Нормализация и стандартизация данных в нейронных сетях

Я пытаюсь предсказать результат сложной системы, используя нейронные сети (ИНС). Исходные (зависимые) значения находятся в диапазоне от 0 до 10000. Разные входные переменные имеют разные диапазоны. Все переменные имеют примерно нормальное распределение. Я рассматриваю разные варианты масштабирования данных перед тренировкой. Один из вариантов - масштабировать входные (независимые) и выходные (зависимые) …

40 machine-learning neural-networks multidimensional-scaling

2

ImageNet: что такое топ-1 и топ-5 ошибок?

В классификационных документах ImageNet показатели ошибок топ-1 и топ-5 являются важными единицами измерения успешности некоторых решений, но каковы эти коэффициенты ошибок? В классификации ImageNet с глубокими сверточными нейронными сетями Крижевский и соавт. каждое решение, основанное на одной CNN (стр. 7), не имеет топ-5 ошибок, в то время как решения с …

38 classification neural-networks error measurement-error image-processing

5

Как визуализировать / понять, что делает нейронная сеть?

Нейронные сети часто рассматриваются как «черные ящики» из-за их сложной структуры. Это не идеально, так как часто полезно иметь интуитивное представление о том, как модель работает внутри. Каковы методы визуализации работы обученной нейронной сети? В качестве альтернативы, как мы можем извлечь легко усваиваемые описания сети (например, этот скрытый узел в …

37 data-visualization neural-networks

7

Почему регуляризация не устраняет голод данных в Deep Neural Nets?

Проблема, с которой я часто сталкивался в контексте нейронных сетей в целом и глубоких нейронных сетей в частности, заключается в том, что они «жаждут данных» - то есть они плохо работают, если у нас нет большого набора данных с помощью которого тренируется сеть. Насколько я понимаю, это связано с тем, …

37 neural-networks deep-learning regularization

4

Что мне делать, если моя нейронная сеть плохо обобщается?

Я тренирую нейронную сеть, и потери на обучение уменьшаются, но потери на валидацию не уменьшаются или уменьшаются намного меньше, чем я ожидал, основываясь на ссылках или экспериментах с очень похожими архитектурами и данными. Как я могу это исправить? Что касается вопроса Что мне делать, если моя нейронная сеть не учится? …

37 neural-networks deep-learning

4

Разница между «ядром» и «фильтром» в CNN

В чем разница между терминами «ядро» и «фильтр» в контексте сверточных нейронных сетей?

37 neural-networks terminology deep-learning conv-neural-network

3

Машинное обучение: должен ли я использовать категориальную кросс-энтропию или двоичную кросс-энтропийную потерю для бинарных предсказаний?

Прежде всего, я понял, что если мне нужно выполнить двоичные предсказания, я должен создать как минимум два класса, выполняя горячее кодирование. Это верно? Однако является ли двоичная кросс-энтропия только для предсказаний только с одним классом? Если бы я использовал категориальную кросс-энтропийную потерю, которая обычно встречается в большинстве библиотек (например, TensorFlow), …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

Функция стоимости нейронной сети невыпуклая?

Функция стоимости нейронной сети равна J(W,b)J(W,b)J(W,b) , и она называется невыпуклой . Я не совсем понимаю, почему это так, поскольку, как я вижу, это очень похоже на функцию стоимости логистической регрессии, верно? Если оно невыпукло, значит, производная 2-го порядка ∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} < 0, верно? ОБНОВИТЬ Благодаря ответам ниже, а …

36 neural-networks loss-functions

4

Как LSTM предотвращает проблему исчезающего градиента?

LSTM был изобретен специально, чтобы избежать проблемы исчезающего градиента. Предполагается, что это будет сделано с помощью карусели постоянных ошибок (CEC), которая на диаграмме ниже (от Греффа и др. ) Соответствует петле вокруг ячейки . (источник: deeplearning4j.org ) И я понимаю, что эту часть можно рассматривать как своего рода функцию тождества, …

35 neural-networks lstm

Вопросы с тегом «neural-networks»