Вопросы с тегом «lstm»

Долгосрочная краткосрочная память (LSTM) - это архитектура нейронной сети, которая содержит повторяющиеся блоки NN, которые могут запоминать значение в течение произвольного периода времени.

4
Как LSTM предотвращает проблему исчезающего градиента?
LSTM был изобретен специально, чтобы избежать проблемы исчезающего градиента. Предполагается, что это будет сделано с помощью карусели постоянных ошибок (CEC), которая на диаграмме ниже (от Греффа и др. ) Соответствует петле вокруг ячейки . (источник: deeplearning4j.org ) И я понимаю, что эту часть можно рассматривать как своего рода функцию тождества, …

5
Понимание единиц LSTM против клеток
Я некоторое время изучал LSTM. Я понимаю на высоком уровне, как все работает. Однако, собираясь реализовать их с помощью Tensorflow, я заметил, что BasicLSTMCell требует параметра количества единиц (то есть num_units). Из этого очень подробного объяснения LSTM я понял, что один блок LSTM является одним из следующих который на самом …

1
Потеря обучения идет вниз и снова. Что происходит?
Моя потеря тренировки снижается, а затем снова растет. Это очень странно. Потеря перекрестной проверки отслеживает потерю обучения. Что происходит? У меня есть два сложенных LSTMS следующим образом (на Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Я тренирую это для 100 Эпох: …

3
Каковы преимущества стекирования нескольких LSTM?
Каковы преимущества, почему можно использовать несколько LSTM, расположенных рядом друг с другом, в глубокой сети? Я использую LSTM для представления последовательности входов в качестве одного входа. Итак, если у меня есть это единственное представление - зачем мне его снова проходить? Я спрашиваю об этом, потому что я видел это в …

1
Какие именно механизмы внимания?
Механизмы внимания использовались в различных документах глубокого обучения в последние несколько лет. Илья Суцкевер, руководитель исследовательского отдела Open AI, с энтузиазмом похвалил их: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Эудженио Кулурчелло из Университета Пердью заявил, что от RNN и LSTM следует отказаться в пользу нейронных сетей, основанных исключительно на внимании: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Это кажется преувеличением, но …

3
Понимание параметра input_shape в LSTM с помощью Keras
Я пытаюсь использовать пример, описанный в документации Keras, под названием «Stacked LSTM для классификации последовательностей» (см. Код ниже) и не могу определить input_shapeпараметр в контексте моих данных. В качестве входных данных у меня есть матрица последовательностей из 25 возможных символов, закодированных в целых числах в дополненную последовательность максимальной длины 31. …
20 lstm  keras  shape  dimensions 

4
Разница между обратной связью RNN и LSTM / GRU
Я пытаюсь понять различные архитектуры рекуррентных нейронных сетей (RNN), которые должны применяться к данным временных рядов, и меня немного путают с разными именами, которые часто используются при описании RNN. Является ли структура долгосрочной кратковременной памяти (LSTM) и Gated Recurrent Unit (GRU) по сути RNN с контуром обратной связи?

2
Какие методы оптимизации лучше всего подходят для LSTM?
Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему? Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM? Если это так, …

3
Почему вес сетей RNN / LSTM распределен по времени?
Недавно я заинтересовался LSTM и с удивлением узнал, что веса распределяются по времени. Я знаю, что если вы разделяете веса по времени, то ваши входные временные последовательности могут иметь переменную длину. С общими весами у вас гораздо меньше параметров для тренировки. Насколько я понимаю, причина, по которой можно обратиться к …

3
Использование RNN (LSTM) для прогнозирования векторов временных рядов (Theano)
У меня очень простая проблема, но я не могу найти правильный инструмент для ее решения. У меня есть некоторая последовательность векторов одинаковой длины. Теперь я хотел бы обучить LSTM RNN на выборке из этих последовательностей, а затем сделать это для предсказания новой последовательности векторов длины на основе нескольких векторов праймирования …

3
Разница между образцами, временными шагами и особенностями в нейронной сети
Я просматриваю следующий блог по нейронной сети LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Автор изменяет входной вектор X как [выборки, временные шаги, особенности] для различной конфигурации LSTM. Автор пишет Действительно, последовательности букв являются временными шагами одного признака, а не одним временным шагом отдельных признаков. Мы дали больше контекста для сети, но не больше последовательности, …

1
Какова допустимая длина последовательности для RNN для моделирования?
Я изучаю использование LSTM ( долговременной кратковременной памяти ) версии рекуррентной нейронной сети (RNN) для моделирования данных временных рядов. По мере увеличения длины последовательности данных сложность сети возрастает. Поэтому мне любопытно, какую длину последовательностей можно было бы моделировать с хорошей точностью? Я хотел бы использовать относительно простую версию LSTM без …

1
RNN: Когда применять BPTT и / или обновлять веса?
Я пытаюсь понять применение RNN высокого уровня для маркировки последовательностей с помощью (среди прочего) статьи Грейвса 2005 года о классификации фонем. Чтобы подвести итог проблемы: у нас есть большой обучающий набор, состоящий из (входных) аудиофайлов отдельных предложений и (выходных) отмеченных экспертом времени начала, времени окончания и меток для отдельных фонем …
15 lstm  rnn 

1
Предотвращение перенастройки LSTM на небольшой набор данных
Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность проверки начинает снижаться, когда точность обучения начинает расти - явный …

1
Как тренировать LSTM слой глубокой сети
Я использую lstm и сеть прямой связи для классификации текста. Я преобразую текст в горячие векторы и подаю каждый в lstm, чтобы суммировать его как единое представление. Затем я передаю его в другую сеть. Но как мне тренировать LSTM? Я просто хочу последовательно классифицировать текст - я должен кормить его …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.