Я пытаюсь использовать пример, описанный в документации Keras, под названием «Stacked LSTM для классификации последовательностей» (см. Код ниже) и не могу определить input_shape
параметр в контексте моих данных.
В качестве входных данных у меня есть матрица последовательностей из 25 возможных символов, закодированных в целых числах в дополненную последовательность максимальной длины 31. В результате my x_train
имеет (1085420, 31)
значение формы (n_observations, sequence_length)
.
from keras.models import Sequential
from keras.layers import LSTM, Dense
import numpy as np
data_dim = 16
timesteps = 8
num_classes = 10
# expected input data shape: (batch_size, timesteps, data_dim)
model = Sequential()
model.add(LSTM(32, return_sequences=True,
input_shape=(timesteps, data_dim))) # returns a sequence of vectors of dimension 32
model.add(LSTM(32, return_sequences=True)) # returns a sequence of vectors of dimension 32
model.add(LSTM(32)) # return a single vector of dimension 32
model.add(Dense(10, activation='softmax'))
model.compile(loss='categorical_crossentropy',
optimizer='rmsprop',
metrics=['accuracy'])
# Generate dummy training data
x_train = np.random.random((1000, timesteps, data_dim))
y_train = np.random.random((1000, num_classes))
# Generate dummy validation data
x_val = np.random.random((100, timesteps, data_dim))
y_val = np.random.random((100, num_classes))
model.fit(x_train, y_train,
batch_size=64, epochs=5,
validation_data=(x_val, y_val))
В этом коде x_train
имеет форму (1000, 8, 16)
, как для массива из 1000 массивов из 8 массивов из 16 элементов. Там я полностью теряюсь в том, что есть что и как мои данные могут достичь этой формы.
Глядя на документацию Keras и различные учебные пособия, а также вопросы и ответы, мне кажется, что я упускаю что-то очевидное. Может ли кто-нибудь дать мне подсказку, что искать?
Спасибо за вашу помощь !