Поскольку вы используете gensim, вам, вероятно, следует использовать его реализацию doc2vec. doc2vec - это расширение word2vec на уровне фраз, предложений и документов. Это довольно простое расширение, описанное здесь
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim хорош тем, что он интуитивно понятен, быстр и гибок. Что здорово, так это то, что вы можете получить предварительно обученные вложения слов с официальной страницы word2vec, а слой syn0 модели Gensim Doc2Vec открыт, так что вы можете засеять вложения слов этими высококачественными векторами!
GoogleNews-vectors-negative300.bin.gz (как указано в Google Code )
Я думаю, что gensim - определенно самый простой (и пока что для меня лучший) инструмент для встраивания предложения в векторное пространство.
Существуют и другие методы преобразования предложения в вектор, кроме предложенного в статье Ле и Миколова выше. Сохер и Мэннинг из Стэнфорда, несомненно, являются двумя из самых известных исследователей, работающих в этой области. Их работа была основана на принципе композиции - семантика предложения происходит от:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Они предложили несколько таких моделей (которые становятся все более сложными) того, как использовать композиционность для построения представлений на уровне предложений.
2011 - разворачивание рекурсивного автоэнкодера (относительно просто. Начните здесь, если интересно)
2012 - матрично-векторная нейронная сеть
2013 - нейронная тензорная сеть
2015 - Дерево LSTM
все его статьи доступны на socher.org. Некоторые из этих моделей доступны, но я все же рекомендую doc2vec от gensim. Во-первых, URAE 2011 года не особенно мощный. Кроме того, он поставляется с предварительно обученными весами, подходящими для перефразирования новостных данных. Предоставляемый им код не позволяет переобучать сеть. Вы также не можете поменять местами разные векторы слов, так что вы застряли на вложениях pre-word2vec 2011 года от Turian. Эти векторы, конечно же, не на уровне word2vec или GloVe.
Еще не работал с Tree LSTM, но он кажется очень многообещающим!
tl; dr Да, используйте doc2vec от gensim. Но есть и другие методы!