Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения.
Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или предложения больше всего похожи на одно конкретное предложение, помеченное как« Sent_123 ».
Можно ли повторять ярлыки в зависимости от содержимого? Например, если каждое предложение / параграф / документ относится к определенному элементу продукта (и для данного элемента продукта есть несколько предложений / параграф / документ), вы можете пометить предложения на основе элемента и затем вычислить сходство между словом или предложение и этот ярлык (который, я думаю, был бы средним из всех тех предложений, которые были связаны с товаром)?