Для задачи обработки естественного языка (NLP) часто используют векторы word2vec в качестве вложения для слов. Тем не менее, может быть много неизвестных слов, которые не перехвачены векторами word2vec просто потому, что эти слова не видны достаточно часто в обучающих данных (многие реализации используют минимальное количество перед добавлением слова в словарь). Это может особенно иметь место с текстом, например, из Twitter, где слова часто пишутся с ошибками.
Как следует обрабатывать такие неизвестные слова при моделировании задачи NLP, такой как прогнозирование настроений, с использованием долгосрочной сети (LSTM)? Я вижу два варианта:
- Добавление токена «неизвестное слово» в словарь word2vec.
- Удаление этих неизвестных слов так, что LSTM даже не знает, что слово было в предложении.
Каков предпочтительный способ обработки этих слов?