Я пытаюсь удалить стоп-слова перед выполнением моделирования темы. Я заметил, что некоторые слова отрицания (ни, ни, никогда, ни и т.д. ...) обычно считаются стоп-словами. Например, NLTK, spacy и sklearn включают «not» в свои списки стоп-слов. Однако, если мы уберем «не» из этих предложений ниже, они потеряют значимое значение, и это не будет точным для моделирования темы или анализа настроений.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Может ли кто-нибудь объяснить, почему эти слова отрицания обычно считаются стоп-словами?