Я ищу несколько советов о том, как составить список стоп-слов. Кто-то знает / кто-то может порекомендовать хороший метод для извлечения списков стоп-слов из самого набора данных для предварительной обработки и фильтрации?
Данные:
огромное количество вводимого человеком текста различной длины (поисковые термины и целые предложения (до 200 символов)) в течение нескольких лет. Текст содержит много спама (например, машинный ввод от ботов, отдельные слова, глупые поиски, поиски продуктов ...), и только несколько% из них могут быть полезны. Я понял, что иногда (очень очень редко) люди ищут мою сторону, задавая действительно крутые вопросы. Эти вопросы настолько крутые, что я думаю, что стоит глубже изучить их, чтобы увидеть, как люди со временем ищут и какие темы люди интересовали, используя мой веб-сайт.
Моя проблема:
в том, что я действительно борюсь с предварительной обработкой (то есть отбрасываю спам). Я уже попробовал какой-то список стоп-слов из Интернета (NLTK и т. Д.), Но это не очень помогает моим потребностям в отношении этого набора данных.
Спасибо за ваши идеи и обсуждение людей!
stop words
. Стоп-wrods список наиболее распространенных слов в каком - либо языке, например I
, the
, a
и так далее. Вы просто удалите эти слова из вашего текста перед тем, как начать тренировать свой алгоритм, который попытается определить, какой текст является спамом или нет. Это не помогло вам определить, какой текст является спамом или нет, оно может улучшить ваш алгоритм обучения.