Вопросы с тегом «text-mining»

Относится к подмножеству интеллектуального анализа данных, связанному с извлечением информации из данных в форме текста путем распознавания шаблонов. Цель интеллектуального анализа текста часто состоит в том, чтобы автоматически классифицировать данный документ в одну из нескольких категорий и динамически улучшать эту производительность, что делает его примером машинного обучения. Одним из примеров такого типа интеллектуального анализа текста являются спам-фильтры, используемые для электронной почты.

1
Как определить сложность английского предложения?
Я работаю над приложением, чтобы помочь людям выучить английский как второй язык. Я подтвердил, что предложения помогают в изучении языка, предоставляя дополнительный контекст. Я сделал это, проведя небольшое исследование в классе из 60 учеников. Я добыл более ста тысяч предложений из Википедии для различных английских слов (включая 800 слов Барронса …

1
Сколько учебных данных нужно word2vec?
Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия». Краткий план был Возьмите книги с упоминанием термина «демократия» как простой текст В каждой книге заменить democracyнаdemocracy_%AuthorName% Тренируй word2vecмодель по этим книгам …

2
какие методы машинного / глубокого обучения / nlp используются для классификации данных слов как имени, номера мобильного телефона, адреса, адреса электронной почты, штата, округа, города и т. д.
Я пытаюсь создать интеллектуальную модель, которая может сканировать набор слов или строк и классифицировать их как имена, мобильные номера, адреса, города, штаты, страны и другие объекты, используя машинное обучение или глубокое обучение. Я искал подходы, но, к сожалению, не нашел подходов. Я пытался с моделью слова мешок и вложения слова …

4
Предложить наборы учебных текстовых классификаторов
Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее определенного набора слов, мы можем порекомендовать ему интересный контент, получив его отзыв о случайном …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.