Вопросы с тегом «text-mining»

Относится к подмножеству интеллектуального анализа данных, связанному с извлечением информации из данных в форме текста путем распознавания шаблонов. Цель интеллектуального анализа текста часто состоит в том, чтобы автоматически классифицировать данный документ в одну из нескольких категорий и динамически улучшать эту производительность, что делает его примером машинного обучения. Одним из примеров такого типа интеллектуального анализа текста являются спам-фильтры, используемые для электронной почты.

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Как работает слой «Встраивание» Keras?
Необходимо понимать работу слоя «Встраивание» в библиотеке Keras. Я выполняю следующий код в Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) который дает следующий вывод input_array = [[4 1 …

6
Как квази сопоставить два вектора строк (в R)?
Я не уверен, как это следует называть, поэтому, пожалуйста, поправьте меня, если вы знаете лучший термин. У меня есть два списка. Один из 55 элементов (например, вектор строк), другой из 92. Имена элементов похожи, но не идентичны. Я хочу , чтобы найти лучший кандидат S в 92 списке элементов в …
36 r  text-mining 

6
Статистическая классификация текста
Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом работы. Какие ресурсы вы рекомендуете? Я достаточно …

4
Техника машинного обучения для разбора строк?
У меня много адресных строк: 1600 Pennsylvania Ave, Washington, DC 20500 USA Я хочу разобрать их на составляющие: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Но, конечно, данные грязные: они поступают из многих стран на многих языках, написаны по-разному, содержат орфографические ошибки, пропуски, лишний мусор …

3
Насколько хорошо R масштабируется для текстовых задач классификации? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я пытаюсь ускорить работу с R. Я в конечном итоге хочу использовать библиотеки R для классификации текста. Мне было просто …

2
Разница между наивным байесовским и многочленным наивным байесовским
Я имел дело с наивным байесовским классификатором раньше. В последнее время я читаю о многокомном наивном байесовском . Также Задняя Вероятность = (Приоритет * Вероятность) / (Доказательства) . Единственное главное отличие (при программировании этих классификаторов), которое я обнаружил между наивным байесовским и многочленным наивным байесовским, состоит в том, что Наивный …

4
Пакеты R для выполнения тематического моделирования / LDA: просто `topicmodels` и` lda` [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Мне кажется, что только два пакета R способны выполнять скрытое выделение Дирихле : Один из них lda, автор Джонатан Чанг; …

7
В «Наивном байесовском», зачем беспокоиться о сглаживании Лапласа, когда в тестовом наборе есть неизвестные слова?
Я читал сегодня наивную байесовскую классификацию. Я прочитал под заголовком Оценка параметров с добавлением сглаживания 1 : Пусть ccc ссылается на класс (например, Positive или Negative), а указывает на токен или слово.www Оценка максимального правдоподобия для :P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts …

1
Является ли перекрестная проверка правильной заменой проверочного набора?
В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца. Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке классификаторов и функций. Это означает, …

3
Тематические модели и методы совместного использования слов
Популярные тематические модели, такие как LDA, обычно объединяют слова, которые обычно объединяются в одну и ту же тему (кластер). В чем основное различие между такими тематическими моделями и другими простыми подходами кластеризации на основе совпадений, такими как PMI? (PMI расшифровывается как Pointwise Mutual Information и используется для идентификации слов, которые …

2
Мешок слов для классификации текста: почему бы просто не использовать частоты слов вместо TFIDF?
Распространенным подходом к классификации текста является тренировка классификатора из «мешка слов». Пользователь берет текст, который должен быть классифицирован, и подсчитывает частоты слов в каждом объекте, после чего следует какое-то усечение, чтобы сохранить результирующую матрицу контролируемого размера. Часто я вижу, как пользователи строят свой вектор признаков, используя TFIDF. Другими словами, частоты …

1
Были ли воспроизведены современные результаты использования векторов абзацев для анализа настроений?
Я был впечатлен результатами в работе ICML 2014 года « Распределенное представление предложений и документов » Ле и Миколова. Техника, которую они описывают, называемая «векторами абзацев», изучает неконтролируемые представления произвольно длинных абзацев / документов на основе расширения модели word2vec. В статье сообщается о современных достижениях в анализе настроений с использованием …

3
Обучение под наблюдением, активное обучение и глубокое обучение для классификации
Окончательное редактирование со всеми обновленными ресурсами: Для проекта я применяю алгоритмы машинного обучения для классификации. Задача: довольно ограниченные помеченные данные и гораздо больше непомеченных данных. Цели: Применить классификацию под наблюдением Применять как-то полу-контролируемый процесс маркировки (известный как активное обучение) Я нашел много информации из исследовательских работ, таких как применение EM, …

2
Почему обработка естественного языка не входит в область машинного обучения? [закрыто]
В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и, возможно, вновь открыть, обратитесь за …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.