Вопросы с тегом «text-mining»

Относится к подмножеству интеллектуального анализа данных, связанному с извлечением информации из данных в форме текста путем распознавания шаблонов. Цель интеллектуального анализа текста часто состоит в том, чтобы автоматически классифицировать данный документ в одну из нескольких категорий и динамически улучшать эту производительность, что делает его примером машинного обучения. Одним из примеров такого типа интеллектуального анализа текста являются спам-фильтры, используемые для электронной почты.

2
Почему n-грамм используется в идентификации текста вместо слов?
В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки пакета слов и n-грамм? Кроме того, каковы …

7
Что такое пакеты интеллектуального анализа текста для R и существуют ли другие программы для анализа текста с открытым исходным кодом?
Можете ли вы порекомендовать пакет интеллектуального анализа текста в R, который можно использовать для больших объемов данных? Во-вторых, есть ли графический интерфейс для любого из пакетов интеллектуального анализа текста в R? В-третьих, есть ли другая программа для анализа текста с открытым исходным кодом, которая проста и интуитивно понятна в использовании?
12 r  text-mining 


5
Хорошие книги по добыче текста?
Привет, я хотел узнать, есть ли хорошие книги по интеллектуальному анализу и классификации текста с некоторыми примерами? Если бы не некоторые документы / журналы, доступные для общественности, подойдут. Если они иллюстрируют свои примеры с R еще лучше. Я не ищу пошаговое руководство, но что-то, что иллюстрирует плюсы и минусы различных …

1
Инкрементальный IDF (обратная частота документов)
В приложении для интеллектуального анализа текста одним простым подходом является использование эвристики для создания векторов в виде компактных разреженных представлений документов. Это хорошо для настройки пакета, когда весь корпус известен априори, так как для требуется весь корпусi d fт ф- я деtf−idftf-idfя деidfidf я д е( т ) = журнал| …

1
Понимание использования логарифмов в логарифме TF-IDF
Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще. С этой точки зрения …

3
Относительно использования биграммы (N-грамма) для построения векторного элемента для текстового документа
Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или (N-грамм) для построения векторного элемента, но не совсем знаю, как это …

1
Точна ли эта интерпретация редкости?
Согласно документации removeSparseTermsфункции из tmпакета, это то, что влечет за собой редкость: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse …

1
Зачем добавлять один в частоте обратного документа?
Мой учебник перечисляет idf как гдел о г( 1 + NNT)log(1+Nnt)log(1+\frac{N}{n_t}) : количество документовNNN : количество документов, содержащих термин tNTntn_tttt Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется отлог(Нlog(Nnt)log(Nnt)log(\frac{N}{n_t})до∞,что кажется интуитивным. Нолог(1+Nlog(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftyпереходит отlog(1+1)к∞,что кажется странным ... Я немного знаю о сглаживании из …


1
Использование инструментов анализа текста / естественного языка для эконометрики
Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки приемлемости. Эти отчеты могут быть связаны с индивидуальной …

1
Как сравнить наблюдаемые и ожидаемые события?
Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Понимание и применение анализа настроений
Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа? Есть ли какие-либо устоявшиеся результаты? Существуют ли какие-либо программы с открытым исходным кодом, …

4
Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?
Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли количество …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.