Статистика и большие данные text-mining

2

Почему n-грамм используется в идентификации текста вместо слов?

В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки пакета слов и n-грамм? Кроме того, каковы …

12 machine-learning classification text-mining natural-language

7

Что такое пакеты интеллектуального анализа текста для R и существуют ли другие программы для анализа текста с открытым исходным кодом?

Можете ли вы порекомендовать пакет интеллектуального анализа текста в R, который можно использовать для больших объемов данных? Во-вторых, есть ли графический интерфейс для любого из пакетов интеллектуального анализа текста в R? В-третьих, есть ли другая программа для анализа текста с открытым исходным кодом, которая проста и интуитивно понятна в использовании?

12 r text-mining

2

Мешок слов против модели векторного пространства?

В чем разница между этими моделями представления текста: мешок слов и модель векторного пространства?

12 machine-learning text-mining

5

Хорошие книги по добыче текста?

Привет, я хотел узнать, есть ли хорошие книги по интеллектуальному анализу и классификации текста с некоторыми примерами? Если бы не некоторые документы / журналы, доступные для общественности, подойдут. Если они иллюстрируют свои примеры с R еще лучше. Я не ищу пошаговое руководство, но что-то, что иллюстрирует плюсы и минусы различных …

11 references text-mining

1

Инкрементальный IDF (обратная частота документов)

В приложении для интеллектуального анализа текста одним простым подходом является использование эвристики для создания векторов в виде компактных разреженных представлений документов. Это хорошо для настройки пакета, когда весь корпус известен априори, так как для требуется весь корпусi d fт ф- я деtf−idftf-idfя деidfidf я д е( т ) = журнал| …

11 time-series text-mining

1

Понимание использования логарифмов в логарифме TF-IDF

Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще. С этой точки зрения …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Относительно использования биграммы (N-грамма) для построения векторного элемента для текстового документа

Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или (N-грамм) для построения векторного элемента, но не совсем знаю, как это …

10 machine-learning data-mining text-mining natural-language language-models

1

Точна ли эта интерпретация редкости?

Согласно документации removeSparseTermsфункции из tmпакета, это то, что влечет за собой редкость: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse …

10 r text-mining natural-language

1

Зачем добавлять один в частоте обратного документа?

Мой учебник перечисляет idf как гдел о г( 1 + NNT)log(1+Nnt)log(1+\frac{N}{n_t}) : количество документовNNN : количество документов, содержащих термин tNTntn_tttt Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется отлог(Нlog(Nnt)log(Nnt)log(\frac{N}{n_t})до∞,что кажется интуитивным. Нолог(1+Nlog(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftyпереходит отlog(1+1)к∞,что кажется странным ... Я немного знаю о сглаживании из …

9 text-mining natural-language smoothing

2

Что такое VectorSource и VCorpus в пакете 'tm' (Text Mining) в R

Я не совсем уверен, что именно VectorSource и VCorpus находятся в пакете 'tm'. Документация по ним неясна, кто-нибудь может заставить меня понять в простых терминах?

9 r text-mining

1

Использование инструментов анализа текста / естественного языка для эконометрики

Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки приемлемости. Эти отчеты могут быть связаны с индивидуальной …

9 machine-learning data-mining econometrics text-mining natural-language

1

Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Понимание и применение анализа настроений

Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа? Есть ли какие-либо устоявшиеся результаты? Существуют ли какие-либо программы с открытым исходным кодом, …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли количество …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

Вопросы с тегом «text-mining»