Вопросы с тегом «natural-language»

Обработка естественного языка - это набор методов из лингвистики, искусственного интеллекта, машинного обучения и статистики, которые направлены на обработку и понимание человеческих языков.

2
Недоумение и кросс-энтропия для моделей с n-граммами
Попытка понять связь между перекрестной энтропией и недоумением. В общем случае для модели M , Недоумение (М) = 2 ^ энтропии (M) . Действуют ли эти отношения для всех разных n-грамм, то есть униграмм, биграмм и т. Д.

1
Точна ли эта интерпретация редкости?
Согласно документации removeSparseTermsфункции из tmпакета, это то, что влечет за собой редкость: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse …

1
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими
Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с softmaxфункцией на последнем слое. Таким образом, я могу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Зачем добавлять один в частоте обратного документа?
Мой учебник перечисляет idf как гдел о г( 1 + NNT)log(1+Nnt)log(1+\frac{N}{n_t}) : количество документовNNN : количество документов, содержащих термин tNTntn_tttt Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется отлог(Нlog(Nnt)log(Nnt)log(\frac{N}{n_t})до∞,что кажется интуитивным. Нолог(1+Nlog(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftyпереходит отlog(1+1)к∞,что кажется странным ... Я немного знаю о сглаживании из …

1
Понимание разложения по сингулярным значениям в контексте LSI
Мой вопрос, как правило, касается разложения по сингулярным значениям (SVD) и, в частности, латентного семантического индексирования (LSI). Скажем, у меня есть который содержит частоты 5 слов для 7 документов.Aш о г д× до с у м е н тAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, …

1
Использование инструментов анализа текста / естественного языка для эконометрики
Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки приемлемости. Эти отчеты могут быть связаны с индивидуальной …

1
Коэффициент логарифмического правдоподобия при суммировании документов
Первоначально я спросил это о переполнении стека и был передан на этот сайт, так что здесь идет: Я внедряю некоторые неконтролируемые методы обобщения документов на основе выбора контента / извлечения, и меня смущает то, что в моем учебнике называется «логарифмическое отношение правдоподобия». Книга « Обработка речи и языка» Jurafsky & …

1
Разница между наивными байесовскими и рекуррентными нейронными сетями (LSTM)
Я хочу провести анализ настроений над текстом, прочитал несколько статей, некоторые из них используют «Наивный байесовский», а другие - «Рекуррентную нейронную сеть (LSTM)» , с другой стороны, я видел библиотеку python для анализа настроений, которая это нлтк. Он использует "Наивный байесовский", может кто-нибудь объяснить, в чем разница между этими двумя? …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.