Вопросы с тегом «information-retrieval»

6
Статистическая классификация текста
Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом работы. Какие ресурсы вы рекомендуете? Я достаточно …

2
Измерение сходства документов
Для кластеризации (текстовых) документов вам нужен способ измерения сходства между парами документов. Две альтернативы: Сравните документы как векторы терминов, используя косинусное сходство - и TF / IDF в качестве весовых коэффициентов для терминов. Сравните распределение вероятностей каждого документа, используя f-расхождение, например, расхождение Кульбака-Лейблера Есть ли какая-либо интуитивная причина предпочесть один …

4
Как спроецировать новый вектор на пространство PCA?
После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли главные компоненты в этой матрице …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
Средняя средняя точность против среднего взаимного ранга
Я пытаюсь понять, когда уместно использовать MAP и когда следует использовать MRR. Я нашел эту презентацию, в которой говорится, что MRR лучше всего использовать, когда число релевантных результатов меньше 5, а лучше всего, когда оно равно 1. В других случаях MAP подходит. У меня есть два вопроса: Я не очень …

1
Парелл между LSA и pLSA
В оригинальной статье pLSA автор Томас Хоффман проводит параллель между структурами данных pLSA и LSA, которые я хотел бы обсудить с вами. Фон: Вдохновляясь Информация индексирование Предположим , у нас есть коллекция из NNN документов D={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbrace , и словарный запас MMM точки Ω={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega …

1
Как сравнить наблюдаемые и ожидаемые события?
Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Понимание и применение анализа настроений
Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа? Есть ли какие-либо устоявшиеся результаты? Существуют ли какие-либо программы с открытым исходным кодом, …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.