Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

2
Определение крупнейшего участника в группе
Я не знаю много о статистике, так что терпите меня. Допустим, у меня есть набор из 1000 рабочих. Я хочу выяснить, кто самый трудный работник, но я могу измерить только объем работы, выполняемой группами по 1-100 человек за час работы. Предполагая, что каждый работник всегда выполняет примерно одинаковый объем работы, …

2
Использование параметра Gamma с машинами опорных векторов
При использовании libsvmпараметр является параметром для функции ядра. Его значение по умолчанию установлено какγγ\gammaγ= 1количество функций.γзнак равно1количество функций.\gamma = \frac{1}{\text{number of features.}} Существуют ли теоретические рекомендации по настройке этого параметра помимо существующих методов, например, поиск по сетке?

2
Понимание и применение анализа настроений
Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа? Есть ли какие-либо устоявшиеся результаты? Существуют ли какие-либо программы с открытым исходным кодом, …

2
Удалить дубликаты из тренировочного набора для классификации
Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе данных, …

5
Что я могу сделать, кроме корреляции Пирсона?
Проверяя, были ли две переменные коррелированными, я заметил, что применение корреляции Пирсона позволило получить числа, равные 0,1, что указывает на отсутствие корреляции. Что я могу сделать, чтобы усилить это утверждение? Набор данных (подмножество из-за ограничений публикации), на который я смотрю, таков: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 …

3
Априорный алгоритм на простом английском?
Я прочитал вики статью об Априори. У меня проблемы с пониманием чернослива и шага соединения. Может кто-нибудь объяснить мне, как алгоритм Apriori работает в простых терминах (таких, что новичок, как я, может легко понять)? Будет хорошо, если кто-то объяснит пошаговый процесс, связанный с этим.

3
Как быстро выбрать важные переменные из очень большого набора данных?
У меня есть набор данных с около 2000 двоичных переменных / 200 000 строк, и я пытаюсь предсказать одну двоичную зависимую переменную. Моя главная цель на данном этапе - не получить точность прогноза, а скорее определить, какие из этих переменных являются важными предикторами. Я хотел бы уменьшить количество переменных в …

2
Начало работы с бикластером
Я проводил некоторые случайные интернет-исследования бикластеров. (Я читал статью в вики несколько раз.) Пока что кажется, что существует несколько определений или стандартной терминологии. Мне было интересно, есть ли какие-нибудь стандартные документы или книги, которые должен прочитать любой, кто интересуется алгоритмами поиска бикластеров. Можно ли сказать, каков уровень техники в этой …

2
Рассчитать кривую ROC для данных
Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.