Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

1
Пакет GBM против Карет с использованием GBM
Я занимался настройкой модели caret, но затем перезапустил модель, используя gbmпакет. Насколько я понимаю, caretпакет использует gbmи вывод должен быть одинаковым. Тем не менее, только быстрый запуск теста data(iris)показывает несоответствие в модели около 5% с использованием RMSE и R ^ 2 в качестве метрики оценки. Я хочу найти оптимальную производительность …

3
Ограниченные машины Больцмана для регрессии?
Я слежу за вопросом, который я задавал ранее по УКР . Я вижу много литературы, описывающей их, но ни одной, которая фактически говорит о регрессии (даже не классификация с помеченными данными). У меня такое ощущение, что он используется только для немаркированных данных. Есть ли ресурсы для обработки регрессии? Или это …

2
Когда подходит логистическая регрессия?
В настоящее время я учу себя, как делать классификацию, и, в частности, я смотрю на три метода: опорные векторные машины, нейронные сети и логистическая регрессия. Я пытаюсь понять, почему логистическая регрессия будет лучше, чем две другие. Исходя из моего понимания логистической регрессии, идея состоит в том, чтобы подогнать логистическую функцию …

2
Почему n-грамм используется в идентификации текста вместо слов?
В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки пакета слов и n-грамм? Кроме того, каковы …

2
Как рассчитать вес критерия Фишера?
Я изучаю распознавание образов и машинное обучение, и я столкнулся со следующим вопросом. Рассмотрим задачу классификации двух классов с равной вероятностью предшествующего класса P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} и распределение экземпляров в каждом классе, заданное p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Как я могу обучить HMM для классификации?
Итак, я понимаю, что когда вы готовите HMM для классификации, стандартный подход: Разделите ваши наборы данных на наборы данных для каждого класса Тренируйте один HMM в классе На тестовом наборе сравните вероятность каждой модели для классификации каждого окна Но как мне тренировать HMM в каждом классе? Должен ли я просто …

3
Наивные байесовские характеристики вероятности: я должен дважды считать слова?
Я создаю прототип своей собственной модели Naive Bayes bag o 'words, и у меня возник вопрос о вычислении вероятностей характеристик. Допустим, у меня есть два класса, я просто буду использовать спам, а не спам, поскольку это то, что все используют. И давайте возьмем слово «виагра» в качестве примера. В моем …

2
Почему увеличение количества функций снижает производительность?
Я пытаюсь понять, почему увеличение количества функций может снизить производительность. В настоящее время я использую классификатор LDA, который работает лучше в двух вариантах среди определенных функций, но хуже, когда смотрю на другие функции. Моя точность классификации выполняется с использованием стратифицированного 10-кратного xval. Существует ли простой случай, когда классификатор будет работать …

1
Взаимосвязь между количеством векторов поддержки и количеством функций
Я запустил SVM для данного набора данных и сделал следующее наблюдение: если я изменю количество функций для построения классификатора, число результирующих векторов поддержки также будет изменено. Я хотел бы знать, как объяснить такой сценарий.

2
Спс и случайные леса
Для недавнего соревнования Kaggle я (вручную) определил 10 дополнительных функций для своего тренировочного набора, которые затем будут использоваться для обучения классификатора случайных лесов. Я решил запустить PCA в наборе данных с новыми функциями, чтобы увидеть, как они сравниваются друг с другом. Я обнаружил, что ~ 98% дисперсии несет первый компонент …

2
Линейный дискриминантный анализ и правило Байеса: классификация
Какова связь между линейным дискриминантным анализом и правилом Байеса? Я понимаю, что LDA используется в классификации, пытаясь минимизировать соотношение внутри групповой дисперсии и между групповой дисперсией, но я не знаю, как в ней используется правило Байеса.

1
Влияет ли разреженный тренировочный комплекс на SVM?
Я пытаюсь классифицировать сообщения по различным категориям, используя SVM. Я составил список желаемых слов / символов из учебного набора. Для каждого вектора, который представляет сообщение, я устанавливаю соответствующую строку, 1если слово присутствует: "корпус" это: [Мария, маленькая, ягненок, звезда, мерцание] первое сообщение: "у марии был маленький ягненок" -> [1 1 1 …

2
Применение машинного обучения для фильтрации DDoS
В курсе машинного обучения Стэнфорда Эндрю Нг упомянул применение ML в IT. Некоторое время спустя, когда я получил DDoS умеренного размера (около 20 тыс. Ботов) на нашем сайте, я решил бороться с ним, используя простой классификатор Neural Network. Я написал этот скрипт на python примерно за 30 минут: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Он …

2
Прогнозирование нескольких целей или классов?
Предположим, я строю прогностическую модель, в которой я пытаюсь предсказать несколько событий (например, бросок кубика и бросок монеты). Большинство известных мне алгоритмов работают только с одной целью, поэтому мне интересно, существует ли стандартный подход к такого рода вещам. Я вижу два возможных варианта. Возможно, самым наивным подходом было бы просто …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.