Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

2
Какой диапазон поиска для определения оптимальных параметров С и гамма SVM?
Я использую SVM для классификации и пытаюсь определить оптимальные параметры для линейных и RBF-ядер. Для линейного ядра я использую перекрестный проверенный выбор параметров, чтобы определить C, а для ядра RBF я использую поиск по сетке, чтобы определить C и гамму. У меня есть 20 (числовых) функций и 70 учебных примеров, …

3
Как Наивный Байес является линейным классификатором?
Я видел другую ветку здесь, но я не думаю, что ответ удовлетворил фактический вопрос. Я постоянно читал, что Наивный Байес - это линейный классификатор (например, здесь ) (такой, что он рисует линейную границу решения), использующий демонстрацию логических шансов. Однако я смоделировал два гауссовых облака и установил границу решения и получил …

2
Относительная важность набора предикторов в классификации случайных лесов в R
Я хотел бы определить относительную важность наборов переменных для randomForestмодели классификации в R. importanceФункция предоставляет MeanDecreaseGiniметрику для каждого отдельного предиктора - это так же просто, как суммировать это для каждого предиктора в наборе? Например: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., …

3
В чем причина проблемы дисбаланса классов?
В последнее время я много размышлял о «проблеме дисбаланса классов» в машинном / статистическом обучении и все глубже погружаюсь в ощущение, что я просто не понимаю, что происходит. Сначала позвольте мне определить (или попытаться) определить мои термины: Проблема дисбаланса классов в машинном / статистическом обучении заключается в том, что некоторые …

3
Как определить качество мультиклассового классификатора
Данный набор данных с экземплярами xiИксяx_i вместе с NNN классами, где каждый экземпляр xiИксяx_i принадлежит ровно одному классу yiYяy_i мультиклассовый классификатор После обучения и тестирования у меня в основном есть таблица с истинным классом yiyiy_i и прогнозируемым классом aiaia_i для каждого экземпляра xixix_i в наборе тестов. Так что для каждого …

7
Каковы отрасли статистики?
В математике есть такие отрасли, как алгебра, анализ, топология и т. Д. В машинном обучении есть обучение под присмотром, без присмотра и подкрепление. В каждой из этих ветвей есть более тонкие ветви, которые еще больше разделяют методы. У меня проблемы с проведением параллели со статистикой. Какими будут основные отрасли статистики …

4
Когда я должен сбалансировать классы в наборе данных обучения?
У меня был онлайн-курс, где я узнал, что несбалансированные классы в данных обучения могут привести к проблемам, потому что алгоритмы классификации идут по правилу большинства, поскольку это дает хорошие результаты, если дисбаланс слишком велик. При выполнении задания необходимо было сбалансировать данные с помощью заниженной выборки для большинства классов. Однако в …

4
Площадь под кривой ROC против общей точности
Я немного сбиваю с толку насчет площади под кривой (AUC) ROC и общей точности. Будет ли AUC пропорционален общей точности? Другими словами, когда мы получим большую общую точность, мы определенно увеличим AUC? Или они по определению положительно коррелируют? Если они положительно коррелируют, зачем нам сообщать о них обоих в некоторых …

2
Разница между наивным байесовским и многочленным наивным байесовским
Я имел дело с наивным байесовским классификатором раньше. В последнее время я читаю о многокомном наивном байесовском . Также Задняя Вероятность = (Приоритет * Вероятность) / (Доказательства) . Единственное главное отличие (при программировании этих классификаторов), которое я обнаружил между наивным байесовским и многочленным наивным байесовским, состоит в том, что Наивный …

6
Процедура выбора переменной для двоичной классификации
Какие переменные / характеристики вы предпочитаете для бинарной классификации, когда в наборе обучения гораздо больше переменных / функций, чем наблюдений? Цель здесь состоит в том, чтобы обсудить, какова процедура выбора признаков, которая наилучшим образом уменьшает ошибку классификации. Мы можем зафиксировать обозначения для согласованности: для пусть { x i 1 , …

2
Как статистически сравнить производительность классификаторов машинного обучения?
Основываясь на оценочной точности классификации, я хочу проверить, является ли один классификатор статистически лучше на базовом наборе, чем другой классификатор. Для каждого классификатора я выбираю образец обучения и тестирования случайным образом из базового набора, обучаю модель и тестирую модель. Я делаю это десять раз для каждого классификатора. Поэтому у меня …

3
Почему AUC выше для классификатора, который менее точен, чем для более точного классификатора?
У меня есть два классификатора A: наивная байесовская сеть B: древовидная (односвязная) байесовская сеть С точки зрения точности и других показателей, A работает сравнительно хуже, чем B. Однако, когда я использую пакеты R ROCR и AUC для выполнения анализа ROC, оказывается, что AUC для A выше, чем AUC для B. …

1
Вычисление повторяемости эффектов по модели Лмера
Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

7
В «Наивном байесовском», зачем беспокоиться о сглаживании Лапласа, когда в тестовом наборе есть неизвестные слова?
Я читал сегодня наивную байесовскую классификацию. Я прочитал под заголовком Оценка параметров с добавлением сглаживания 1 : Пусть ccc ссылается на класс (например, Positive или Negative), а указывает на токен или слово.www Оценка максимального правдоподобия для :P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts …

1
Могут ли степени свободы быть нецелым числом?
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.