Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

1
Как использовать пень принятия решения как слабый ученик в Adaboost?
Я хочу реализовать Adaboost с помощью Decision Stump. Правильно ли принимать столько решений, сколько функций нашего набора данных в каждой итерации Adaboost? Например, если у меня есть набор данных с 24 функциями, должен ли я иметь 24 классификатора решения для каждой итерации? Или я должен случайно выбрать некоторые функции и …

2
Является ли f-мера синонимом точности?
Я понимаю, что f-мера (основанная на точности и отзыве) - это оценка точности классификатора. Кроме того, f-мера предпочтительнее точности, когда у нас есть несбалансированный набор данных. У меня есть простой вопрос (который больше об использовании правильной терминологии, чем о технологии). У меня несбалансированный набор данных, и я использую f-меру в …

5
Почему следует избегать биннинга любой ценой?
Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка . Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что сплайны должны быть предпочтительными. Тем не менее, в …

3
Когда вы будете использовать PCA, а не LDA в классификации?
Я читаю эту статью о разнице между Принципиальным компонентным анализом и множественным дискриминантным анализом (линейный дискриминантный анализ) и пытаюсь понять, почему вы когда-либо использовали PCA вместо MDA / LDA. Объяснение сводится к следующему: Грубо говоря, в PCA мы пытаемся найти оси с максимальными отклонениями, где данные наиболее распространены (в пределах …

1
Обычно нейронным сетям требуется время, чтобы «включиться» во время тренировки?
Я пытаюсь обучить глубокую нейронную сеть для классификации, используя обратное распространение. В частности, я использую сверточную нейронную сеть для классификации изображений, используя библиотеку Tensor Flow. Во время тренировок я испытываю какое-то странное поведение, и мне просто интересно, типично ли это, или я что-то делаю не так. Итак, моя сверточная нейронная …

3
Примеры использования RBF SVM (против логистической регрессии и случайного леса)
Машины опорных векторов с ядром радиально-базовой функции - это универсальный контролируемый классификатор. Хотя я знаю теоретические основы этих SVM и их сильные стороны, я не знаю случаев, когда они являются предпочтительным методом. Итак, существует ли класс проблем, для которых SVM RBF превосходят другие методы ML? (Либо с точки зрения оценки, …

4
Переоснащение с помощью линейных классификаторов
Сегодня наш профессор заявил в классе, что «переоснащение линейными классификаторами невозможно». Я считаю, что это неправильно, поскольку даже линейные классификаторы могут быть чувствительны к выбросам в обучающем наборе - возьмем, например, машину векторов поддержки с жестким полем: один единственный шумный объект данных может изменить, какая гиперплоскость будет использоваться для разделения …

2
Применение PCA для проверки данных в целях классификации
Недавно я узнал о замечательном PCA, и я сделал пример, изложенный в документации scikit-learn . Мне интересно знать, как я могу применить PCA к новым точкам данных для целей классификации. После визуализации PCA в двухмерной плоскости (ось x, y) я вижу, что, вероятно, могу нарисовать линию, чтобы отделить точки данных, …

1
ROC-кривые для несбалансированных наборов данных
Рассмотрим входную матрицу и двоичный выход .XXXyyy Распространенным способом измерения производительности классификатора является использование кривых ROC. На графике ROC диагональ - это результат, который можно получить из случайного классификатора. В случае несбалансированного выходного сигнала производительность случайного классификатора можно улучшить, выбрав или с различными вероятностями.yyy000111 Как можно представить производительность такого классификатора …

2
Как изменить порог для классификации в R randomForests?
Вся литература по моделированию распределения видов предполагает, что при прогнозировании присутствия / отсутствия вида с использованием модели, которая выводит вероятности (например, RandomForests), важен выбор пороговой вероятности, с помощью которой можно фактически классифицировать вид как присутствие или отсутствие, и следует не всегда полагаться на значение по умолчанию 0,5. Мне нужна помощь …

3
Как визуализировать байесовскую доброту, пригодную для логистической регрессии
Для задачи байесовской логистической регрессии я создал апостериорное предиктивное распределение. Я выбираю из прогнозирующего распределения и получаю тысячи выборок (0,1) для каждого наблюдения, которое у меня есть. Визуализация пригодности менее интересна, например: На этом графике показаны 10 000 образцов + наблюдаемая исходная точка (слева можно разглядеть красную линию: да, это …

1
Почему Anova () и drop1 () предоставили разные ответы для GLMM?
У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
Откуда появился термин «выучить модель»
Часто я слышал, что майнеры данных используют этот термин. Как статистик, который работал над проблемами классификации, я знаком с термином «обучить классификатора», и я предполагаю, что «выучить модель» означает то же самое. Я не против термина «обучить классификатора». Кажется, это изображает идею подгонки модели, поскольку данные обучения используются для получения …

1
О копенетической корреляции для кластеризации дендрограмм
Рассмотрим контекст кластеризации дендрограмм. Давайте назовем оригинальные различия расстояниями между людьми. После построения дендрограммы мы определяем копенетическое различие между двумя индивидами как расстояние между кластерами, к которым эти индивиды принадлежат. Некоторые люди считают, что корреляция между исходными различиями и копенетическими различиями (так называемая копенетическая корреляция ) является «индексом пригодности» классификации. …

3
Как сравнить точность двух разных моделей, используя статистическую значимость
Я работаю над прогнозированием временных рядов. У меня есть два набора данных: и . У меня есть три модели прогнозирования: M1, M2, M3 . Все эти модели обучаются с использованием выборок в наборе данных D1 , и их производительность измеряется с использованием выборок в наборе данных D2 . Допустим, показатели …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.