Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

2
Как понять сверточную сеть глубокого убеждения для классификации аудио?
В « Сверточных сетях глубокого убеждения для масштабируемого обучения без надзора иерархических представлений » Ли и соавт. др. ( PDF ) Предложены сверточные ДБН. Также метод оценивается для классификации изображений. Это звучит логично, поскольку существуют естественные локальные особенности изображения, такие как небольшие углы и края и т. Д. В статье …


1
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?
mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Техника машинного обучения для изучения струнных моделей
У меня есть список слов, принадлежащих к разным категориям. Каждая категория имеет свой собственный шаблон (например, одна имеет фиксированную длину со специальными символами, другая существует из символов, которые встречаются только в этой категории «слова», ...). Например: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 …

3
Классификатор с регулируемой точностью и отзывом
Я работаю над проблемой бинарной классификации, где гораздо важнее не иметь ложных срабатываний; довольно много ложных негативов в порядке. Например, я использовал несколько классификаторов в sklearn, но я думаю, что ни один из них не имеет возможности явно регулировать компромисс между точностью и отзывом (они дают довольно хорошие результаты, но …

2
Почему Adaboost с деревьями решений?
Я немного читал об улучшении алгоритмов для задач классификации и Adaboost в частности. Я понимаю, что цель Adaboost состоит в том, чтобы взять нескольких «слабых учеников» и, через набор итераций по обучающим данным, подтолкнуть классификаторы к тому, чтобы научиться предсказывать классы, в которых модели (ы) постоянно допускают ошибки. Однако мне …

3
Что такое хороший AUC для кривой точного возврата?
Поскольку у меня очень несбалансированный набор данных (9% положительных результатов), я решил, что кривая точного отзыва была более подходящей, чем кривая ROC. Я получил аналогичную сводную меру площади под кривой PR (.49, если вам интересно), но не уверен, как ее интерпретировать. Я слышал, что 0,8 или выше - это то, …

1
Плюсы дистанции Джеффриса Матуситы
Согласно какой-то статье, которую я читаю, расстояние Джеффриса и Матуситы обычно используется. Но я не мог найти много информации об этом, кроме формулы ниже JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Это похоже на евклидово расстояние, за исключением квадратного корня E (x, y) =∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} JM расстояние считается более надежным, чем евклидово расстояние с …

1
Как мы предсказываем редкие события?
Я работаю над разработкой модели прогнозирования страхового риска. Эти модели относятся к «редким событиям», таким как прогнозирование неявки авиакомпаний, обнаружение неисправностей оборудования и т. Д. Когда я готовил свой набор данных, я пытался применить классификацию, но не смог получить полезные классификаторы из-за высокой доли отрицательных случаев. , У меня нет …

1
Как выбрать вероятность отсечения для редкого события Логистическая регрессия
У меня есть 100 000 наблюдений (9 фиктивных переменных индикатора) с 1000 положительных результатов. Логистическая регрессия должна работать нормально в этом случае, но вероятность отсечения озадачивает меня. В обычной литературе мы выбираем 50% -ное сокращение, чтобы предсказать 1 и 0. Я не могу этого сделать, так как моя модель дает …

3
Первый основной компонент не разделяет классы, но другие ПК делают; как это возможно?
Я запустил PCA на 17 количественных переменных, чтобы получить меньший набор переменных, которые являются основными компонентами, которые будут использоваться в контролируемом машинном обучении для классификации экземпляров на два класса. После PCA на ПК1 приходится 31% отклонений в данных, на ПК2 - 17%, на ПК3 - 10%, на ПК4 - 8%, …

4
Классификатор для неопределенных меток классов
Допустим, у меня есть набор экземпляров с ассоциированными метками классов. Неважно, как эти экземпляры были помечены, но насколько точно их членство в классе. Каждый экземпляр принадлежит ровно одному классу. Допустим, я могу количественно определить достоверность каждого членства в классе с помощью номинального атрибута, который изменяется от 1 до 3 (от …

1
Мотивация за шагами алгоритма случайного леса
Метод создания случайного леса, с которым я знаком, заключается в следующем: (из http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Чтобы построить дерево в лесу, мы: Загрузите образец размера N, где N - размер нашего тренировочного набора. Используйте этот загруженный образец в качестве обучающего набора для этого дерева. В каждом узле дерева случайным образом выбираем m …

1
Оценка классификаторов: кривые обучения против кривых ROC
Я хотел бы сравнить 2 разных классификатора для задачи классификации текстов с несколькими классами, которые используют большие обучающие наборы данных. Я сомневаюсь, должен ли я использовать кривые ROC или кривые обучения, чтобы сравнить 2 классификатора. С одной стороны, кривые обучения полезны для определения размера набора обучающих данных, поскольку вы можете …

4
Является ли AUC вероятностью правильной классификации случайно выбранного экземпляра из каждого класса?
Я прочитал эту подпись в газете и никогда не видел, чтобы AUC описывали таким образом где-либо еще. Это правда? Есть ли доказательство или простой способ увидеть это? На рис. 2 показана точность прогнозирования дихотомических переменных, выраженная в терминах площади под кривой рабочих характеристик приемника (AUC), которая эквивалентна вероятности правильной классификации …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.