Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.


2
Классификация с градиентным ускорением: как сохранить прогноз в [0,1]
Вопрос Я изо всех сил пытаюсь понять, как прогнозирование сохраняется в интервале [0,1][0,1][0,1] при выполнении бинарной классификации с градиентным повышением. Предположим , что мы работаем над бинарной проблемы классификации, и наша целевая функция является потеря журнала, −∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i)) где yyy - целевая переменная ∈{0,1}∈{0,1}\in \{0,1\} а …


1
Что это означает, что AUC является полусобственным правилом подсчета очков?
Правильное правило подсчета очков - это правило, которое максимизируется «истинной» моделью, и оно не позволяет «хеджировать» или разыгрывать систему (преднамеренно сообщая о различных результатах, как и истинное убеждение модели в улучшении оценки). Оценка Бриера правильная, точность (пропорция классифицирована правильно) неуместна и часто не рекомендуется. Иногда я вижу, что AUC называют …

3
Что такое нулевая модель в регрессии и как она связана с нулевой гипотезой?
Что такое нулевая модель в регрессии и какова связь между нулевой моделью и нулевой гипотезой? Насколько я понимаю, это значит Используя «среднее значение переменной отклика» для прогнозирования переменной непрерывного отклика? Использование «распределения меток» при прогнозировании дискретных переменных ответа? Если это так, то, похоже, отсутствует связь между нулевой гипотезой.

2
Современное состояние обучения на основе данных 69 года
Я пытаюсь понять контекст знаменитой книги Мински и Пейперта «Перцептроны» 1969 года, столь критичной для нейронных сетей. Насколько я знаю, не было никаких других общих алгоритмов обучения под наблюдением, за исключением персептрона: деревья решений начали становиться действительно полезными только в конце 70-х, случайные леса и SVM - 90-х. Кажется, что …

1
Подготовка базового марковского случайного поля для классификации пикселей на изображении
Я пытаюсь научиться использовать случайные поля Маркова для сегментирования областей на изображении. Я не понимаю некоторые параметры в MRF или почему максимизация ожидания, которую я выполняю, иногда не сходится к решению. Исходя из теоремы Байеса, я имею , где y - значение серой шкалы пикселя, а x - метка класса. …

2
учебные подходы для сильно несбалансированного набора данных
У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня есть несколько вариантов: 1) Использование взвешенного SVM …

4
Низкая точность классификации, что делать дальше?
Итак, я новичок в области ОД и пытаюсь провести некоторую классификацию. Моя цель - предсказать исход спортивного события. Я собрал некоторые исторические данные и сейчас пытаюсь обучить классификатор. Я получил около 1200 сэмплов, 0,2 из которых я разделил для целей тестирования, другие я включил в поиск по сетке (включая перекрестную …

3
Поиск в сетке по к-кратной перекрестной проверке
У меня есть набор данных из 120 образцов в 10-кратной перекрестной проверке. В настоящее время я выбираю обучающие данные первого удержания и делаю 5-кратную перекрестную проверку для этого, чтобы выбрать значения гаммы и C с помощью поиска по сетке. Я использую SVM с ядром RBF. Так как я делаю перекрестную …

3
Коллинеарные переменные в обучении LDA Multiclass
Я тренирую многоклассный классификатор LDA с 8 классами данных. Во время обучения я получаю предупреждение: « Переменные коллинеарны » Я получаю точность обучения более 90% . Я использую библиотеку scikits-learn в Python, обучаю и проверяю данные мультикласса . Я также получаю приличную точность тестирования (около 85% -95% ). Я не …

1
В теории статистического обучения, нет ли проблемы переоснащения на тестовом наборе?
Давайте рассмотрим проблему классификации набора данных MNIST. Согласно веб -странице MNIST Яна ЛеКуна , «Ciresan et al.» получил 0,23% ошибок в тестовом наборе MNIST с использованием сверточной нейронной сети. Давайте обозначим обучающий набор MNIST как , тестовый набор MNIST как , окончательную гипотезу, которую они получили, используя качестве , и …

5
Как влияет увеличение данных обучения на общую точность системы?
Может ли кто-то резюмировать для меня возможные примеры, в каких ситуациях увеличение обучающих данных улучшает общую систему? Когда мы обнаружим, что добавление большего количества данных для обучения может привести к переопределению данных и не дать точных данных теста? Это очень неспецифичный вопрос, но если вы хотите ответить на него конкретно …

3
Предложения по обучению с учетом затрат в крайне несбалансированной среде
У меня есть набор данных с несколькими миллионами строк и ~ 100 столбцов. Я хотел бы обнаружить около 1% примеров в наборе данных, которые относятся к общему классу. У меня есть ограничение минимальной точности, но из-за очень асимметричной стоимости я не слишком заинтересован в каком-либо конкретном отзыве (пока у меня …

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.