Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

1
Как построить окончательную модель и настроить порог вероятности после вложенной перекрестной проверки?
Во-первых, извинения за размещение вопроса, который уже подробно обсуждался здесь , здесь , здесь , здесь , здесьи для разогрева старой темы. Я знаю, что @DikranMarsupial подробно писал об этой теме в постах и ​​журнальных статьях, но я все еще в замешательстве, и, судя по количеству подобных постов, это все …

3
Достаточно ли перекрестной проверки для предотвращения переоснащения?
Если у меня есть данные, и я запускаю классификацию (скажем, случайный лес на этих данных) с перекрестной проверкой (скажем, 5-кратной), могу ли я заключить, что в моем методе нет чрезмерного соответствия?

1
Сообщение о дисперсии повторной перекрестной проверки в k-кратном размере
Я использовал повторную перекрестную проверку в k-кратном размере и сообщал о среднем значении (метрики оценки, например, чувствительности, специфичности), вычисленном как общее среднее значение для сгибов различных серий перекрестной проверки. Тем не менее, я не уверен, как я должен сообщать о дисперсии. Я нашел много вопросов здесь, обсуждающих повторную перекрестную проверку, …

1
Каретка - повторная перекрестная проверка в K-кратном сравнении с вложенной перекрестной проверкой в ​​K-кратном порядке, повторенная n раз
Пакет caret представляет собой великолепную библиотеку R для построения нескольких моделей машинного обучения и имеет несколько функций для построения и оценки моделей. Для настройки параметров и обучения модели пакет карет предлагает «repeatcv» в качестве одного из методов. Хорошей практикой является то, что настройка параметров может выполняться с использованием вложенной перекрестной …

1
Следует ли использовать повторную перекрестную проверку для оценки прогностических моделей?
Я наткнулся на эту статью 2012 года, написанную Гитте Ванвинкеленом и Хендриком Блокелом, в которой ставится под сомнение полезность повторной перекрестной проверки, которая стала популярным методом уменьшения дисперсии перекрестной проверки. Авторы продемонстрировали, что, хотя повторная перекрестная проверка действительно уменьшает дисперсию предсказаний модели, поскольку для того же набора данных выборки проводится …

3
Поиск в сетке по к-кратной перекрестной проверке
У меня есть набор данных из 120 образцов в 10-кратной перекрестной проверке. В настоящее время я выбираю обучающие данные первого удержания и делаю 5-кратную перекрестную проверку для этого, чтобы выбрать значения гаммы и C с помощью поиска по сетке. Я использую SVM с ядром RBF. Так как я делаю перекрестную …

7
Какое определение «наилучший» используется в терминах «наилучшее соответствие» и перекрестная проверка?
Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть: очень сложная функция с небольшими остатками очень простая функция с большими остатками Перекрестная проверка обычно используется, чтобы найти «лучший» компромисс между этими двумя крайностями. Но что значит «лучший»? Это …

2
PCA и k-кратная перекрестная проверка в пакете каретки в R
Я только что посмотрел лекцию из курса машинного обучения на Coursera. В разделе, где профессор обсуждает PCA для предварительной обработки данных в контролируемых учебных приложениях, он говорит, что PCA следует выполнять только на обучающих данных, а затем отображение используется для преобразования перекрестной проверки и тестовых наборов. См. Также PCA и …

4
Нормализация до перекрестной проверки
Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение? Примечание: это для ситуации, когда #cases> total #features Я преобразовываю некоторые из моих данных с помощью преобразования журнала, а затем нормализую все данные, …

2
Ошибка «из сумки» делает резюме ненужным в случайных лесах?
Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить объективную оценку ошибки набора тестов. Она …

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Среднее (баллы) против балла (конкатенации) в перекрестной проверке
TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого вычислить ошибку на выходах, которые я получаю в …

1
Когда / где использовать функциональный анализ данных?
Я очень плохо знаком с функциональным анализом данных (FDA). Я читаю: Ramsay, James O. и Silverman, Bernard W. (2006), Functional Analysis Data, 2nd ed., Springer, New York. Тем не менее, я до сих пор не очень ясно, где / когда использовать FDA? Может ли кто-нибудь дать мне пример, особенно в …

2
Какова процедура «начальной загрузки» (иначе говоря, «перекрестная проверка с повторной выборкой»)?
«Проверка правильности начальной загрузки» / «перекрестная проверка повторной выборки» является новой для меня, но обсуждалась путем ответа на этот вопрос . Я собираю, что это включает 2 типа данных: реальные данные и моделируемые данные, где данный набор моделируемых данных генерируется из реальных данных путем повторной выборки с заменой, пока моделируемые …

2
Как сделать перекрестную проверку с помощью модели пропорциональных рисков Кокса?
Предположим, что я построил модель прогнозирования возникновения конкретной болезни в одном наборе данных (набор данных построения модели) и теперь хочу проверить, насколько хорошо модель работает в новом наборе данных (набор данных проверки). Для модели, построенной с логистической регрессией, я рассчитал бы прогнозируемую вероятность для каждого человека в наборе данных проверки …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.