Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

5
Как вы решаете, каков ваш процент обучения, валидации и тестирования?
При разделении моих помеченных данных на обучающие, проверочные и тестовые наборы я слышал все от 50/25/25 до 85/5/10. Я уверен, что это зависит от того, как вы собираетесь использовать свою модель и насколько склонен к переоснащению вашего алгоритма обучения. Есть ли способ решить или все по эмпирическому правилу? Даже ELSII …

1
Почему Anova () и drop1 () предоставили разные ответы для GLMM?
У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Стабильность модели в перекрестной проверке регрессионных моделей
С учетом множественных сгибов перекрестной проверки логистической регрессии и полученных в результате множественных оценок каждого коэффициента регрессии, как следует измерить, является ли предиктор (или набор предикторов) стабильным и значимым на основе коэффициента (ов) регрессии ? Отличается ли это для линейной регрессии?

4
Есть ли способ использовать перекрестную проверку для выбора переменных / признаков в R?
У меня есть набор данных с около 70 переменных, которые я хотел бы сократить. Я хочу использовать CV, чтобы найти наиболее полезные переменные следующим образом. 1) Случайно выберите, скажем, 20 переменных. 2) Используйте stepwise/ LASSO/ lars/ etc для выбора наиболее важных переменных. 3) Повторите ~ 50x и посмотрите, какие переменные …


1
Перекрестная проверка регрессии лассо в R
Функция R cv.glm (library: boot) вычисляет предполагаемую K-кратную ошибку прогнозирования перекрестной проверки для обобщенных линейных моделей и возвращает дельту. Имеет ли смысл использовать эту функцию для регрессии лассо (library: glmnet) и, если да, то как ее можно выполнить? Библиотека glmnet использует перекрестную проверку для получения лучшего параметра поворота, но я …

2
Вложенная перекрестная проверка - чем она отличается от выбора модели с помощью kfold CV на тренировочном наборе?
Я часто вижу людей, говорящих о перекрестной проверке 5x2 как частном случае вложенной перекрестной проверки . Я предполагаю, что первое число (здесь: 5) относится к числу сгибов во внутренней петле, а второе число (здесь: 2) относится к числу сгибов во внешней петле? Итак, чем это отличается от «традиционного» подхода к …

2
Реализация вложенной перекрестной проверки
Я пытаюсь выяснить, правильно ли мое понимание вложенной перекрестной проверки, поэтому я написал этот игрушечный пример, чтобы проверить, прав ли я: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset …

4
Модель истории дискретного времени (выживания) в R
Я пытаюсь вписать модель с дискретным временем в R, но я не уверен, как это сделать. Я читал, что вы можете организовать зависимую переменную в разных строках, по одной для каждого временного наблюдения, и использовать glmфункцию со ссылкой logit или cloglog. В этом смысле, у меня есть три колонки: ID, …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
GAM перекрестная проверка для проверки ошибки предсказания
Мои вопросы касаются GAMs в пакете mgcv R. Из-за небольшого размера выборки я хочу определить ошибку прогнозирования, используя перекрестную проверку с пропуском. Это разумно? Есть ли пакет или код, как я могу это сделать? errorest()Функция в ipred пакете не работает. Простой тестовый набор данных: library(mgcv) set.seed(0) dat <- gamSim(1,n=400,dist="normal",scale=2) b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3),data=dat) …
10 r  cross-validation  gam  mgcv 

1
Расчет интервалов прогнозирования при использовании перекрестной проверки
Оценки стандартного отклонения рассчитываются по формуле: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) для точности прогноза, взятой из 10-кратной перекрестной проверки? Я обеспокоен тем, что точность прогноза, рассчитанная между каждым разом, зависит от существенного совпадения между тренировочными наборами (хотя наборы предсказаний независимы). Любые ресурсы, которые обсуждают …

2
Как моделировать многовариантные результаты в R?
В большинстве случаев мы имеем дело только с одной переменной результат / ответ, такой как . Однако в некоторых сценариях, особенно в клинических данных, переменные результата могут быть многомерными / многомерными. Например, , где содержит переменные , и и все эти результаты коррелированы. Если обозначает получение лечения (да / нет), …

1
Как вы генерируете ROC-кривые для перекрестной проверки без участия?
При выполнении 5-кратной перекрестной проверки (например) обычно рассчитывают отдельную кривую ROC для каждой из 5-кратных и часто умножают среднюю кривую ROC на стандартное отклонение. девиация показано как толщина кривой. Тем не менее, для перекрестной проверки LOO, когда в каждом сгибе имеется только один тестовый набор данных, не представляется разумным вычислять …


1
Почему информация о проверочных данных просачивается, если я оцениваю производительность модели на проверочных данных при настройке гиперпараметров?
В книге «глубокое обучение Франсуа Шоле с Python» говорится: В результате настройка конфигурации модели на основе ее производительности на наборе проверки может быстро привести к подгонке к набору проверки, даже если ваша модель никогда не обучалась непосредственно этому. Центральное место в этом явлении занимает понятие утечки информации. Каждый раз, когда …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.