Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

5
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?
Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для каждого набора данных. Обычно это делается с помощью некоторой техники …


1
Неправильное использование перекрестной проверки (представление отчета о наилучшем значении гиперпараметра)
Недавно я натолкнулся на статью, в которой предлагается использовать классификатор k-NN для конкретного набора данных. Авторы использовали все доступные образцы данных, чтобы выполнить перекрестную проверку в k-кратном размере для различных значений k и сообщить результаты перекрестной проверки наилучшей конфигурации гиперпараметра. Насколько мне известно, этот результат является предвзятым, и они должны …

2
Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?
Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового распределения классов для каждого сгиба будет работать против этого, если вы не уверены, что …

1
Метрики ошибок для перекрестной проверки моделей Пуассона
Я перекрестно проверяю модель, которая пытается предсказать счет. Если бы это была проблема бинарной классификации, я бы вычислял AUC вне складывания, а если бы это была проблема регрессии, я бы вычислял среднеквадратичное среднеквадратичное значение или MAE. Для модели Пуассона какие метрики ошибок я могу использовать для оценки «точности» прогнозов вне …

3
К-фолд против Монте-Карло перекрестной проверки
Я пытаюсь изучить различные методы перекрестной проверки, прежде всего с намерением применить к методам многомерного анализа под наблюдением. Два, с которыми я столкнулся, являются методами перекрестной проверки K-fold и Monte Carlo. Я читал, что K-fold - это вариант Монте-Карло, но я не уверен, что полностью понимаю, из чего состоит определение …

3
Перекрестная проверка, включая обучение, валидацию и тестирование. Зачем нам нужны три подмножества?
У меня есть вопрос, касающийся процесса перекрестной проверки. Я нахожусь в середине курса машинного обучения на Cursera. Одна из тем - о перекрестной проверке. Мне было немного трудно следовать. Я знаю, почему нам нужно CV, потому что мы хотим, чтобы наши модели хорошо работали с будущими (неизвестными) данными, а CV …

1
Вычисление повторяемости эффектов по модели Лмера
Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Могут ли степени свободы быть нецелым числом?
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
Почему существует асимметрия между этапом обучения и этапом оценки?
Хорошо известно, особенно в обработке естественного языка, что машинное обучение должно проходить в два этапа, этап обучения и этап оценки, и они должны использовать разные данные. Почему это? Интуитивно понятно, что этот процесс помогает избежать перегрузки данных, но я не вижу (теоретико-информационную) причину, что это так. В связи с этим, …

1
Является ли перекрестная проверка правильной заменой проверочного набора?
В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца. Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке классификаторов и функций. Это означает, …

2
Оценка дисперсии в k-кратной перекрестной проверке
K-кратная перекрестная проверка может использоваться для оценки возможности обобщения данного классификатора. Могу ли я (или я должен) также вычислить объединенную дисперсию из всех проверочных прогонов, чтобы получить лучшую оценку ее дисперсии? Если нет, то почему? Я нашел документы, в которых действительно используется объединенное стандартное отклонение при выполнении перекрестной проверки . …

1
Как можно эмпирически продемонстрировать в R, каким методам перекрестной проверки AIC и BIC эквивалентны?
В вопросе, приведенном в другом месте на этом сайте, в нескольких ответах упоминалось, что AIC эквивалентна перекрестной проверке с пропуском (LOO) и что BIC эквивалентна перекрестной проверке в K-кратном размере. Есть ли способ эмпирически продемонстрировать это в R так, чтобы методы, задействованные в LOO и K-кратном прояснении, стали ясными и …
26 r  aic  cross-validation  bic 

4
Внутренняя и внешняя перекрестная проверка и выбор модели
Насколько я понимаю, с помощью перекрестной проверки и выбора модели мы пытаемся решить две проблемы: P1 . Оцените ожидаемую потерю населения при обучении с нашей выборкой P2 . Измерьте и сообщите нашу неопределенность этой оценки (дисперсия, доверительные интервалы, отклонения и т. Д.) Стандартная практика, как представляется, заключается в проведении повторной …

4
Как вы используете тестовый набор данных после перекрестной проверки?
В некоторых лекциях и уроках, которые я видел, они предлагают разделить ваши данные на три части: обучение, проверка и тестирование. Но не ясно, как следует использовать набор тестовых данных, и как этот подход лучше, чем перекрестная проверка по всему набору данных. Допустим, мы сохранили 20% наших данных в качестве тестового …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.