Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

2
Выбор оптимального альфа в упругой сети логистической регрессии
Я выступаю упругую внутрисетевые логистическую регрессию по набору данных медико - санитарной помощи с использованием glmnetпакета в R путем выбора значения лямбды над сеткой αα\alpha от 0 до 1. Моего сокращенного кода ниже: alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) …

5
Переоснащение: нет серебряной пули?
Насколько я понимаю, даже при соблюдении процедур перекрестной проверки и выбора модели может произойти переоснащение , если поискать модель будет достаточно сложно , если только он не налагает ограничения на сложность модели, период. Более того, часто люди пытаются узнать штрафы за сложность модели на основе данных, которые подрывают защиту, которую …

2
Перекрестная проверка (обобщение ошибок) после выбора модели
Примечание: регистр n >> p Я читаю Элементы статистического обучения, и есть различные упоминания о «правильном» способе перекрестной проверки (например, стр. 60, стр. 245). В частности, мой вопрос заключается в том, как оценить итоговую модель (без отдельного набора тестов) с использованием k-кратного CV или начальной загрузки, когда был поиск модели? …

3
Нужен ли нам набор тестов при использовании перекрестной проверки в k-кратном порядке?
Я читал о проверке K-Fold, и я хочу убедиться, что я понимаю, как это работает. Я знаю, что для метода удержания данные делятся на три набора, и набор тестов используется только в самом конце для оценки производительности модели, в то время как набор проверки используется для настройки гиперпараметров и т. …

1
Должен ли я принимать решения на основе микро-усредненных или макро-усредненных мер оценки?
Я провел 10-кратную перекрестную проверку по различным алгоритмам двоичной классификации с одним и тем же набором данных и получил результаты, усредненные как на микро-, так и на макроуровне. Следует отметить, что это была проблема классификации по нескольким меткам. В моем случае истинные негативы и истинные позитивы взвешиваются одинаково. Это означает, …

4
Насколько плоха настройка гиперпараметра вне перекрестной проверки?
Я знаю, что выполнение настройки гиперпараметра вне перекрестной проверки может привести к смещенно высоким оценкам внешней достоверности, потому что набор данных, который вы используете для измерения производительности, тот же, который вы использовали для настройки функций. Мне интересно, насколько это плохо . Я могу понять, как это было бы очень плохо …

2
Как использовать функции перекрестной проверки scikit-learn в классификаторах с несколькими метками
Я тестирую разные классификаторы на наборе данных, где есть 5 классов, и каждый экземпляр может принадлежать одному или нескольким из этих классов, поэтому я использую, в частности, многокомпонентные классификаторы scikit-learn sklearn.multiclass.OneVsRestClassifier. Теперь я хочу выполнить перекрестную проверку с помощью sklearn.cross_validation.StratifiedKFold. Это приводит к следующей ошибке: Traceback (most recent call last): …

1
Предупреждение libsvm «достижение максимального числа итераций» и перекрестная проверка
Я использую libsvm в режиме C-SVC с полиномиальным ядром степени 2, и мне необходимо обучить несколько SVM. Каждый тренировочный набор имеет 10 функций и 5000 векторов. Во время обучения я получаю это предупреждение для большинства SVM, которые я тренирую: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 …

2
Перекрестная проверка и эмпирический байесовский метод оценки гиперпараметров
Учитывая иерархическую модель , я хочу двухэтапный процесс, чтобы соответствовать модели. Сначала исправьте несколько гиперпараметров , а затем сделайте байесовский вывод по остальным параметрам . Для фиксации гиперпараметров я рассматриваю два варианта.θ ϕp ( x | ϕ , θ )п(Икс|φ,θ)p(x|\phi,\theta)θθ\thetaφφ\phi Используйте эмпирический байесовский анализ (EB) и максимизируйте предельное правдоподобие (объединяя …


4
Каковы правильные значения для точности и отзыва в крайних случаях?
Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю статистический …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
Байесовское мышление о переоснащении
Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее моделирование требует от аналитика тщательно продумать предыдущие распределения, которые могут быть адаптированы к возможностям-кандидатам, …

2
Работает ли система Caret Train для glmnet перекрестной проверки как для альфы, так и для лямбды?
Является ли caretпакет R перекрестной проверки как для модели, так alphaи lambdaдля glmnetнее? Запуск этого кода, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl …

1
K-кратная перекрестная проверка ансамблевого обучения
Я запутался в том, как разделить данные для k-кратной перекрестной проверки ансамблевого обучения. Предполагая, что у меня есть система обучения ансамбля для классификации. Мой первый слой содержит модели классификации, например, svm, деревья решений. Мой второй слой содержит модель голосования, которая объединяет прогнозы из первого слоя и дает окончательный прогноз. Если …

1
Преимущества стратифицированной и случайной выборки для получения обучающих данных в классификации
Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации. Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе, чем случайная выборка? Приложение, для которого я хотел бы использовать стратифицированную выборку …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.