Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

2
Использование вложенной перекрестной проверки
На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки выполняются параллельно: один с помощью оценщика GridSearchCV для установки гаммы, а другой с помощью cross_val_score для измерения эффективности прогнозирования оценщика. Полученные оценки являются …

1
Train vs Test Error Gap и его связь с переоснащением: согласование противоречивых советов
Там, кажется, есть противоречивый совет о том, как обрабатывать сравнение поезда с ошибкой теста, особенно когда есть разрыв между ними. Кажется, есть две школы мысли, которые кажутся мне противоречивыми. Я ищу, чтобы понять, как совместить два (или понять, что мне здесь не хватает). Мысль № 1: разрыв между производительностью поезда …

2
Как k-кратная перекрестная проверка подходит в контексте наборов обучения / проверки / тестирования?
Мой главный вопрос касается попыток понять, как k-кратная перекрестная проверка подходит в контексте наличия наборов обучения / проверки / тестирования (если это вообще подходит в таком контексте). Обычно люди говорят о разделении данных на набор для обучения, валидации и тестирования, скажем, с соотношением 60/20/20 на курс Эндрю Нга, посредством чего …

2
Перекрестная проверка и оптимизация параметров
У меня есть вопрос об оптимизации параметров, когда я использую 10-кратную перекрестную проверку. Я хочу спросить, должны ли параметры фиксироваться во время обучения модели каждого сгиба, т.е. (1) выбрать один набор оптимизированных параметров для средней точности каждого сгиба. или же (2) Я должен найти оптимизированный параметр для каждого сгиба, а …

5
Философский вопрос о логистической регрессии: почему не обучено оптимальное пороговое значение?
Обычно в логистической регрессии мы подбираем модель и получаем некоторые прогнозы на тренировочном наборе. Затем мы проводим перекрестную проверку этих прогнозов обучения (что-то вроде этого ) и определяем оптимальное пороговое значение на основе чего-то вроде кривой ROC. Почему бы нам не включить перекрестную проверку порогового значения в реальную модель и …

1
Оценить случайный лес: OOB против CV
Когда мы оцениваем качество случайного леса, например, с использованием AUC, более ли уместно вычислять эти количества по образцам «из пакета» или по совокупности перекрестной проверки? Я слышал, что вычисление его по образцам OOB дает более пессимистическую оценку, но я не понимаю, почему.

4
Чем перекрестная проверка отличается от отслеживания данных?
Я только что закончил «Введение в статистическое обучение» . Я задавался вопросом, отличается ли использование перекрестной проверки для нахождения наилучших параметров настройки для различных методов машинного обучения от отслеживания данных? Мы неоднократно проверяем, какое значение параметра настройки дает лучший прогнозирующий результат в тестовом наборе. Что, если параметр настройки, к которому …

1
С k-кратной перекрестной проверкой, усредняете ли вы все моделей для построения окончательной модели?
При выполнении перекрестной проверки в k-кратном размере я понимаю, что вы получаете метрики точности, указывая все сгибы, кроме одного, на один сгиб и делаете прогнозы, а затем повторяете этот процесс раз. Затем вы можете запустить метрики точности для всех ваших экземпляров (точность, отзыв,% классифицированы правильно), которые должны быть такими же, …

2
Интерпретация и проверка модели регрессии пропорциональных рисков Кокса с использованием R на простом английском языке
Может кто-нибудь объяснить мне мою модель Кокса на простом английском? Я использовал следующую модель регрессии Кокса для всех моих данных, используя cphфункцию. Мои данные сохраняются в объекте под названием Data. Переменные w, xи yнепрерывны; zэто фактор двух уровней. Время измеряется месяцами. У некоторых из моих пациентов отсутствуют данные для переменной …

2
Понимание начальной загрузки для проверки и выбора модели
Мне кажется, я понимаю, как работают основы самозагрузки , но я не уверен, что понимаю, как я могу использовать самозагрузку для выбора модели или чтобы избежать переобучения. Например, для выбора модели вы бы просто выбрали модель, которая дает наименьшую ошибку (может быть, дисперсию?) Во всех выборках начальной загрузки? Существуют ли …

1
Как исправить несходимость в LogisticRegressionCV
Я использую scikit-learn для выполнения логистической регрессии с перекрестной проверкой на наборе данных (около 14 параметров с> 7000 нормализованных наблюдений). У меня также есть целевой классификатор, который имеет значение 1 или 0. У меня проблема в том, что независимо от используемого решателя я получаю предупреждения о сходимости ... model1 = …

1
Существуют ли современные способы использования джекнифинга?
Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный джекнифинг по сравнению с начальной загрузкой, и могут ли результаты ножевого ножа обеспечить предварительное понимание …

4
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?
В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют основную правду. Есть ли способ использовать средства K-Fold в этом наборе данных для …

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
Перекрестная проверка и порядковая логистическая регрессия
Я пытаюсь понять перекрестную проверку для порядковой логистической регрессии. Цель игры - проверить модель, использованную в анализе ... Сначала я создаю набор данных игрушек: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.