Статистика и большие данные cross-validation

2

Использование вложенной перекрестной проверки

На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки выполняются параллельно: один с помощью оценщика GridSearchCV для установки гаммы, а другой с помощью cross_val_score для измерения эффективности прогнозирования оценщика. Полученные оценки являются …

14 machine-learning cross-validation scikit-learn

1

Train vs Test Error Gap и его связь с переоснащением: согласование противоречивых советов

Там, кажется, есть противоречивый совет о том, как обрабатывать сравнение поезда с ошибкой теста, особенно когда есть разрыв между ними. Кажется, есть две школы мысли, которые кажутся мне противоречивыми. Я ищу, чтобы понять, как совместить два (или понять, что мне здесь не хватает). Мысль № 1: разрыв между производительностью поезда …

14 cross-validation overfitting

2

Как k-кратная перекрестная проверка подходит в контексте наборов обучения / проверки / тестирования?

Мой главный вопрос касается попыток понять, как k-кратная перекрестная проверка подходит в контексте наличия наборов обучения / проверки / тестирования (если это вообще подходит в таком контексте). Обычно люди говорят о разделении данных на набор для обучения, валидации и тестирования, скажем, с соотношением 60/20/20 на курс Эндрю Нга, посредством чего …

14 cross-validation dataset overfitting

2

Перекрестная проверка и оптимизация параметров

У меня есть вопрос об оптимизации параметров, когда я использую 10-кратную перекрестную проверку. Я хочу спросить, должны ли параметры фиксироваться во время обучения модели каждого сгиба, т.е. (1) выбрать один набор оптимизированных параметров для средней точности каждого сгиба. или же (2) Я должен найти оптимизированный параметр для каждого сгиба, а …

14 cross-validation optimization parameterization

5

Философский вопрос о логистической регрессии: почему не обучено оптимальное пороговое значение?

Обычно в логистической регрессии мы подбираем модель и получаем некоторые прогнозы на тренировочном наборе. Затем мы проводим перекрестную проверку этих прогнозов обучения (что-то вроде этого ) и определяем оптимальное пороговое значение на основе чего-то вроде кривой ROC. Почему бы нам не включить перекрестную проверку порогового значения в реальную модель и …

13 logistic cross-validation optimization roc threshold

1

Оценить случайный лес: OOB против CV

Когда мы оцениваем качество случайного леса, например, с использованием AUC, более ли уместно вычислять эти количества по образцам «из пакета» или по совокупности перекрестной проверки? Я слышал, что вычисление его по образцам OOB дает более пессимистическую оценку, но я не понимаю, почему.

13 cross-validation random-forest auc

4

Чем перекрестная проверка отличается от отслеживания данных?

Я только что закончил «Введение в статистическое обучение» . Я задавался вопросом, отличается ли использование перекрестной проверки для нахождения наилучших параметров настройки для различных методов машинного обучения от отслеживания данных? Мы неоднократно проверяем, какое значение параметра настройки дает лучший прогнозирующий результат в тестовом наборе. Что, если параметр настройки, к которому …

13 machine-learning cross-validation

1

С k-кратной перекрестной проверкой, усредняете ли вы все моделей для построения окончательной модели?

При выполнении перекрестной проверки в k-кратном размере я понимаю, что вы получаете метрики точности, указывая все сгибы, кроме одного, на один сгиб и делаете прогнозы, а затем повторяете этот процесс раз. Затем вы можете запустить метрики точности для всех ваших экземпляров (точность, отзыв,% классифицированы правильно), которые должны быть такими же, …

13 cross-validation

2

Интерпретация и проверка модели регрессии пропорциональных рисков Кокса с использованием R на простом английском языке

Может кто-нибудь объяснить мне мою модель Кокса на простом английском? Я использовал следующую модель регрессии Кокса для всех моих данных, используя cphфункцию. Мои данные сохраняются в объекте под названием Data. Переменные w, xи yнепрерывны; zэто фактор двух уровней. Время измеряется месяцами. У некоторых из моих пациентов отсутствуют данные для переменной …

13 r cross-validation survival cox-model

2

Понимание начальной загрузки для проверки и выбора модели

Мне кажется, я понимаю, как работают основы самозагрузки , но я не уверен, что понимаю, как я могу использовать самозагрузку для выбора модели или чтобы избежать переобучения. Например, для выбора модели вы бы просто выбрали модель, которая дает наименьшую ошибку (может быть, дисперсию?) Во всех выборках начальной загрузки? Существуют ли …

13 model-selection cross-validation bootstrap

1

Как исправить несходимость в LogisticRegressionCV

Я использую scikit-learn для выполнения логистической регрессии с перекрестной проверкой на наборе данных (около 14 параметров с> 7000 нормализованных наблюдений). У меня также есть целевой классификатор, который имеет значение 1 или 0. У меня проблема в том, что независимо от используемого решателя я получаю предупреждения о сходимости ... model1 = …

13 logistic cross-validation scikit-learn

1

Существуют ли современные способы использования джекнифинга?

Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный джекнифинг по сравнению с начальной загрузкой, и могут ли результаты ножевого ножа обеспечить предварительное понимание …

12 machine-learning cross-validation bootstrap maximum-entropy jackknife

4

Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют основную правду. Есть ли способ использовать средства K-Fold в этом наборе данных для …

12 machine-learning clustering cross-validation unsupervised-learning

1

Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

Перекрестная проверка и порядковая логистическая регрессия

Я пытаюсь понять перекрестную проверку для порядковой логистической регрессии. Цель игры - проверить модель, использованную в анализе ... Сначала я создаю набор данных игрушек: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 …

12 regression cross-validation ordered-logit rms

Вопросы с тегом «cross-validation»