Статистика и большие данные cross-validation

5

Как вы решаете, каков ваш процент обучения, валидации и тестирования?

При разделении моих помеченных данных на обучающие, проверочные и тестовые наборы я слышал все от 50/25/25 до 85/5/10. Я уверен, что это зависит от того, как вы собираетесь использовать свою модель и насколько склонен к переоснащению вашего алгоритма обучения. Есть ли способ решить или все по эмпирическому правилу? Даже ELSII …

10 machine-learning cross-validation

1

Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Стабильность модели в перекрестной проверке регрессионных моделей

С учетом множественных сгибов перекрестной проверки логистической регрессии и полученных в результате множественных оценок каждого коэффициента регрессии, как следует измерить, является ли предиктор (или набор предикторов) стабильным и значимым на основе коэффициента (ов) регрессии ? Отличается ли это для линейной регрессии?

10 regression model-selection cross-validation

4

Есть ли способ использовать перекрестную проверку для выбора переменных / признаков в R?

У меня есть набор данных с около 70 переменных, которые я хотел бы сократить. Я хочу использовать CV, чтобы найти наиболее полезные переменные следующим образом. 1) Случайно выберите, скажем, 20 переменных. 2) Используйте stepwise/ LASSO/ lars/ etc для выбора наиболее важных переменных. 3) Повторите ~ 50x и посмотрите, какие переменные …

10 r cross-validation feature-selection random-forest stepwise-regression

3

Хорошая литература о перекрестной проверке

Кто-нибудь знает хорошую книгу / веб-страницу, чтобы начать изучать методы перекрестной проверки?

10 references cross-validation

1

Перекрестная проверка регрессии лассо в R

Функция R cv.glm (library: boot) вычисляет предполагаемую K-кратную ошибку прогнозирования перекрестной проверки для обобщенных линейных моделей и возвращает дельту. Имеет ли смысл использовать эту функцию для регрессии лассо (library: glmnet) и, если да, то как ее можно выполнить? Библиотека glmnet использует перекрестную проверку для получения лучшего параметра поворота, но я …

10 r regression cross-validation lasso glmnet

2

Вложенная перекрестная проверка - чем она отличается от выбора модели с помощью kfold CV на тренировочном наборе?

Я часто вижу людей, говорящих о перекрестной проверке 5x2 как частном случае вложенной перекрестной проверки . Я предполагаю, что первое число (здесь: 5) относится к числу сгибов во внутренней петле, а второе число (здесь: 2) относится к числу сгибов во внешней петле? Итак, чем это отличается от «традиционного» подхода к …

10 machine-learning cross-validation hyperparameter

2

Реализация вложенной перекрестной проверки

Я пытаюсь выяснить, правильно ли мое понимание вложенной перекрестной проверки, поэтому я написал этот игрушечный пример, чтобы проверить, прав ли я: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset …

10 cross-validation python scikit-learn

4

Модель истории дискретного времени (выживания) в R

Я пытаюсь вписать модель с дискретным временем в R, но я не уверен, как это сделать. Я читал, что вы можете организовать зависимую переменную в разных строках, по одной для каждого временного наблюдения, и использовать glmфункцию со ссылкой logit или cloglog. В этом смысле, у меня есть три колонки: ID, …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

GAM перекрестная проверка для проверки ошибки предсказания

Мои вопросы касаются GAMs в пакете mgcv R. Из-за небольшого размера выборки я хочу определить ошибку прогнозирования, используя перекрестную проверку с пропуском. Это разумно? Есть ли пакет или код, как я могу это сделать? errorest()Функция в ipred пакете не работает. Простой тестовый набор данных: library(mgcv) set.seed(0) dat <- gamSim(1,n=400,dist="normal",scale=2) b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3),data=dat) …

10 r cross-validation gam mgcv

1

Расчет интервалов прогнозирования при использовании перекрестной проверки

Оценки стандартного отклонения рассчитываются по формуле: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) для точности прогноза, взятой из 10-кратной перекрестной проверки? Я обеспокоен тем, что точность прогноза, рассчитанная между каждым разом, зависит от существенного совпадения между тренировочными наборами (хотя наборы предсказаний независимы). Любые ресурсы, которые обсуждают …

10 confidence-interval cross-validation prediction prediction-interval

2

Как моделировать многовариантные результаты в R?

В большинстве случаев мы имеем дело только с одной переменной результат / ответ, такой как . Однако в некоторых сценариях, особенно в клинических данных, переменные результата могут быть многомерными / многомерными. Например, , где содержит переменные , и и все эти результаты коррелированы. Если обозначает получение лечения (да / нет), …

10 r cross-validation

1

Как вы генерируете ROC-кривые для перекрестной проверки без участия?

При выполнении 5-кратной перекрестной проверки (например) обычно рассчитывают отдельную кривую ROC для каждой из 5-кратных и часто умножают среднюю кривую ROC на стандартное отклонение. девиация показано как толщина кривой. Тем не менее, для перекрестной проверки LOO, когда в каждом сгибе имеется только один тестовый набор данных, не представляется разумным вычислять …

10 cross-validation roc

2

Могут ли RMSE и MAE иметь одинаковое значение?

Я внедряю перекрестную проверку и вычисляю метрики ошибок, такие как RMSE, , MAE, MSE и т. Д.R2R2R^2 Могут ли RMSE и MAE иметь одинаковое значение?

9 cross-validation rms mae

1

Почему информация о проверочных данных просачивается, если я оцениваю производительность модели на проверочных данных при настройке гиперпараметров?

В книге «глубокое обучение Франсуа Шоле с Python» говорится: В результате настройка конфигурации модели на основе ее производительности на наборе проверки может быстро привести к подгонке к набору проверки, даже если ваша модель никогда не обучалась непосредственно этому. Центральное место в этом явлении занимает понятие утечки информации. Каждый раз, когда …

9 neural-networks cross-validation hyperparameter

Вопросы с тегом «cross-validation»