Статистика и большие данные cross-validation

2

Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?

Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании? Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе новых данных. Но что, если вы занимаетесь традиционной …

19 cross-validation econometrics model-selection interpretation regularization

1

Интервал прогнозирования на основе перекрестной проверки (CV)

В учебниках и лекциях на YouTube я много узнал об итерационных моделях, таких как бустинг, но я никогда не видел ничего о получении интервала прогнозирования. Перекрестная проверка используется для следующего: Выбор модели : попробуйте разные модели и выберите ту, которая подходит лучше всего. В случае повышения используйте CV для выбора …

19 cross-validation boosting prediction-interval

2

Устойчивость перекрестной проверки в байесовских моделях

Я подгоняю байесовский HLM в JAGS, используя перекрестную проверку в k-кратном порядке (k = 5). Я хотел бы знать, стабильны ли оценки параметра во всех сгибах. Какой лучший способ сделать это?ββ\beta Одна из идей состоит в том, чтобы найти различия исходных текстов и посмотреть, находится ли 0 в 95% -ном …

19 bayesian cross-validation

6

Является ли настройка гиперпараметра на образце набора данных плохой идеей?

У меня есть набор данных из 140000 примеров и 30 функций, для которых я готовлю несколько классификаторов для двоичной классификации (SVM, логистическая регрессия, случайный лес и т. Д.) Во многих случаях настройка гиперпараметра для всего набора данных с использованием поиска по сетке или случайному поиску слишком затратна по времени. Я …

19 machine-learning cross-validation hyperparameter

4

Почему разделение данных на набор для обучения и тестирования недостаточно

Я знаю, что для того, чтобы получить доступ к характеристикам классификатора, мне нужно разделить данные на обучающие / тестовые наборы. Но читая это : При оценке различных настроек («гиперпараметров») для оценщиков, таких как настройки C, которые должны быть установлены вручную для SVM, все еще существует риск перенастройки на тестовом наборе, …

18 machine-learning cross-validation

1

Доказательство формулы LOOCV

Из «Введения в статистическое обучение » Джеймса и др., Оценка перекрестной проверки (LOOCV) определяется как где .резюме( н )= 1NΣя = 1NMSEярезюме(N)знак равно1NΣязнак равно1NMSEя\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEя= ( уя- у^я)2MSEязнак равно(Yя-Y^я)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Без доказательства уравнение (5.2) утверждает, что для регрессии наименьших квадратов или полиномиальной регрессии (относится ли это к регрессии …

18 regression self-study cross-validation least-squares

1

Как сообщается матрица путаницы из K-кратной перекрестной проверки?

Предположим, я делаю перекрестную проверку в K-кратном порядке с K = 10-кратным. Там будет одна матрица путаницы для каждого сгиба. Когда я сообщаю о результатах, я должен вычислить, какова средняя матрица путаницы, или просто суммировать матрицы путаницы?

18 machine-learning cross-validation accuracy

3

Вменение до или после разделения на поезд и тест?

У меня есть набор данных с N ~ 5000 и около 1/2 отсутствует по крайней мере по одной важной переменной. Основным аналитическим методом будет пропорциональный риск Кокса. Я планирую использовать множественное вменение. Я также буду разделяться на поезд и тестовый набор. Должен ли я разделять данные и затем вменять отдельно, …

18 cross-validation survival multiple-imputation train

5

Изменчивость в результатах cv.glmnet

Я использую, cv.glmnetчтобы найти предикторов. Я использую следующие настройки: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Чтобы убедиться, что результаты воспроизводимы, я set.seed(1). Результаты сильно различаются. Я запустил точно такой же код 100, чтобы увидеть, насколько переменными были результаты. В 98/100 прогонах всегда был выбран один конкретный предиктор (иногда только сам по …

18 r cross-validation feature-selection glmnet

2

Сколько раз мы должны повторять K-кратное резюме?

Я наткнулся на эту тему, глядя на различия между начальной загрузкой и перекрестной проверкой - кстати, отличный ответ и ссылки. Что меня сейчас интересует, так это то, что если я должен был выполнить повторное 10-кратное CV, скажем, чтобы вычислить точность классификатора, сколько раз n я должен повторить это? Имеет ли …

18 cross-validation

1

Можем ли мы использовать одно среднее значение и стандартное отклонение, чтобы выявить выбросы?

Предположим, у меня есть нормально распределенные данные. Для каждого элемента данных я хочу проверить, сколько SD находится от среднего значения. В данных могут быть выбросы (вероятно, только один, но могут быть также два или три) или нет, но этот выброс в основном то, что я ищу. Имеет ли смысл временно …

17 cross-validation standard-deviation mean outliers

4

Перекрестная проверка и настройка параметров

Кто-нибудь может сказать мне, что именно дает перекрестный анализ? Это просто средняя точность или дает какую-либо модель с настроенными параметрами? Потому что я где-то слышал, что для настройки параметров используется перекрестная проверка.

17 cross-validation

5

Быстрый метод поиска лучших метапараметров SVM (это быстрее, чем поиск по сетке)

Я использую модели SVM для краткосрочного прогнозирования загрязнителей воздуха. Для обучения новой модели мне нужно найти соответствующие метапараметры для модели SVM (я имею в виду C, гамма и т. Д.). Документация libsvm (и многие другие книги, которые я читал) предлагает использовать поиск по сетке для поиска этих параметров - поэтому …

17 cross-validation svm

2

Зачем использовать масштабирование Платта?

Для калибровки уровня достоверности по вероятности в контролируемом обучении (скажем, для сопоставления достоверности из SVM или дерева решений с использованием данных с избыточной дискретизацией) одним из методов является использование масштабирования Платта (например, получение калиброванных вероятностей из повышения ). В основном каждый использует логистическую регрессию для отображения до [ 0 ; …

17 logistic cross-validation calibration

3

Как получить гиперпараметры во вложенной перекрестной проверке?

Я прочитал следующие посты о вложенной перекрестной проверке и до сих пор не уверен на 100%, что мне делать с выбором модели с вложенной перекрестной проверкой: Вложенная перекрестная проверка для выбора модели Выбор модели и перекрестная проверка: правильный путь Чтобы объяснить мою путаницу, позвольте мне попробовать пошагово пройти выбор модели …

17 cross-validation scikit-learn hyperparameter

Вопросы с тегом «cross-validation»