Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

2
Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?
Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании? Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе новых данных. Но что, если вы занимаетесь традиционной …

1
Интервал прогнозирования на основе перекрестной проверки (CV)
В учебниках и лекциях на YouTube я много узнал об итерационных моделях, таких как бустинг, но я никогда не видел ничего о получении интервала прогнозирования. Перекрестная проверка используется для следующего: Выбор модели : попробуйте разные модели и выберите ту, которая подходит лучше всего. В случае повышения используйте CV для выбора …

2
Устойчивость перекрестной проверки в байесовских моделях
Я подгоняю байесовский HLM в JAGS, используя перекрестную проверку в k-кратном порядке (k = 5). Я хотел бы знать, стабильны ли оценки параметра во всех сгибах. Какой лучший способ сделать это?ββ\beta Одна из идей состоит в том, чтобы найти различия исходных текстов и посмотреть, находится ли 0 в 95% -ном …

6
Является ли настройка гиперпараметра на образце набора данных плохой идеей?
У меня есть набор данных из 140000 примеров и 30 функций, для которых я готовлю несколько классификаторов для двоичной классификации (SVM, логистическая регрессия, случайный лес и т. Д.) Во многих случаях настройка гиперпараметра для всего набора данных с использованием поиска по сетке или случайному поиску слишком затратна по времени. Я …

4
Почему разделение данных на набор для обучения и тестирования недостаточно
Я знаю, что для того, чтобы получить доступ к характеристикам классификатора, мне нужно разделить данные на обучающие / тестовые наборы. Но читая это : При оценке различных настроек («гиперпараметров») для оценщиков, таких как настройки C, которые должны быть установлены вручную для SVM, все еще существует риск перенастройки на тестовом наборе, …

1
Доказательство формулы LOOCV
Из «Введения в статистическое обучение » Джеймса и др., Оценка перекрестной проверки (LOOCV) определяется как где .резюме( н )= 1NΣя = 1NMSEярезюме(N)знак равно1NΣязнак равно1NMSEя\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEя= ( уя- у^я)2MSEязнак равно(Yя-Y^я)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Без доказательства уравнение (5.2) утверждает, что для регрессии наименьших квадратов или полиномиальной регрессии (относится ли это к регрессии …

1
Как сообщается матрица путаницы из K-кратной перекрестной проверки?
Предположим, я делаю перекрестную проверку в K-кратном порядке с K = 10-кратным. Там будет одна матрица путаницы для каждого сгиба. Когда я сообщаю о результатах, я должен вычислить, какова средняя матрица путаницы, или просто суммировать матрицы путаницы?

3
Вменение до или после разделения на поезд и тест?
У меня есть набор данных с N ~ 5000 и около 1/2 отсутствует по крайней мере по одной важной переменной. Основным аналитическим методом будет пропорциональный риск Кокса. Я планирую использовать множественное вменение. Я также буду разделяться на поезд и тестовый набор. Должен ли я разделять данные и затем вменять отдельно, …

5
Изменчивость в результатах cv.glmnet
Я использую, cv.glmnetчтобы найти предикторов. Я использую следующие настройки: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Чтобы убедиться, что результаты воспроизводимы, я set.seed(1). Результаты сильно различаются. Я запустил точно такой же код 100, чтобы увидеть, насколько переменными были результаты. В 98/100 прогонах всегда был выбран один конкретный предиктор (иногда только сам по …

2
Сколько раз мы должны повторять K-кратное резюме?
Я наткнулся на эту тему, глядя на различия между начальной загрузкой и перекрестной проверкой - кстати, отличный ответ и ссылки. Что меня сейчас интересует, так это то, что если я должен был выполнить повторное 10-кратное CV, скажем, чтобы вычислить точность классификатора, сколько раз n я должен повторить это? Имеет ли …

1
Можем ли мы использовать одно среднее значение и стандартное отклонение, чтобы выявить выбросы?
Предположим, у меня есть нормально распределенные данные. Для каждого элемента данных я хочу проверить, сколько SD находится от среднего значения. В данных могут быть выбросы (вероятно, только один, но могут быть также два или три) или нет, но этот выброс в основном то, что я ищу. Имеет ли смысл временно …

4
Перекрестная проверка и настройка параметров
Кто-нибудь может сказать мне, что именно дает перекрестный анализ? Это просто средняя точность или дает какую-либо модель с настроенными параметрами? Потому что я где-то слышал, что для настройки параметров используется перекрестная проверка.

5
Быстрый метод поиска лучших метапараметров SVM (это быстрее, чем поиск по сетке)
Я использую модели SVM для краткосрочного прогнозирования загрязнителей воздуха. Для обучения новой модели мне нужно найти соответствующие метапараметры для модели SVM (я имею в виду C, гамма и т. Д.). Документация libsvm (и многие другие книги, которые я читал) предлагает использовать поиск по сетке для поиска этих параметров - поэтому …

2
Зачем использовать масштабирование Платта?
Для калибровки уровня достоверности по вероятности в контролируемом обучении (скажем, для сопоставления достоверности из SVM или дерева решений с использованием данных с избыточной дискретизацией) одним из методов является использование масштабирования Платта (например, получение калиброванных вероятностей из повышения ). В основном каждый использует логистическую регрессию для отображения до [ 0 ; …

3
Как получить гиперпараметры во вложенной перекрестной проверке?
Я прочитал следующие посты о вложенной перекрестной проверке и до сих пор не уверен на 100%, что мне делать с выбором модели с вложенной перекрестной проверкой: Вложенная перекрестная проверка для выбора модели Выбор модели и перекрестная проверка: правильный путь Чтобы объяснить мою путаницу, позвольте мне попробовать пошагово пройти выбор модели …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.