Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

2
Высокая дисперсия перекрестной проверки по принципу «один-один-один»
Я читал снова и снова, что перекрестная проверка «Оставить один» имеет высокую дисперсию из-за большого перекрытия тренировочных сгибов. Однако я не понимаю, почему это так: не должны ли результаты перекрестной проверки быть очень стабильными (низкая дисперсия) именно потому, что тренировочные наборы практически идентичны? Или я неправильно понимаю понятие «дисперсия»? Я …

1
Что делать, если высокая точность проверки, но низкая точность испытаний в исследованиях?
У меня есть конкретный вопрос о проверке в исследованиях машинного обучения. Как мы знаем, режим машинного обучения требует от исследователей обучать свои модели данным обучения, выбирать модели-кандидаты по набору проверок и сообщать о точности на наборе испытаний. В очень строгом исследовании тестовый набор может использоваться только один раз. Тем не …

2
Джекниф против LOOCV
Есть ли какая-то разница между складным ножом и перекрестной проверкой? Процедура кажется идентичной, я что-то упустил?

3
Как выбрать оптимальное количество скрытых факторов при неотрицательной матричной факторизации?
Принимая во внимание матрицы Vm×nVm×n\mathbf V^{m \times n} , неотрицательная матрица Факторизация (ФС) находит две неотрицательных матрицы Wm×kWm×k\mathbf W^{m \times k} и Hk×nHk×n\mathbf H^{k \times n} (то есть со всеми элементами ≥0≥0\ge 0 ) , чтобы представить разложившуюся матрицу , как: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, например, требуя , …

1
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?
Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

2
Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?
При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой из подмножества данных из пакета. Что за статистическое обоснование …

3
Как сделать увеличение данных и разделить проверку достоверности?
Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных поворотов и введения шума. Увеличение сделано в автономном режиме. Какой правильный …

3
Обучение, тестирование, валидация в задачах анализа выживания
Я просматривал различные темы здесь, но не думаю, что на мой точный вопрос дан ответ. У меня есть набор данных из ~ 50 000 студентов и их время для отсева. Я собираюсь выполнить пропорциональную регрессию рисков с большим количеством потенциальных ковариат. Я также собираюсь провести логистическую регрессию по отсеву / …

4
Каковы тематические исследования в исследованиях политики общественного здравоохранения, когда ненадежные / смешанные / недействительные исследования или модели были использованы не по назначению?
Я готовлю обзор литературы по актуальной проблеме общественного здравоохранения, в которой данные путаницы: Каковы общие исторические тематические исследования, которые используются в области общественного здравоохранения / эпидемиологии, где недействительные или ошибочные отношения или выводы были преднамеренно или ошибочно использованы в политике и законодательстве в области общественного здравоохранения? Всплеск смертности от автомобильной …

2
Оптимизация: корень зла в статистике?
Я слышал следующее выражение раньше: «Оптимизация - корень зла в статистике». Например, верхний ответ в этой теме делает это утверждение в связи с опасностью слишком агрессивной оптимизации во время выбора модели. Мой первый вопрос заключается в следующем: относится ли эта цитата к какому-либо конкретному лицу? (например, в статистической литературе) Из …

6
Как разделить набор данных, чтобы сделать 10-кратную перекрестную проверку
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Теперь у меня есть Rфрейм данных (обучение), может кто-нибудь сказать мне, как случайным образом разделить этот набор данных для проведения перекрестной проверки …

3
Какова функция стоимости в cv.glm в загрузочном пакете R?
Я делаю перекрестную проверку, используя метод "оставь один". Я получил бинарный ответ и использую загрузочный пакет для R и функцию cv.glm . Моя проблема в том, что я не до конца понимаю часть затрат в этой функции. Из того, что я могу понять, это функция, которая решает, следует ли классифицировать …

2
Заказ временных рядов для машинного обучения
Прочитав один из «Советов по исследованию» Р. Дж. Хиндмана о перекрестной проверке и временных рядах, я вернулся к своему старому вопросу, который я постараюсь сформулировать здесь. Идея состоит в том, что в задачах классификации или регрессии порядок данных не важен, и, следовательно, можно использовать перекрестную проверку в k- кратном порядке. …

2
Scikit правильный способ калибровки классификаторов с CalibratedClassifierCV
Scikit имеет CalibratedClassifierCV , который позволяет нам калибровать наши модели по определенной паре X, Y. В нем также четко указано, чтоdata for fitting the classifier and for calibrating it must be disjoint. Если они должны быть непересекающимися, законно ли обучать классификатор следующим? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Я боюсь, что, …

2
AIC, BIC и GCV: что лучше всего принимать решения в методах регрессии, о которых наказывают?
Мое общее понимание состоит в том, что AIC имеет дело с компромиссом между добротностью соответствия модели и сложностью модели. А яС= 2 k - 2 l n ( L )AяСзнак равно2К-2LN(L)AIC =2k -2ln(L) = количество параметров в моделиККk = вероятностьLLL Байесовский информационный критерий BIC тесно связан с AIC. AIC штрафует …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.