ИМХО, одним из худших свойств удерживающей валидации является психологический, а не статистический: я вижу много задержек, которые интерпретируются как независимый валидационный эксперимент (с независимостью уже на экспериментальном уровне), хотя многие из критические проблемы, которые я вижу с проверкой повторной выборки, могут и будут происходить точно так же и с задержкой (любая проблема, возникающая из-за неправильного разделения).
Кроме этого, ИМХО, это почти то же самое, что и повторная выборка (по крайней мере, как я видел на практике). Отличия
- общее количество фактически различных проверенных случаев меньше (и, следовательно, оценка менее достоверна).
- Что касается задержки, то производительность востребована для фактически протестированной модели, а не для фактически непроверенной модели, построенной на основе данных об удержании и тесте об удержании. Ресэмплинг утверждает, что измеренная производительность является хорошим приближением к производительности последней модели. Но я также видел, что такой подход использовался как «выдержка» («проверка правильности набора»).
Эсбенсен и Гелади: принципы правильной валидации: использование и злоупотребление повторной выборкой для валидации, Journal of Chemometrics, 24 (3-4), 168-187, утверждает, что на практике оба не очень хорошие приближения для наборов данных (валидация эксперименты), которые позволяют измерить действительно интересные характеристики производительности.
Вы можете в конечном итоге перенастроить данные теста таким же образом, как и тренировочные данные.
Как и в случае любой другой проверки: если вы выполняете моделирование / выбор модели на основе данных, необходим другой независимый уровень проверки. Я не вижу здесь никакой разницы между схемами отсрочки и повторной выборки.
сначала с помощью удерживающей валидации для построения и тестирования модели, затем в качестве шага валидации несколько раз перерисовываем удерживающий набор, чтобы показать, что мои оценки ошибки прогнозирования (в тестовом наборе) устойчивы к ошибке выборки в тесте набор. Это плохая идея по какой-либо причине?
Я так думаю, да: ИМХО следует использовать вложенную настройку
(если только вы не хотите предположить, что валидационная проверка может и должна быть повторена также - это правильный подход, который отличается от повторной / повторной проверки набора только интерпретацией : утверждение о производительности относится ко многим фактически протестированным моделям или оно экстраполируется на одну модель, построенную из всех данных).