Является ли удерживающая проверка лучшей аппроксимацией «получения новых данных», чем k-кратное резюме?

Я переосмыслил ответ, который дал на вопрос пару недель назад

Удерживающая перекрестная проверка дает один набор тестов, который можно многократно использовать для демонстрации. Похоже, мы все согласны с тем, что это во многих отношениях является отрицательной чертой, поскольку один протяженный набор может оказаться непредставительным из-за случайности. Более того, вы можете в конечном итоге перенастроить данные теста таким же образом, как и тренировочные данные.

Тем не менее, мне кажется, что статический характер удерживаемой выборки является лучшим приближением к «получению большего количества данных», чем CV-кратное CV, и позволяет избежать проблемы усреднения по сгибам. Однако я не могу придумать какой-либо статистической основы для этого чувства, которое у меня есть. Есть ли какая-то логика в моей интуиции?

Например, что я имею в виду для предстоящего проекта, это сначала использовать удерживающую проверку для построения и тестирования модели, а затем в качестве шага проверки повторно вывести набор удерживаний несколько раз, чтобы показать, что мои оценки ошибки предсказания ( на тестовом наборе) устойчивы к ошибке выборки в тестовом наборе. Это плохая идея по какой-либо причине? Этот вопрос задавался ранее, но так и не получил ответа.

cross-validation

— shadowtalker
источник

ИМХО, одним из худших свойств удерживающей валидации является психологический, а не статистический: я вижу много задержек, которые интерпретируются как независимый валидационный эксперимент (с независимостью уже на экспериментальном уровне), хотя многие из критические проблемы, которые я вижу с проверкой повторной выборки, могут и будут происходить точно так же и с задержкой (любая проблема, возникающая из-за неправильного разделения).

Кроме этого, ИМХО, это почти то же самое, что и повторная выборка (по крайней мере, как я видел на практике). Отличия

общее количество фактически различных проверенных случаев меньше (и, следовательно, оценка менее достоверна).
Что касается задержки, то производительность востребована для фактически протестированной модели, а не для фактически непроверенной модели, построенной на основе данных об удержании и тесте об удержании. Ресэмплинг утверждает, что измеренная производительность является хорошим приближением к производительности последней модели. Но я также видел, что такой подход использовался как «выдержка» («проверка правильности набора»).

Эсбенсен и Гелади: принципы правильной валидации: использование и злоупотребление повторной выборкой для валидации, Journal of Chemometrics, 24 (3-4), 168-187, утверждает, что на практике оба не очень хорошие приближения для наборов данных (валидация эксперименты), которые позволяют измерить действительно интересные характеристики производительности.

Вы можете в конечном итоге перенастроить данные теста таким же образом, как и тренировочные данные.

Как и в случае любой другой проверки: если вы выполняете моделирование / выбор модели на основе данных, необходим другой независимый уровень проверки. Я не вижу здесь никакой разницы между схемами отсрочки и повторной выборки.

сначала с помощью удерживающей валидации для построения и тестирования модели, затем в качестве шага валидации несколько раз перерисовываем удерживающий набор, чтобы показать, что мои оценки ошибки прогнозирования (в тестовом наборе) устойчивы к ошибке выборки в тесте набор. Это плохая идея по какой-либо причине?

Я так думаю, да: ИМХО следует использовать вложенную настройку
(если только вы не хотите предположить, что валидационная проверка может и должна быть повторена также - это правильный подход, который отличается от повторной / повторной проверки набора только интерпретацией : утверждение о производительности относится ко многим фактически протестированным моделям или оно экстраполируется на одну модель, построенную из всех данных).

— cbeleites недоволен SX
источник