Задержка часто используется как синоним валидации с независимым набором тестов, хотя существуют принципиальные различия между случайным разделением данных и разработкой эксперимента по валидации для независимого тестирования.
Независимые тестовые наборы могут использоваться для измерения эффективности обобщения, которая не может быть измерена путем повторной выборки или проверки удержания, например производительности для неизвестных будущих случаев (= случаев, которые измеряются позже, после завершения обучения). Это важно для того, чтобы знать, как долго существующая модель может использоваться для новых данных (например, дрейф инструмента). В более общем смысле это может быть описано как измерение эффективности экстраполяции для определения пределов применимости.
Другой сценарий, в котором задержка может быть действительно выгодным: очень легко обеспечить правильное разделение данных обучения и испытаний - гораздо проще, чем при проверке повторной выборки: например,
- решить разделение (например, сделать случайное распределение случаев)
- мера
- Измерение и справочные данные учебных случаев => моделирование \ ни измерения, ни справочные данные тестовых примеров не передаются человеку, который моделирует.
- итоговая модель + измерения протяженных случаев => прогноз
- сравните прогнозы со справочными данными для отдаленных случаев.
В зависимости от уровня разделения, который вам нужен, каждый шаг может быть сделан кем-то другим. На первом уровне отказ от передачи каких-либо данных (даже измерений) тестовых случаев разработчику модели позволяет быть очень уверенным, что никакие тестовые данные не попадут в процесс моделирования. На втором уровне окончательные результаты измерений модели и тестового примера могут быть переданы кому-то еще, и так далее.
Да, вы платите за это более низкой эффективностью оценок удержания по сравнению с проверкой повторной выборки. Но я видел много работ, в которых я подозреваю, что проверка повторной выборки не разделяет должным образом случаи (в моей области у нас много кластерных / иерархических / сгруппированных данных).
Я усвоил урок об утечке данных для повторной выборки, убирая рукопись через неделю после представления, когда обнаружил, что у меня была ранее необнаруженная (при выполнении перестановочных тестов) утечка в моей процедуре расщепления (опечатка в расчете индекса).
Иногда удержание может быть более эффективным, чем поиск кого-то, кто готов потратить время на проверку кода повторной выборки (например, для кластеризованных данных), чтобы получить тот же уровень уверенности в результатах. Тем не менее, IMHO, как правило, неэффективно делать это до того, как вы окажетесь на той стадии, когда вам в любом случае необходимо измерить, например, будущую производительность (первая точка) - иными словами, когда вам в любом случае нужно будет установить эксперимент проверки для существующей модели.
OTOH, в ситуациях с небольшим размером выборки отсрочка невозможна: вам нужно выдержать достаточно тестовых случаев, чтобы результаты тестов были достаточно точными, чтобы можно было сделать нужный вывод (помните: 3 правильных из 3 тестовых случаев для классификации означают биномиальный 95% доверительный интервал, который колеблется намного ниже 50:50, догадываясь!) Фрэнк Харрелл будет указывать на правило большого пальца, которое, по крайней мере, ок. 100 (тестовых) случаев необходимы для правильного измерения пропорции [такой как доля правильно предсказанных случаев] с полезной точностью.
Обновление: существуют ситуации, когда правильное разбиение особенно трудно достичь, и перекрестная проверка становится невозможной. Рассмотрим проблему с рядом нарушителей. Расщепление легко, если эти конфузоры строго вложены (например, исследование с несколькими пациентами имеет несколько образцов каждого пациента и анализирует количество клеток каждого образца): вы разделяете на самом высоком уровне иерархии выборки (по пациентам) , Но у вас могут быть независимые факторы, которые не являются вложенными, например, ежедневные изменения или отклонения, вызванные различными экспериментаторами, проводящими тест. Затем вам нужно убедиться, что разделение является независимым для всехна самом высоком уровне (вложенные участники автоматически будут независимыми). Позаботиться об этом очень сложно, если некоторые выявившие факторы обнаруживаются только во время исследования, а разработка и проведение эксперимента по валидации может быть более эффективным, чем работа с расщеплениями, в которых почти не остается данных ни для обучения, ни для тестирования суррогатных моделей.