Я позволю себе не согласиться в этом вопросе с мнением @ AmiTavory, а также с элементами статистического обучения.
Исходя из прикладной области с очень маленькими размерами выборки, у меня есть опыт, что также неконтролируемые этапы предварительной обработки могут привести к серьезному смещению.
В моей области это было бы чаще всего PCA для уменьшения размерности перед обучением классификатора. Хотя я не могу показать данные здесь, я видел, что PCA + (перекрестная проверка LDA) и перекрестная проверка (PCA + LDA) недооценивают частоту ошибок примерно на порядок . (Обычно это показатель того, что PCA нестабилен.)
Что касается аргументации «несправедливого преимущества» Элементов, то при рассмотрении дисперсии тестов taining + мы получаем функции, которые хорошо работают как с обучающими, так и с тестовыми примерами. Таким образом, мы создаем самоисполняющееся пророчество, которое является причиной чрезмерного оптимизма. Этот уклон низкий, если у вас достаточно удобные размеры выборки.
Поэтому я рекомендую подход, который немного более консервативен, чем Элементы:
- Расчеты предварительной обработки, которые учитывают более одного случая, должны быть включены в валидацию: т.е. они рассчитываются только на соответствующем обучающем наборе (а затем применяются к данным испытаний)
- Шаги предварительной обработки, которые рассматривают каждый случай отдельно (я - спектроскопист: примерами могут быть базовая коррекция и нормализация интенсивности, которая является построчной нормализацией), могут быть извлечены из перекрестной проверки, если они находятся перед первым шагом, который рассчитывает для нескольких случаев.
При этом перекрестная оценка также является лишь кратчайшим путем для проведения правильного валидационного исследования. Таким образом, вы можете поспорить с практичностью:
Вы можете проверить, дает ли рассматриваемая предварительная обработка стабильные результаты (вы можете сделать это, например, путем перекрестной проверки). Если вы найдете его совершенно стабильным уже с меньшими размерами выборки, ИМХО вы можете утверждать, что при выводе его из перекрестной проверки не будет большого смещения.
Однако, чтобы процитировать предыдущего руководителя: Время расчета не является научным аргументом.
Я часто провожу предварительный просмотр нескольких сгибов и нескольких итераций для перекрестной проверки, чтобы убедиться, что весь код (включая сводку / графики результатов), а затем оставляю его на ночь или на выходные или около того на сервере для более мелкозернистая перекрестная проверка.