Сначала позвольте мне прояснить термины, используемые в вопросе, насколько я понимаю. Обычно мы начинаем с одного обучающего набора данных, используем перекрестную проверку в k-кратном размере для проверки различных моделей (или наборов гиперпараметров) и выбираем лучшую модель с наименьшей ошибкой CV. Таким образом, «оценка перекрестной проверки ошибки теста» означает использование самой низкой ошибки CV в качестве ошибки теста, а не только ошибку CV случайной модели (что обсуждается в случае cbeleites, но это не то, что мы обычно делаем). «Фактическая ошибка теста», о которой идет речь, - это ошибка, которую мы получаем при применении наилучшей модели CV к бесконечному набору тестовых данных, при условии, что мы можем ее получить. Ошибка CV зависит от конкретного набора данных, который у нас есть, а фактическая ошибка теста зависит от выбранной наилучшей модели CV, которая также зависит от набора данных обучения. Таким образом, разница между ошибкой CV и ошибкой теста зависит от разных наборов обучающих данных. Тогда возникает вопрос: если мы повторим вышеописанный процесс много раз с различными наборами обучающих данных и усредним две ошибки соответственно, почему средняя ошибка CV будет ниже средней ошибки теста, то есть ошибка CV будет смещена вниз? Но до этого всегда ли это происходит?
Обычно невозможно получить много обучающих наборов данных и тестовых наборов данных, содержащих бесконечные строки. Но это можно сделать, используя данные, сгенерированные с помощью моделирования. В главе 7 «Оценка и отбор моделей» книги «Элементы статистического обучения» Тревора Хасти и др. Сюда входит такой имитационный эксперимент.
Вывод заключается в том, что, используя CV или начальную загрузку, «... оценка ошибки теста для конкретного обучающего набора в общем случае непроста, учитывая только данные из этого же обучающего набора». Под «не просто» они подразумевают, что ошибка CV может быть либо занижена, либо переоценена истинная ошибка теста в зависимости от разных наборов обучающих данных, то есть дисперсия, вызванная разными наборами обучающих данных, довольно велика. Как насчет предвзятости? Протестированные ими kNN и линейная модель почти не смещены: ошибка CV переоценивает истинную ошибку теста на 0-4%, но некоторые модели, такие как деревья, перекрестная проверка и загрузочный ремень, могут недооценивать истинную ошибку на 10%, потому что поиск лучшего дерева сильно зависит от набора проверки ".
Подводя итог, можно сказать, что для конкретного набора обучающих данных ошибка CV может быть выше или ниже, чем истинная ошибка теста. Для смещения средняя ошибка CV может варьироваться от немного выше до намного ниже, чем средняя истинная ошибка теста, в зависимости от методов моделирования.
Причина недооценки, как упоминалось выше, заключается в том, что выбор гиперпараметров для наилучшей модели в конечном итоге зависит от конкретного набора обучающих данных, который мы получаем. Немного подробнее. Пусть лучшими гиперпараметрами будет M1 в этом конкретном учебном наборе данных. Но M1 может быть не лучшим гиперпараметром в другом наборе обучающих данных, что означает, что минимальная ошибка CV меньше, чем ошибка CV от M1. Таким образом, ожидаемые ошибки CV, которые мы получаем в процессе обучения, скорее всего, меньше ожидаемой ошибки CV M1. Единственный случай, когда минимальная ошибка CV в конкретном наборе обучающих данных не смещена, - это когда лучшая модель всегда является лучшей, независимо от обучающих наборов данных. С другой стороны, ошибка CV может также немного переоценить истинную ошибку теста, как обсуждалось cbeleites. Это связано с тем, что k-кратная ошибка CV получается при использовании немного меньших обучающих данных для обучения модели (для 10-кратного cv, используйте 90% -ные данные), она смещена вверх относительно истинной ошибки, но не сильно. Таким образом, есть два отклонения, идущие в разных направлениях Поскольку метод моделирования имеет тенденцию к переобучению, использование менее кратного CV, например, 5-кратного по сравнению с 10-кратным, может привести к меньшему смещению.
Все это, как говорится, на практике не очень помогает: обычно мы получаем только один «конкретный» набор данных. если мы оставим от 15% до 30% в качестве тестовых данных и выберем лучшую модель по CV, а в качестве обучающих данных, скорее всего, ошибка CV будет отличаться от ошибки теста, так как обе будут отличаться от ожидаемой ошибки теста. Мы можем быть подозрительными, если ошибка CV намного ниже, чем ошибка теста, но мы не будем знать, какая из них ближе к истинной ошибке теста. Лучшая практика может быть просто представить обе метрики.