Просто добавить немного к ответу @SubravetiSuraj (+1)
Перекрестная проверка дает пессимистически предвзятую оценку эффективности, потому что большинство статистических моделей улучшится, если обучающий набор будет увеличен. Это означает, что перекрестная проверка в k-кратном размере оценивает производительность модели, обученной на наборе данных 100 * (k-1) / k% доступных данных, а не на 100%. Таким образом, если вы выполняете перекрестную проверку для оценки производительности, а затем используете модель, обученную на всех данных для оперативного использования, она будет работать немного лучше, чем предполагает оценка перекрестной проверки.
Перекрестная проверка «оставь один раз» примерно беспристрастна , потому что разница в размерах между тренировочным набором, используемым в каждом сгибе, и всем набором данных - это только один шаблон. Об этом есть статья Лунца и Браиловского.
Лунц, Александр и Виктор Браиловские. «Об оценке символов, полученных в статистической процедуре распознавания». Техническая Кибернетика 3,6 (1969): 6-12.
смотрите также
Оценка коэффициентов ошибок в дискриминантном анализе Питер А. Лахенбрух и М. Рэй Микки. 10, вып. 1,1968
Однако, несмотря на то, что перекрестная проверка по принципу «один-один-один» является приблизительно несмещенной, она имеет тенденцию к высокой дисперсии (поэтому вы получите очень разные оценки, если вы повторите оценку с разными исходными выборками данных из одного и того же распределения). Поскольку погрешность оценки представляет собой комбинацию отклонения и дисперсии, то, будет ли перекрестная проверка с одним пропуском лучше, чем 10-кратная перекрестная проверка, зависит от обеих величин.
Теперь дисперсия в подгонке модели имеет тенденцию быть выше, если она подобрана для небольшого набора данных (так как она более чувствительна к любым помехам / артефактам выборки в конкретной используемой обучающей выборке). Это означает, что 10-кратная перекрестная проверка, скорее всего, будет иметь высокую дисперсию (а также более высокий уклон), если у вас есть только ограниченный объем данных, так как размер обучающего набора будет меньше, чем для LOOCV. Таким образом, перекрестная проверка в k-кратном порядке также может иметь проблемы с отклонениями, но по другой причине. Вот почему LOOCV часто лучше, когда размер набора данных невелик.
Однако основная причина использования LOOCV, на мой взгляд, заключается в том, что он является недорогим в вычислительном отношении для некоторых моделей (таких как линейная регрессия, большинство методов ядра, классификаторы ближайших соседей и т. Д.), И, если набор данных не был очень маленьким, я бы использовал 10-кратная перекрестная проверка, если она вписывается в мой вычислительный бюджет, или, что еще лучше, начальная оценка и пакетирование.