В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать модели со слишком большим количеством переменных. В симуляционном исследовании Шао показывает, что даже для всего лишь 40 наблюдений LOOCV может уступать другим методам перекрестной проверки.
Эта статья несколько противоречива и несколько игнорируется (через 10 лет после ее публикации мои коллеги по хемометрии никогда не слышали о ней и с удовольствием использовали LOOCV для выбора переменных ...). Существует также убеждение (я виновен в этом), что его результаты выходят за рамки первоначальной ограниченной области.
Тогда возникает вопрос: насколько далеко распространяются эти результаты? Применимы ли они к следующим проблемам?
- Выбор переменной для логистической регрессии / GLM?
- Выбор переменной для классификации Fisher LDA?
- Выбор переменной с использованием SVM с конечным (или бесконечным) пространством ядра?
- Сравнение моделей в классификации, скажем SVM с использованием разных ядер?
- Сравнение моделей в линейной регрессии, скажем, сравнивая MLR с регрессией Риджа?
- и т.п.