У меня есть некоторые данные, и я хочу построить модель (скажем, модель линейной регрессии) из этих данных. На следующем шаге я хочу применить к модели перекрестную проверку Leave-One-Out (LOOCV), чтобы увидеть, насколько хорошо она работает.
Если я правильно понял LOOCV, я строю новую модель для каждого из моих образцов (набор тестов), используя каждый образец, кроме этого (обучающий набор). Затем я использую модель для прогнозирования набора тестов и вычисления ошибок .
На следующем этапе я объединяю все ошибки, сгенерированные с использованием выбранной функции, например, среднеквадратическая ошибка. Я могу использовать эти значения, чтобы судить о качестве (или пригодности) модели.
Вопрос: К какой модели относятся эти значения качества, и какую модель выбрать, если я нахожу показатели, сгенерированные из LOOCV, подходящими для моего случая? LOOCV рассмотрел различных моделей (где - размер выборки); какую модель мне выбрать?
- Это модель, которая использует все образцы? Эта модель никогда не была рассчитана во время процесса LOOCV!
- Это модель, которая имеет наименьшую ошибку?