Я думаю, что принятый в настоящее время ответ является неполным неудачным способом. Я не согласен с предложением
Целью перекрестной проверки является определение параметров обучения, которые хорошо обобщают выборки населения, которые мы изучаем в каждом случае.
Это действительно одно из очень важных приложений перекрестной проверки, но не единственное. Обычно вы хотите сделать две вещи:
- Построить лучшую модель, которую вы можете
- Получите точное представление о том, насколько хорошо он работает
Теперь, чтобы выполнить задачу 1 в зависимости от вашего алгоритма, вам может понадобиться настроить некоторые гиперпараметры, и это действительно часто делается путем перекрестной проверки. Но это еще не поможет вам в достижении цели 2. Для этого вам нужно в основном внедрить перекрестную проверку, например:
- Разделите все данные на n сгибов
- Для каждого снова сложите отдельные тренировочные данные в подпорки
- Используйте перекрестную проверку на подгибах, чтобы узнать хорошие гиперпараметры
- С помощью этих гиперпараметров строят модель на тренировочных данных этого сгиба
- Протестируйте модель на тестовых данных
- Повторите на следующий раз
Чтобы построить хорошую модель, вам просто нужна внутренняя перекрестная проверка. Вам все равно нужно будет сделать это, чтобы получить хорошую модель. Но чтобы получить точную оценку производительности вашей модели, вам необходимо выполнить весь процесс построения модели внутри схемы перекрестной проверки. Это также включает в себя такие шаги, как вменение и т. Д.