Вы действительно правильно описали способ работы с перекрестной проверкой. Фактически, вам «повезло», если в конце вы установили разумную валидацию, потому что часто перекрестная валидация используется для оптимизации модели, но «реальной» валидации не делается.
Как сказал @Simon Stelling в своем комментарии, перекрестная валидация приведет к снижению оценочных ошибок (что имеет смысл, потому что вы постоянно повторно используете данные), но, к счастью, это относится ко всем моделям, поэтому, исключая катастрофу (т.е. ошибки уменьшаются только немного для «плохой» модели и больше для «хорошей» модели), выбор модели, которая лучше всего работает по перекрестному проверенному критерию, обычно также будет лучшим «для реальной».
Метод, который иногда используется для некоторой коррекции для более низких ошибок, особенно если вы ищете экономные модели, заключается в выборе наименьшей модели / простейшего метода, для которого перекрестная проверка ошибки находится в пределах одного SD, из (перекрестного подтверждения) оптимума. Как и сама кросс-валидация, это эвристика, поэтому ее следует использовать с некоторой осторожностью (если это вариант: составьте график ваших ошибок в зависимости от параметров настройки: это даст вам представление о том, есть ли у вас приемлемые результаты)
Учитывая нисходящее смещение ошибок, важно не публиковать ошибки или другие показатели производительности от перекрестной проверки, не упоминая, что они происходят от перекрестной проверки (хотя, по правде говоря, я видел слишком много публикаций, в которых не упоминается, что мера производительности была получена из проверки производительности исходного набора данных - так что упоминание перекрестной проверки действительно делает ваши результаты более значимыми ). Для вас это не будет проблемой, так как у вас есть набор проверки.
Последнее предупреждение: если в результате подгонки вашей модели появятся какие-то близкие конкуренты, будет полезно посмотреть на их характеристики после проверки, но не основывайте на этом свой окончательный выбор модели: вы можете в лучшем случае использовать это, чтобы успокоить совесть, но ваша «окончательная» модель должна быть выбрана еще до того, как вы посмотрите на набор валидации.
В ответ на ваш второй вопрос: я полагаю, что Саймон дал вам все ответы, которые вам нужны, в своем комментарии, но чтобы завершить картину: как часто, это компромисс дисперсии, которая вступает в игру. Если вы знаете, что в среднем вы достигнете правильного результата (непредвзятости), цена, как правило, заключается в том, что каждый из ваших индивидуальных расчетов может лежать довольно далеко от него (высокая дисперсия). В старые времена беспристрастность была nec plus ultra, в нынешние дни иногда приходилось принимать (небольшое) смещение (поэтому вы даже не знаете, что среднее из ваших вычислений приведет к правильному результату), если оно приводит к снижению дисперсии. Опыт показал, что баланс приемлем с 10-кратным перекрестным подтверждением. Для вас смещение будет проблемой только для вашей модели оптимизации, так как вы можете оценить критерий впоследствии (беспристрастно) на проверочном наборе. Таким образом, нет оснований не использовать перекрестную проверку.