Всегда ли полезно тренироваться с полным набором данных после перекрестной проверки ? Другими словами, можно ли тренироваться со всеми образцами в моем наборе данных и не иметь возможности проверить, подходит ли этот конкретный пример ?
Некоторые предыстории проблемы:
Скажем, у меня есть семейство моделей, параметризованных . Скажем также, что у меня есть набор из точек данных и что я делаю выбор модели с перекрестной проверкой в k-кратном порядке, чтобы выбрать модель, которая лучше всего обобщает данные. N
Для выбора модели я могу выполнить поиск (например, поиск по сетке) в , например, запустив перекрестную проверку по k-кратному критерию для каждого кандидата. В каждой из перекрестных проверок я получаю изученную модель . βα
Смысл перекрестной проверки заключается в том, что для каждой из этих складок я могу проверить, была ли изученная модель более подходящей, проверяя ее на «невидимых данных». В зависимости от результатов я мог выбрать модель изученную для параметров которые лучше всего обобщались при перекрестной проверке в поиске по сетке.→ α лучший
Теперь, говорят , что после выбора модели , я хотел бы использовать все те точек в моем наборе данных , и мы надеемся узнать лучшую модель. Для этого я мог бы использовать параметры соответствующие модели, которую я выбрал при выборе модели, а затем, после обучения полному набору данных, я получил бы новую изученную модель . Проблема в том, что, если я использую все точки в моем наборе данных для обучения, я не смогу проверить, переходит ли эта новая изученная модель на какие-либо невидимые данные. Как правильно обдумать эту проблему?→ & alpha ; б е с т β е у л л β е у л л