В некоторых лекциях и уроках, которые я видел, они предлагают разделить ваши данные на три части: обучение, проверка и тестирование. Но не ясно, как следует использовать набор тестовых данных, и как этот подход лучше, чем перекрестная проверка по всему набору данных.
Допустим, мы сохранили 20% наших данных в качестве тестового набора. Затем мы берем остаток, разбиваем его на k сгибов и, используя перекрестную проверку, находим модель, которая делает лучший прогноз на неизвестных данных из этого набора данных. Допустим, лучшая модель, которую мы нашли, дает нам точность 75% .
Различные учебные пособия и множество вопросов на различных сайтах вопросов и ответов говорят о том, что теперь мы можем проверить нашу модель по сохраненному (тестовому) набору данных. Но я до сих пор не могу понять, как именно это делается, и какой в этом смысл.
Допустим, у нас есть точность 70% для тестового набора данных. Так что же нам делать дальше? Пробуем ли мы другую модель, а затем другую, пока не получим высокий балл в нашем тестовом наборе данных? Но в этом случае действительно похоже, что мы просто найдем модель, которая соответствует нашему ограниченному (всего 20%) тестов . Это не значит, что мы найдем модель, которая является лучшей в целом.
Кроме того, как мы можем рассматривать эту оценку как общую оценку модели, если она рассчитывается только на ограниченном наборе данных? Если этот показатель низкий, возможно, нам не повезло и мы выбрали «плохие» данные теста.
С другой стороны, если мы используем все имеющиеся у нас данные, а затем выбираем модель, используя перекрестную проверку в k-кратном размере, мы найдем модель, которая дает наилучший прогноз по неизвестным данным из всего набора данных, который у нас есть.