Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?

23

Я прочитал много исследовательских работ о классификации настроений и смежных темах.

Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это?

Каковы преимущества / недостатки этого подхода, особенно для тех, кто проводит исследования?

classification cross-validation

— user18075
источник

3

Вы уверены, что отдельное тестирование не проводилось?

— Дуглас Заре

17

Это не проблема, если резюме вложено , то есть все оптимизации, выбор функций и выбор моделей, независимо от того, используют ли они сами CV или нет, заключены в одно большое резюме.

Как это соотносится с наличием дополнительной проверки? В то время как набор проверки обычно представляет собой просто более или менее случайно выбранную часть целых данных, он просто эквивалент одной итерации CV. С этой целью это на самом деле худший метод, потому что он может быть легко предвзятым (надеюсь) удачно / неудачно выбранным или выбранным вишневым набором проверки.

Единственным исключением из этого являются временные ряды и другие данные, для которых важен порядок объектов; но они требуют особого отношения в любом случае.

— гала
источник

16

Основная причина заключается в том, что оценщик перекрестной проверки в k-кратном порядке имеет меньшую дисперсию, чем оценщик с единственным набором данных об удержании, что может быть очень важно, если объем доступных данных ограничен. Если у вас есть один набор задержки, где 90% данных используются для обучения, а 10% - для тестирования, набор тестов очень мал, поэтому в оценке производительности для разных выборок данных будут существовать большие различия, или для разных разделов данных для формирования обучающих и тестовых наборов. Проверка в k-кратном порядке уменьшает эту дисперсию путем усреднения по k различным разделам, поэтому оценка производительности менее чувствительна к разделению данных. Вы можете пойти еще дальше, повторив перекрестную проверку в k раз, где перекрестная проверка выполняется с использованием различных разделов данных для формирования k подмножеств,

Тем не менее, обратите внимание, что все этапы процедуры подбора модели (выбор модели, выбор признаков и т. Д.) Должны выполняться независимо в каждом цикле процедуры перекрестной проверки, иначе полученная оценка производительности будет смещена оптимистично.

— Дикран Сумчатый
источник

9

[ИЗМЕНЕНО в свете комментария]

Я думаю, что есть проблема, если вы используете результаты CV для выбора среди нескольких моделей.

CV позволяет вам использовать весь набор данных для обучения и тестирования одной модели / метода, а также иметь разумное представление о том, насколько хорошо он будет обобщаться. Но если вы сравниваете несколько моделей, мой инстинкт заключается в том, что при сравнении моделей используется дополнительный уровень изоляции теста поезда, который дает вам CV, поэтому конечный результат не будет разумной оценкой точности выбранной модели.

Поэтому я предполагаю, что если вы создадите несколько моделей и выберете одну из них на основе ее резюме, вы будете слишком оптимистичны в отношении того, что нашли. Чтобы проверить, насколько хорошо обобщается победитель, потребуется еще один набор для проверки.

— Wayne
источник

Спасибо. Это верно. Но мой вопрос был особенно о том, почему в статьях не хватает окончательной проверки? Есть ли правильная причина? Это меньше данных или потому что резюме хорошо работает и отдельная проверка не нужна?

— user18075

5

Подход разделения данных крайне неэффективен. До тех пор, пока наборы обучения и тестов не будут огромными, среднеквадратическая ошибка для оценки вероятной будущей производительности прогностической модели будет меньше при начальной загрузке или при 100 повторениях 10-кратной перекрестной проверки, при условии, что процедуры повторной выборки имели доступ ко всем этапам моделирования. что участие . Используйте разделение данных, когда вам также необходимо проверить процесс измерения, инструмент обследования или другие процедуры, связанные со значением данных. Хорошее использование разделения данных - это когда инструменты варьируются в зависимости от страны.

Y

$Y$

— Фрэнк Харрелл

7

По моему опыту, основная причина, как правило, в том, что вам не хватает образцов.
В моей области (классификация биологических / медицинских образцов) иногда набор тестов хранится отдельно, но часто он включает лишь несколько случаев. В этом случае доверительные интервалы обычно слишком широки, чтобы их можно было использовать.
Другое преимущество повторной / повторной перекрестной проверки или проверки вне начальной загрузки состоит в том, что вы создаете кучу «суррогатных» моделей. Предполагается, что они равны. Если это не так, режимы нестабильны. Вы можете измерить эту нестабильность (в отношении обмена несколькими примерами обучения), сравнивая либо сами суррогатные модели, либо прогнозы, которые делают суррогатные модели для одного и того же случая.
Эта статья Esbensen & Geladi дает хорошее обсуждение некоторых ограничений перекрестной проверки.
Вы можете позаботиться о большинстве из них, но одним важным моментом, который не может быть решен с помощью проверки повторной выборки, является дрейф, связанный с точкой mbq:

Единственным исключением являются временные ряды и другие данные, для которых важен порядок объектов.

Дрейф означает, что, например, реакция прибора / истинная калибровка медленно изменяются со временем. Таким образом, ошибка обобщения для неизвестных случаев может быть не такой, как для неизвестных будущих случаев. Вы получите такие инструкции, как «повторять калибровку ежедневно / еженедельно / ...», если вы обнаружите дрейф во время проверки, но для этого необходимо, чтобы наборы тестов систематически собирались позже данных обучения.
(Вы можете сделать «специальные» сплиты, которые принимают во внимание время сбора данных, если ваш эксперимент спланирован в соответствии с требованиями, но обычно это не покрывает столько времени, сколько вы хотите проверить на предмет обнаружения дрейфа)

— cbeleites поддерживает Монику
источник