Поскольку ФП назначил награду за этот вопрос, он должен привлечь определенное внимание, и, следовательно, это подходящее место для обсуждения некоторых общих идей, даже если он не отвечает на ФП напрямую.
Во-первых, имена:
а) перекрестная проверка - это общее название для всех методов оценки / измерения, в которых используется набор тестов, отличный от набора поездов. Синоним: оценки вне выборки или вне выборки. Антоним: оценка в выборке.
Оценка в выборке - это методы, которые используют некоторую информацию об обучающем наборе для оценки качества модели (не обязательно ошибка). Это очень распространено, если модель имеет высокий уклон - то есть - она делает сильные предположения о данных. В линейных моделях (модель с высоким смещением), как в примере с вопросом, каждый использует R-квадрат, AIC, BIC, отклонение, как меру качества модели - все это оценки в выборке. В SVM, например, данные соотношений в опорном векторе к количеству данных, является оценкой в выборках погрешности модели.
Существует много методов перекрестной проверки:
б) удержание является методом № 1 выше. Разделите набор на тренировку и один тест. Существует долгая история обсуждения и практики относительно размеров обучения и тестового набора.
в) k- кратный - метод № 2 выше. Довольно стандартный.
г) Оставьте один-один - метод № 3 выше.
e) начальная загрузка : если ваш набор содержит N данных, случайным образом выберите из набора N выборок WITH REPLACEMENT и используйте его в качестве обучения. Данные из исходного набора, которые не были выборками, используются в качестве тестового набора. Существуют различные способы вычисления окончательной оценки погрешности модели, которая использует как погрешность для тестового набора (вне выборки), так и ошибку для комплекта поездов (в выборке). Смотрите, например, загрузчик .632. Я думаю, что есть также формула .632+ - это формулы, которые оценивают истинную ошибку модели, используя как ошибки выборки, так и ошибки выборки.
е) Ортогональным к выбору вышеописанного метода является вопрос повторения. Все вышеперечисленные методы могут быть повторены любое количество раз, кроме «Оставить один». На самом деле можно говорить о ПОВТОРНОМ удержании или ПОВТОРНОМ k- кратном. Чтобы быть справедливым, почти всегда метод начальной загрузки используется в повторяющемся режиме.
Следующий вопрос, какой метод «лучше». Проблема в том, что значит «лучше».
1) Первый ответ заключается в том, смещен ли каждый из этих методов для оценки погрешности модели (для бесконечного количества будущих данных).
2) Второй альтернативой является то, насколько быстро или насколько хорошо каждый из этих методов сходится к истинной модельной ошибке (если они не смещены). Я считаю, что это все еще тема исследования. Позвольте мне указать на эти две статьи (за окном), но реферат дает нам некоторое понимание того, чего они пытаются достичь. Также обратите внимание, что очень часто k -fold называют «перекрестной проверкой» отдельно.
Вероятно, есть много других статей на эти темы. Это всего лишь несколько примеров.
3) Еще один аспект «лучше» заключается в следующем: учитывая конкретную меру ошибки модели, используя один из методов, описанных выше, насколько вы можете быть уверены, что правильная ошибка модели близка.
В общем, в этом случае вы хотите принять много мер ошибки и вычислить доверительный интервал (или достоверный интервал, если вы следуете байесовскому подходу). В этом случае проблема заключается в том, насколько вы можете доверять дисперсии набора показателей ошибок. Обратите внимание, что кроме метода «оставь один раз», все вышеприведенные методы дают много разных мер ( k мер для k- кратного, n мер для n- повторного удержания), и, таким образом, ты можешь измерить дисперсию (или стандартное отклонение). ) этого набора и вычислите доверительный интервал для меры ошибки.
Здесь все становится несколько сложнее. Из того, что я понимаю из статьи Нет объективной оценки дисперсии k- кратной перекрестной проверки (не за платной стеной), нельзя доверять дисперсии, которую вы получаете из k- кратного - поэтому нельзя построить хороший доверительный интервал из k - складки. Кроме того, из того, что я понимаю из бумаги Приблизительных статистических тестов для сравнения Контролируемой Классификации алгоритмов обучения (не за платный доступом), приемы , которые используют повторные меры (многократном ккратное повторное удержание - не уверен в начальной загрузке) переоценит истинную дисперсию меры ошибки (это довольно легко увидеть - поскольку вы производите выборку из конечного набора, если вы повторяете меру очень большое число раз повторяются одни и те же значения, которые сохраняют среднее значение, но уменьшают дисперсию). Таким образом, методы повторных измерений будут слишком оптимистичными по доверительному интервалу.
В этой последней статье предлагается сделать 5 повторных 2-кратных - которые он называет 5 × 2 CV - как хороший баланс многих мер (10), но не слишком много повторений.
РЕДАКТИРОВАТЬ:
Конечно, в Cross Validated есть отличные ответы на некоторые из этих вопросов (хотя иногда они не согласны между собой). Вот некоторые:
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?
Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?
Понимание начальной загрузки для проверки и выбора модели
В общем, кросс-проверка тега - это ваш друг.
Так что же является лучшим решением? Я не знаю. Я использовал 5 × 2 CV, когда мне нужно быть очень строгим, когда я должен быть уверен, что один метод лучше другого, особенно в публикациях. И я использую удержание, если я не планирую делать какие-либо измерения отклонения или стандартного отклонения, или если у меня есть ограничения по времени - в удержании есть только одна модель обучения .