Если вы берете джекнифинг не только для того, чтобы включить исключение, но и для любого рода повторной выборки без замены, такой как процедуры с кратным сгибом , я считаю это приемлемым вариантом и регулярно его использую, например, в
Beleites et al. : Рамановская спектроскопическая классификация тканей астроцитомы: использование мягкой справочной информации. Anal Bioanal Chem, 2011, 400, 2801-2816k
см. также: доверительный интервал для перекрестной проверки точности классификации
Я избегаю LOO по нескольким причинам и вместо этого использую повторяющуюся / повторяющуюся схему кратности. В моей области (химия / спектроскопия / хемометрика) перекрестная проверка гораздо более распространена, чем проверка вне начальной загрузки. Для наших приложений для обработки данных / типов мы обнаружили, что кратная итеративная перекрестная проверка в кратном размере и итераций оценок производительности вне начальной загрузки имеют очень похожую общую ошибку [Beleites et al. : Уменьшение дисперсии в оценке ошибки классификации с использованием разреженных наборов данных. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .я к я ⋅ кkiki⋅k
Особое преимущество, которое я вижу при рассмотрении итеративных схем перекрестной проверки над начальной загрузкой, заключается в том, что я могу очень легко получить показатели неопределенности стабильности / модели, которые могут быть объяснены интуитивно, и в ней выделены две разные причины неопределенности дисперсии в измерении производительности, которые более тесно связаны в измерения вне начальной загрузки.
Одна из рассуждений, которая заставляет меня пересекать валидацию / джекнифинг, заключается в проверке надежности модели: перекрестная валидация довольно прямо соответствует вопросам типа «Что произойдет с моей моделью, если я обменю случаев на новых случаев?» х xxили "Насколько устойчива моя модель против нарушения данных обучения путем обмена случаями?"хx Это как бы применимо и к самозагрузке, но не так напрямую.
Обратите внимание, что я не пытаюсь получить доверительные интервалы, потому что мои данные по своей природе кластеризованы ( спектры пациентов), поэтому я предпочитаю сообщатьп р « н ыnsnp≪ns
(консервативный) биномиальный доверительный интервал с использованием средней наблюдаемой производительности и качестве размера выборки иnp
дисперсия я наблюдаю между итерациями кросса проверки. После сгибов каждый случай проверяется ровно один раз, хотя и разными суррогатными моделями. Таким образом, любое изменение, наблюдаемое между прогонами должно быть вызвано нестабильностью модели.к яiki
Обычно, т. Е. Если модель хорошо настроена, 2. требуется только для того, чтобы показать, что она намного меньше, чем дисперсия в 1. и, следовательно, модель достаточно стабильна. Если 2. оказывается не пренебрежимо малым, настало время рассмотреть агрегированные модели: агрегирование моделей помогает только для дисперсии, вызванной нестабильностью модели, она не может уменьшить неопределенность дисперсии в измерении производительности, обусловленную конечным числом тестовых случаев. ,
Обратите внимание, что для построения доверительных интервалов производительности для таких данных я бы, по крайней мере, учел, что дисперсия, наблюдаемая между прогонами перекрестной проверки, представляет собой среднее из моделей этой нестабильности, т.е. я бы сказал, дисперсия нестабильности модели является наблюдаемая дисперсии между поперечинами прогонами проверки; плюс дисперсия из-за конечного числа случаев - для показателей эффективности классификации (попадание / ошибка) это биномиальное. Для непрерывных измерений я бы попытался вывести дисперсию из дисперсии прогона перекрестной проверки, , и оценить дисперсию типа нестабильности для моделей, полученную изк к ⋅ к кikk⋅kk
Преимущество Перекрёстной Проверки здесь является то , что вы получите четкое разделение между неопределенностью , вызванной моделью нестабильностью и неопределенностью , вызванной конечным числом тестов. Соответствующим недостатком является, конечно, то, что, если вы забудете принять во внимание конечное число реальных случаев, вы сильно недооцените истинную неопределенность. Однако это может произойти и для начальной загрузки (хотя и в меньшей степени).
Пока что рассуждения сосредоточены на измерении производительности для модели, которую вы выводите для данного набора данных. Если вы считаете , есть набор данных для данного приложения и данного образцом размера, есть третий вклад в дисперсию , которая принципиально не может быть измерена с помощью передискретизации проверки, смотрите , например , Bengio & Grandvalet: Нет несмещенная оценка дисперсии по К-Fold Креста -Валидация, Журнал исследований машинного обучения, 5, 1089-1105 (2004). У нас также есть цифры, показывающие эти три вклада в Beleites et al. : Планирование размера выборки для классификационных моделей., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Я думаю, что то, что здесь происходит, является результатом предположения о том, что повторная выборка похожа на разрушение полной новой выборки.
Это важно, если нужно сравнивать алгоритмы / стратегии / эвристики построения модели, а не строить конкретную модель для приложения и проверять правильность этой модели.