Джекниф против LOOCV


15

Есть ли какая-то разница между складным ножом и перекрестной проверкой? Процедура кажется идентичной, я что-то упустил?

Ответы:


11

При перекрестной проверке вы вычисляете статистику по исключенным выборкам. Чаще всего вы прогнозируете пропущенные выборки по модели, построенной на сохраненных выборках. В джекнифинге вы вычисляете статистику только из сохраненных образцов.


4
Я не понимаю, как этот ответ говорит с LOOCV в оригинальном вопросе. В каком смысле можно «вычислить статистику» по одному пропущенному наблюдению?
Алексис

12

Джекниф часто ссылается на 2 связанных, но разных процесса, оба из которых основаны на подходе «один-один-один-один», что приводит к этой путанице.

В одном контексте складной нож можно использовать для оценки параметров популяции и их стандартных ошибок. Например, чтобы использовать подход складного ножа для оценки наклона и пересечения простой регрессионной модели, можно:

  1. Оцените уклон и перехватите, используя все доступные данные.
  2. Оставьте 1 наблюдение и оцените наклон и точку пересечения (также известную как «частичная оценка» коэффициентов).
  3. Вычислите разницу между «частичной оценкой» и «всеми данными» оценки наклона и точки пересечения (также известной как «псевдо-значение» коэффициентов).
  4. Повторите шаги 2 и 3 для всего набора данных.
  5. Вычислите среднее значение псевдо-значений для каждого коэффициента - это оценки наклона и точки пересечения

Псевдо-значения и оценки коэффициентов со складным ножом также могут использоваться для определения стандартных ошибок и, таким образом, доверительных интервалов. Обычно этот подход дает более широкие доверительные интервалы для коэффициентов, потому что это лучший, более консервативный показатель неопределенности. Кроме того, этот подход также может быть использован для получения оценки смещения складного ножа для коэффициентов.

В другом контексте складной нож используется для оценки производительности модели. В этом случае складной нож = перекрестная валидация. Оба относятся к тому, чтобы исключить одно наблюдение из набора калибровочных данных, откалибровать модель и предсказать пропущенное наблюдение. По сути, каждое наблюдение прогнозируется с использованием его «частичных оценок» предикторов.

Вот небольшая заметка о складном ноже, которую я нашел в Интернете: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf


1
Если я не ошибаюсь (и я вполне могу быть таковым), ваш первый контекст описывает перекрестную проверку « один-на-один» .
Алексис

2
Я просто разделял идеи оценки параметров с использованием LOO против оценки значения, которое было опущено (как в LOOCV). Я вижу их как два связанных, но немного разных процесса, но, может быть, оба они могут называться LOOCV? Я также мог ошибаться.
ОСКК
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.