Существуют ли современные способы использования джекнифинга?

Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный джекнифинг по сравнению с начальной загрузкой, и могут ли результаты ножевого ножа обеспечить предварительное понимание перед разработкой более сложной начальной загрузки?

Некоторый контекст: друг использует алгоритм машинного обучения черного ящика ( MaxEnt ), чтобы классифицировать географические данные, которые являются «только присутствием» или «только положительными». Общая оценка модели обычно проводится с использованием перекрестной проверки и кривых ROC. Однако она использует выходные данные модели для получения единственного числового описания выходных данных модели и хотела бы, чтобы вокруг этого числа был доверительный интервал; Джекнифинг представляется разумным способом охарактеризовать неопределенность вокруг этого значения. Начальная загрузка не выглядит релевантной, потому что каждая точка данных является уникальным местоположением на карте, которое не может быть повторно выбрано с заменой. Сама программа моделирования могла бы в конечном итоге обеспечить то, что ей нужно; Тем не менее, меня интересует, может ли когда-нибудь пригодится джекнифинг.

— N Брауэр
источник

Такие картографические приложения - оценки по дискретным выборочным точкам - как раз те, где я отмечал широкое использование джекнифинга по той причине, которую вы даете. Например, это стандартная процедура, выполняемая перед выполнением кригинга.

— whuber

В некоторых низких настройках выборки, поскольку при начальной загрузке выборки с заменой вся матрица данных может стать единичной, поэтому многие модели невозможно подобрать.

— rep_ho

Если вы берете джекнифинг не только для того, чтобы включить исключение, но и для любого рода повторной выборки без замены, такой как процедуры с кратным сгибом , я считаю это приемлемым вариантом и регулярно его использую, например, в Beleites et al. : Рамановская спектроскопическая классификация тканей астроцитомы: использование мягкой справочной информации. Anal Bioanal Chem, 2011, 400, 2801-2816 $k$

см. также: доверительный интервал для перекрестной проверки точности классификации

Я избегаю LOO по нескольким причинам и вместо этого использую повторяющуюся / повторяющуюся схему кратности. В моей области (химия / спектроскопия / хемометрика) перекрестная проверка гораздо более распространена, чем проверка вне начальной загрузки. Для наших приложений для обработки данных / типов мы обнаружили, что кратная итеративная перекрестная проверка в кратном размере и итераций оценок производительности вне начальной загрузки имеют очень похожую общую ошибку [Beleites et al. : Уменьшение дисперсии в оценке ошибки классификации с использованием разреженных наборов данных. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] . $k$ $i$ $k$ $i \cdot k$

Особое преимущество, которое я вижу при рассмотрении итеративных схем перекрестной проверки над начальной загрузкой, заключается в том, что я могу очень легко получить показатели неопределенности стабильности / модели, которые могут быть объяснены интуитивно, и в ней выделены две разные причины неопределенности дисперсии в измерении производительности, которые более тесно связаны в измерения вне начальной загрузки.
Одна из рассуждений, которая заставляет меня пересекать валидацию / джекнифинг, заключается в проверке надежности модели: перекрестная валидация довольно прямо соответствует вопросам типа «Что произойдет с моей моделью, если я обменю случаев на новых случаев?» $x$ $x$ или "Насколько устойчива моя модель против нарушения данных обучения путем обмена случаями?" $x$ Это как бы применимо и к самозагрузке, но не так напрямую.

Обратите внимание, что я не пытаюсь получить доверительные интервалы, потому что мои данные по своей природе кластеризованы ( спектры пациентов), поэтому я предпочитаю сообщать $n_s$ $n_p \ll n_s$

(консервативный) биномиальный доверительный интервал с использованием средней наблюдаемой производительности и качестве размера выборки и $n_p$
дисперсия я наблюдаю между итерациями кросса проверки. После сгибов каждый случай проверяется ровно один раз, хотя и разными суррогатными моделями. Таким образом, любое изменение, наблюдаемое между прогонами должно быть вызвано нестабильностью модели. $i$ $k$ $i$

Обычно, т. Е. Если модель хорошо настроена, 2. требуется только для того, чтобы показать, что она намного меньше, чем дисперсия в 1. и, следовательно, модель достаточно стабильна. Если 2. оказывается не пренебрежимо малым, настало время рассмотреть агрегированные модели: агрегирование моделей помогает только для дисперсии, вызванной нестабильностью модели, она не может уменьшить неопределенность дисперсии в измерении производительности, обусловленную конечным числом тестовых случаев. ,

Обратите внимание, что для построения доверительных интервалов производительности для таких данных я бы, по крайней мере, учел, что дисперсия, наблюдаемая между прогонами перекрестной проверки, представляет собой среднее из моделей этой нестабильности, т.е. я бы сказал, дисперсия нестабильности модели является наблюдаемая дисперсии между поперечинами прогонами проверки; плюс дисперсия из-за конечного числа случаев - для показателей эффективности классификации (попадание / ошибка) это биномиальное. Для непрерывных измерений я бы попытался вывести дисперсию из дисперсии прогона перекрестной проверки, , и оценить дисперсию типа нестабильности для моделей, полученную из $i$ $k$ $k \cdot$ $k$ $k$

Преимущество Перекрёстной Проверки здесь является то , что вы получите четкое разделение между неопределенностью , вызванной моделью нестабильностью и неопределенностью , вызванной конечным числом тестов. Соответствующим недостатком является, конечно, то, что, если вы забудете принять во внимание конечное число реальных случаев, вы сильно недооцените истинную неопределенность. Однако это может произойти и для начальной загрузки (хотя и в меньшей степени).

Пока что рассуждения сосредоточены на измерении производительности для модели, которую вы выводите для данного набора данных. Если вы считаете , есть набор данных для данного приложения и данного образцом размера, есть третий вклад в дисперсию , которая принципиально не может быть измерена с помощью передискретизации проверки, смотрите , например , Bengio & Grandvalet: Нет несмещенная оценка дисперсии по К-Fold Креста -Валидация, Журнал исследований машинного обучения, 5, 1089-1105 (2004). У нас также есть цифры, показывающие эти три вклада в Beleites et al. : Планирование размера выборки для классификационных моделей., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Я думаю, что то, что здесь происходит, является результатом предположения о том, что повторная выборка похожа на разрушение полной новой выборки.

Это важно, если нужно сравнивать алгоритмы / стратегии / эвристики построения модели, а не строить конкретную модель для приложения и проверять правильность этой модели.

— cbeleites недоволен SX
источник