Существуют ли современные способы использования джекнифинга?


12

Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный джекнифинг по сравнению с начальной загрузкой, и могут ли результаты ножевого ножа обеспечить предварительное понимание перед разработкой более сложной начальной загрузки?

Некоторый контекст: друг использует алгоритм машинного обучения черного ящика ( MaxEnt ), чтобы классифицировать географические данные, которые являются «только присутствием» или «только положительными». Общая оценка модели обычно проводится с использованием перекрестной проверки и кривых ROC. Однако она использует выходные данные модели для получения единственного числового описания выходных данных модели и хотела бы, чтобы вокруг этого числа был доверительный интервал; Джекнифинг представляется разумным способом охарактеризовать неопределенность вокруг этого значения. Начальная загрузка не выглядит релевантной, потому что каждая точка данных является уникальным местоположением на карте, которое не может быть повторно выбрано с заменой. Сама программа моделирования могла бы в конечном итоге обеспечить то, что ей нужно; Тем не менее, меня интересует, может ли когда-нибудь пригодится джекнифинг.


4
Такие картографические приложения - оценки по дискретным выборочным точкам - как раз те, где я отмечал широкое использование джекнифинга по той причине, которую вы даете. Например, это стандартная процедура, выполняемая перед выполнением кригинга.
whuber

В некоторых низких настройках выборки, поскольку при начальной загрузке выборки с заменой вся матрица данных может стать единичной, поэтому многие модели невозможно подобрать.
rep_ho

Ответы:


4

Если вы берете джекнифинг не только для того, чтобы включить исключение, но и для любого рода повторной выборки без замены, такой как процедуры с кратным сгибом , я считаю это приемлемым вариантом и регулярно его использую, например, в Beleites et al. : Рамановская спектроскопическая классификация тканей астроцитомы: использование мягкой справочной информации. Anal Bioanal Chem, 2011, 400, 2801-2816k

см. также: доверительный интервал для перекрестной проверки точности классификации


Я избегаю LOO по нескольким причинам и вместо этого использую повторяющуюся / повторяющуюся схему кратности. В моей области (химия / спектроскопия / хемометрика) перекрестная проверка гораздо более распространена, чем проверка вне начальной загрузки. Для наших приложений для обработки данных / типов мы обнаружили, что кратная итеративная перекрестная проверка в кратном размере и итераций оценок производительности вне начальной загрузки имеют очень похожую общую ошибку [Beleites et al. : Уменьшение дисперсии в оценке ошибки классификации с использованием разреженных наборов данных. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .я к я кkikik

Особое преимущество, которое я вижу при рассмотрении итеративных схем перекрестной проверки над начальной загрузкой, заключается в том, что я могу очень легко получить показатели неопределенности стабильности / модели, которые могут быть объяснены интуитивно, и в ней выделены две разные причины неопределенности дисперсии в измерении производительности, которые более тесно связаны в измерения вне начальной загрузки.
Одна из рассуждений, которая заставляет меня пересекать валидацию / джекнифинг, заключается в проверке надежности модели: перекрестная валидация довольно прямо соответствует вопросам типа «Что произойдет с моей моделью, если я обменю случаев на новых случаев?» х xxили "Насколько устойчива моя модель против нарушения данных обучения путем обмена случаями?"хx Это как бы применимо и к самозагрузке, но не так напрямую.

Обратите внимание, что я не пытаюсь получить доверительные интервалы, потому что мои данные по своей природе кластеризованы ( спектры пациентов), поэтому я предпочитаю сообщатьп р « н ыnsnpns

  1. (консервативный) биномиальный доверительный интервал с использованием средней наблюдаемой производительности и качестве размера выборки иnp

  2. дисперсия я наблюдаю между итерациями кросса проверки. После сгибов каждый случай проверяется ровно один раз, хотя и разными суррогатными моделями. Таким образом, любое изменение, наблюдаемое между прогонами должно быть вызвано нестабильностью модели.к яiki

Обычно, т. Е. Если модель хорошо настроена, 2. требуется только для того, чтобы показать, что она намного меньше, чем дисперсия в 1. и, следовательно, модель достаточно стабильна. Если 2. оказывается не пренебрежимо малым, настало время рассмотреть агрегированные модели: агрегирование моделей помогает только для дисперсии, вызванной нестабильностью модели, она не может уменьшить неопределенность дисперсии в измерении производительности, обусловленную конечным числом тестовых случаев. ,

Обратите внимание, что для построения доверительных интервалов производительности для таких данных я бы, по крайней мере, учел, что дисперсия, наблюдаемая между прогонами перекрестной проверки, представляет собой среднее из моделей этой нестабильности, т.е. я бы сказал, дисперсия нестабильности модели является наблюдаемая дисперсии между поперечинами прогонами проверки; плюс дисперсия из-за конечного числа случаев - для показателей эффективности классификации (попадание / ошибка) это биномиальное. Для непрерывных измерений я бы попытался вывести дисперсию из дисперсии прогона перекрестной проверки, , и оценить дисперсию типа нестабильности для моделей, полученную изк к к кikkkk

Преимущество Перекрёстной Проверки здесь является то , что вы получите четкое разделение между неопределенностью , вызванной моделью нестабильностью и неопределенностью , вызванной конечным числом тестов. Соответствующим недостатком является, конечно, то, что, если вы забудете принять во внимание конечное число реальных случаев, вы сильно недооцените истинную неопределенность. Однако это может произойти и для начальной загрузки (хотя и в меньшей степени).


Пока что рассуждения сосредоточены на измерении производительности для модели, которую вы выводите для данного набора данных. Если вы считаете , есть набор данных для данного приложения и данного образцом размера, есть третий вклад в дисперсию , которая принципиально не может быть измерена с помощью передискретизации проверки, смотрите , например , Bengio & Grandvalet: Нет несмещенная оценка дисперсии по К-Fold Креста -Валидация, Журнал исследований машинного обучения, 5, 1089-1105 (2004). У нас также есть цифры, показывающие эти три вклада в Beleites et al. : Планирование размера выборки для классификационных моделей., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Я думаю, что то, что здесь происходит, является результатом предположения о том, что повторная выборка похожа на разрушение полной новой выборки.

Это важно, если нужно сравнивать алгоритмы / стратегии / эвристики построения модели, а не строить конкретную модель для приложения и проверять правильность этой модели.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.