Методика начальной загрузки. Зачем пересчитывать «с заменой» вместо случайной подвыборки?

Метод начальной загрузки получил широкое распространение в последние годы, я также часто его использую, особенно потому, что обоснование довольно интуитивно понятно.

Но это одна вещь, которую я не понимаю. Почему Efron решил выполнить повторную выборку с заменой, а не просто субсэмплирование путем случайного включения или исключения отдельных наблюдений?

Я думаю, что случайная подвыборка имеет одно очень хорошее качество, которое идеально отражает реальную жизненную ситуацию, в которой наблюдения, которые мы проводим в нашем исследовании, являются подмножеством гипотетической популяции. Я не вижу преимущества в увеличении количества наблюдений во время повторной выборки. В реальном контексте ни одно наблюдение не похоже на другое, особенно для сложных многомерных ситуаций.

bootstrap resampling subsampling

— Bakaburg
источник

повторная выборка с повторной выборкой выполняется, потому что это правильно, учитывая модель. Модель, лежащая в основе начальной загрузки, заключается в использовании непараметрического максимального правдоподобия для оценки кумулятивной функции распределения, а затем выборки независимых наблюдений из оцененной кумулятивной функции распределения. Подумайте об этом --- алгоритмически, что получается путем отбора образцов путем замены исходного образца.

— kjetil b halvorsen

Один из способов понять этот выбор - думать о представленной выборке как о наилучшем представлении основной популяции. У вас может не быть всей популяции для выборки, но у вас есть это конкретное представление населения. По-настоящему случайная повторная выборка из этого представления населения означает, что вы должны произвести выборку с заменой, иначе ваша последующая выборка будет зависеть от результатов вашей первоначальной выборки. Наличие повторного случая в конкретной выборке начальной загрузки представляет членов основной популяции, которые имеют характеристики, близкие к характеристикам этого конкретного повторного случая. Как вы предлагаете, также можно использовать подходы «оставь один» или «оставь несколько», но это скорее перекрестная проверка, чем самозагрузка.

Я думаю, что это в значительной степени просто помещает в другие слова комментарий от @kjetil_b_halvorsen

— магистр педагогических наук
источник

Я понимаю суть. Создание индивидуальных наблюдений в образце начальной загрузки независимо друг от друга. В литературе существуют методы, основанные на подвыборке, см. Politis, Romano, Wolf. Использование фиксированного подмножества m из n, выбранного без замены. Как они избегают ошибок, о которых вы говорили раньше? В их случае снова я не понимаю, почему они используют подвыборку фиксированного размера вместо случайной.

— Бакабург

Методы подвыборки пытаются достичь чего-то отличного от начальной загрузки. Эти методы стремятся выбрать случайные подмножества из выборки данных, а не пытаться эмулировать новую случайную выборку из базовой популяции . Дело не в том, что одно или другое не так; Это разные подходы, которые имеют свои сильные и слабые стороны.

— EdM

Поэтому, возможно, мне следует задать новый вопрос, касающийся различий между двумя методами в статистике логического вывода. Спасибо!

— Бакабург

@Bakaburg см. Этот вопрос для превосходного введения в литературу по начальной загрузке в сравнении с перекрестной проверкой (которая является определенным типом подвыборки).

— EdM

@Bakaburg Метод начальной загрузки моделирует повторяющееся независимое рисование случайных выборок размером n (не меньше, чем n) из большой популяции. Это означает, что возможно, что случайная выборка будет содержать большое количество предельно малых или больших значений из родительской популяции, которые часто недостаточно представлены в нашей исходной выборке. Как отмечает EdM, повторная выборка с заменой позволяет одному наблюдению выборки «представлять» несколько наблюдений в популяции, которые имеют схожие значения - это способ получить плавное приближение распределения популяции.

— RobertF