Два способа использования бутстрапа для оценки доверительного интервала коэффициентов в регрессии

Я применяю линейную модель к своим данным:

y_{i} = β_{0} + β_{1} x_{i} + ϵ_{i}, ϵ_{i} \sim N (0, σ^{2}) .

$y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}).$

Я хотел бы оценить доверительный интервал (CI) коэффициентов ( , ), используя метод начальной загрузки. Есть два способа применения метода начальной загрузки: $\beta_{0}$ $\beta_{1}$

Выборка парного ответа-предиктора: Произвольная повторная выборка пар $y_{i}-x_{i}$ и применение линейной регрессии к каждому прогону. После $m$ запусков мы получаем набор оценочных коэффициентов ${\hat{\beta_{j}}}, j=1,...m$ . Наконец, вычислите квантиль ${\hat{\beta_{j}}}$ .
Пример ошибки: сначала примените линейную регрессию к исходным наблюдаемым данным, из этой модели мы получим $\hat{\beta_{o}}$ и ошибку $\epsilon_{i}$ . После этого случайным образом повторите ошибку $\epsilon^{*}_{i}$ и вычислите новые данные с помощью $\hat{\beta_{o}}$ и $y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}$ . Примените еще раз линейную регрессию. После $m$ запусков мы получаем набор оценочных коэффициентов ${\hat{\beta_{j}}}, j=1,...,m$ . Наконец, вычислите квантиль ${\hat{\beta_{j}}}$ .

Мои вопросы:

Чем эти два метода отличаются?
При каком допущении эти два метода дают одинаковый результат?

regression bootstrap

— tiantianchen
источник

Лично я бы не использовал ни один из них в качестве подхода по умолчанию, но вместо этого рекомендовал бы базовый доверительный интервал начальной загрузки. Смотрите стр. 8 из www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Я проводил много симуляций для бинарной логистической модели и видел лучшее покрытие доверительных интервалов при использовании базовой начальной загрузки, чем при использовании процентиля или начальной загрузки BCa.

— Фрэнк Харрелл

@FrankHarrell, чтобы быть ясным, под «базовым» вы ссылаетесь на непараметрический загрузчик?

— ndoogan

(1) - непараметрический доверительный интервал начальной загрузки, а не базовый. Обратите внимание, что выборка из является безусловной начальной загрузкой, которая более свободна от предположений, чем условная начальная загрузка, которая повторно выбирает остатки.

(x, y)

$(x,y)$

— Фрэнк Харрелл

Я на самом деле не эксперт, но, насколько я понимаю, 1) часто называют "пересчетом регистра", тогда как 2) называют "остаточной передискретизацией" или "фиксированной ". Базовый выбор метода не подразумевает метод расчета доверительных интервалов после процедуры. Я получил эту информацию в основном из учебника Джона Фокса . Насколько я понимаю, после любой начальной загрузки вы можете рассчитать базовые CI начальной загрузки (например, с помощью in ). Или я что-то здесь скучаю?

x

$x$ boot.ci(my.boot, type="basic")R

— COOLSerdash

Да, вы можете сделать кластерную загрузку. Это реализовано в R rms validateи calibrateфункциях.

— Фрэнк Харрелл

Если пары «ответ-предиктор» были получены из популяции по случайной выборке, можно безопасно использовать схему повторной выборки case / random-x / your-first. Если предикторы контролировались, или значения предикторов были установлены экспериментатором, вы можете рассмотреть возможность использования схемы остаточной выборки / на основе модели / fixed-x / your-second.

Чем они отличаются? Дэвисон и Коунен, представляющие введение в бутстрап с приложениями на R , обсуждают этот вопрос (см. Стр. 9). См. Также код R в этом приложении Джона Фокса , в частности, функции boot.huber на стр.5 для схемы random-x и boot.huber.fixed на стр.10 для схемы fixed-x. В то время как в лекционных заметках Шализи две схемы применяются к разным наборам данных / проблемам, приложение Фокса иллюстрирует, как мало могут часто отличаться эти две схемы.

Когда можно ожидать, что они дадут почти одинаковые результаты? Одна ситуация, когда регрессионная модель задана правильно, например, нет немоделированной нелинейности, и обычные регрессионные допущения (например, ошибки iid, нет выбросов) удовлетворяются. См. Главу 21 книги Фокса (к которой косвенно принадлежит вышеупомянутое приложение с кодом R), в частности, обсуждение на стр. 598 и упражнение 21.3. озаглавленный «Случайная выборка против фиксированной повторной выборки в регрессии». Цитировать из книги

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Из этого обсуждения вы также узнаете, почему при начальной загрузке fixed-x неявно предполагается, что функциональная форма модели является правильной (хотя не делается никаких предположений о форме распределения ошибок).

Смотрите также слайд 12 этого доклада для Общества актуариев в Ирландии Дерека Бэйна. У этого также есть иллюстрация того, что следует считать "тем же самым результатом":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.

— Hibernating
источник