Если пары «ответ-предиктор» были получены из популяции по случайной выборке, можно безопасно использовать схему повторной выборки case / random-x / your-first. Если предикторы контролировались, или значения предикторов были установлены экспериментатором, вы можете рассмотреть возможность использования схемы остаточной выборки / на основе модели / fixed-x / your-second.
Чем они отличаются? Дэвисон и Коунен, представляющие введение в бутстрап с приложениями на R , обсуждают этот вопрос (см. Стр. 9). См. Также код R в этом приложении Джона Фокса , в частности, функции boot.huber на стр.5 для схемы random-x и boot.huber.fixed на стр.10 для схемы fixed-x. В то время как в лекционных заметках Шализи две схемы применяются к разным наборам данных / проблемам, приложение Фокса иллюстрирует, как мало могут часто отличаться эти две схемы.
Когда можно ожидать, что они дадут почти одинаковые результаты? Одна ситуация, когда регрессионная модель задана правильно, например, нет немоделированной нелинейности, и обычные регрессионные допущения (например, ошибки iid, нет выбросов) удовлетворяются. См. Главу 21 книги Фокса (к которой косвенно принадлежит вышеупомянутое приложение с кодом R), в частности, обсуждение на стр. 598 и упражнение 21.3. озаглавленный «Случайная выборка против фиксированной повторной выборки в регрессии». Цитировать из книги
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Из этого обсуждения вы также узнаете, почему при начальной загрузке fixed-x неявно предполагается, что функциональная форма модели является правильной (хотя не делается никаких предположений о форме распределения ошибок).
Смотрите также слайд 12 этого доклада для Общества актуариев в Ирландии Дерека Бэйна. У этого также есть иллюстрация того, что следует считать "тем же самым результатом":
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.