Если интересующее вас количество, как правило, функционал дистрибутива, достаточно гладкое, а ваши данные находятся на виду, вы обычно находитесь на довольно безопасной территории. Конечно, есть и другие обстоятельства, когда загрузчик также будет работать.
Что значит для загрузчика «провалиться»
Вообще говоря, целью начальной загрузки является построение приблизительного распределения выборки для статистики, представляющей интерес. Речь идет не о реальной оценке параметра. Итак, если интересующая статистика (при некотором масштабировании и центрировании) в и , мы бы хотели, чтобы наше дистрибутивное распределение сходятся к распределению . Если у нас этого нет, то мы не можем доверять сделанным выводам.X^nX^n→X∞X∞
Канонический пример , когда самозагрузки могут потерпеть неудачу, даже в н.о.р. каркаса при попытке приблизить распределение выборки экстремальной статистики порядка. Ниже приводится краткое обсуждение.
Статистика максимального порядка случайной выборки из распределенияU[0,θ]
Пусть - последовательность iid равномерных случайных величин на . Пусть . Распределение - это
(Обратите внимание, что с помощью очень простого аргумента это фактически также показывает, что по вероятности и даже почти наверняка , если все случайные величины определены в одном и том же пространстве.)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Элементарный расчет дает
или, другими словами, сходится по распределению к экспоненциальной случайной величине со средним значением .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Теперь мы формируем (наивную) загрузочную оценку распределения путем повторной выборки с заменой, чтобы получить и используя распределение из зависимости от .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Но внимание, что с вероятностью , и поэтому распределение начальной загрузки имеет точечную массу в нуле даже асимптотически несмотря на тот факт, что фактическое предельное распределение является непрерывным.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Более конкретно, хотя истинное предельное распределение является экспоненциальным со средним значением , предельное распределение начальной загрузки помещает точечную массу в ноль размера независимо от фактического значения . Взяв достаточно большим, мы можем сделать вероятность истинного предельного распределения произвольно малой для любого фиксированного интервала , однако загрузчик покажет ( все же !), Что в этом интервале есть хотя бы вероятность 0,632! Из этого должно быть ясно, что загрузчик может вести себя произвольно плохо в этой настройке.θ1−e−1≈0.632 θθ[0,ε)
Таким образом, в этом случае начальная загрузка завершается неудачно (с треском). Вещи, как правило, идут не так, когда имеют дело с параметрами на границе пространства параметров.
Пример из выборки нормальных случайных величин
Есть и другие подобные примеры неудачи бутстрапа в удивительно простых обстоятельствах.
Рассмотрим пример из где пространство параметров для ограничено . MLE в этом случае - это . Опять же, мы используем оценку начальной загрузки . Опять же, можно показать, что распределение (в зависимости от наблюдаемого образца) не сходится к тому же предельному распределению, что и .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Сменные массивы
Возможно, один из самых драматических примеров для сменного массива. Пусть будет массивом случайных величин таким, что для каждой пары матриц перестановок и , массивы и имеют одинаковое совместное распределение. То есть перестановка строк и столбцов в сохраняет инвариант распределения. (Можно привести в качестве примера модель двусторонних случайных эффектов с одним наблюдением на ячейку, хотя модель гораздо более общая.)Y=(Yij)PQYPYQY
Предположим, мы хотим оценить доверительный интервал для среднего значения (из-за предположения о взаимозаменяемости, описанного выше, для всех клетки должны быть одинаковыми).μ=E(Yij)=E(Y11)
McCullagh (2000) рассмотрел два различных естественных (то есть наивных) способа начальной загрузки такого массива. Ни один из них не получил правильную асимптотическую дисперсию для выборки. Он также рассматривает некоторые примеры односторонней сменной матрицы и линейной регрессии.
Рекомендации
К сожалению, тема нетривиальна, поэтому ни один из них не особенно легко читается.
П. Бикель и Д. Фридман, Некоторые асимптотические теории для бутстрапа . Анна. Стат. том 9, нет. 6 (1981), 1196–1217.
DWK Andrews, Несоответствие начальной загрузки, когда параметр находится на границе пространства параметров , Econometrica , vol. 68, нет. 2 (2000), 399–405.
P. McCullagh, Resampling and exchangeable Arrays , Bernoulli , vol. 6, нет 2 (2000), 285–301.
EL Lehmann и JP Romano, Проверка статистических гипотез , 3-й. под ред. Springer (2005). [Глава 15: Общие методы большой выборки]