Bootstrap: проблема переоснащения

Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером каждая из исходных наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf: $B$ $n$ $n$

http://en.wikipedia.org/wiki/Empirical_distribution_function

и затем получение образцов начальной загрузки путем моделирования наблюдений из оцененных cdf раз подряд. $n$ $B$

Если я прав в этом, то нужно обратиться к проблеме переоснащения, потому что эмпирический файл cdf имеет около N параметров. Конечно, асимптотически это сходится к населению cdf, но как насчет конечных выборок? Например, если бы я сказал вам, что у меня есть 100 наблюдений, и я собираюсь оценить cdf как с двумя параметрами, вы не будете встревожены. Однако, если бы количество параметров увеличилось до 100, это не казалось бы разумным. $N(\mu, \sigma^2)$

Аналогично, когда используется стандартная множественная линейная регрессия, распределение члена ошибки оценивается как . Если кто-то решит переключиться на загрузку остатков, он должен понять, что теперь существует около параметров, используемых только для обработки распределения ошибок. $N(0, \sigma^2)$ $n$

Не могли бы вы направить меня к некоторым источникам, в которых эта проблема решена явно, или скажите, почему это не проблема, если вы считаете, что я ошибся.

— Джеймс
источник

Один из способов просмотра этой «непараметрической» начальной загрузки состоит в том, что она преобразует параметрическое допущение нормальности в «количество интереса» в некоторой большой конечной совокупности (например, среднее значение переписи записей). Фактически, вы можете показать, что эта версия начальной загрузки основана на оценках «максимальная вероятность» полиномиальной модели с 1 категорией для каждого отдельного «типа» в популяции.

— вероятностная

Ответы:

я не совсем уверен, что понимаю ваш вопрос правильно ... я предполагаю, что вы заинтересованы в порядке сходимости?

потому что эмпирический cdf имеет около N параметров. Конечно, асимптотически это сходится к населению cdf, но как насчет конечных выборок?

Вы читали какие-либо основы теории начальной загрузки? Проблема в том, что это довольно дико (математически) довольно быстро.

Во всяком случае, я рекомендую взглянуть на

Ван дер Ваарт «Асимптотическая статистика» глава 23.

Зал "Bootstrap и Edgeworth" (длинный, но лаконичный и менее волнующий, чем Ван дер Ваарт, я бы сказал)

для основ.

Черник "Bootstrap Methods" больше ориентирован на пользователей, чем на математиков, но имеет раздел "где не удается загрузиться".

Классический Efron / Tibshirani мало о том, почему бутстрап действительно работает ...

— BootstrapBill
источник

$\mathcal{N}(\mu,\sigma^2)$

Интуитивно понятно, что начальная загрузка из конечных выборок недооценивает тяжелые хвосты основного распределения. Это ясно, поскольку конечные выборки имеют конечный диапазон, даже если диапазон их истинного распределения бесконечен или, что еще хуже, имеет тяжелые хвосты. Таким образом, поведение статистики начальной загрузки никогда не будет таким «диким», как исходная статистика. Так похоже на то, чтобы избежать перегрузки из-за слишком большого количества параметров (параметрической) регрессии, мы могли бы избежать переобучения, используя нормальное распределение с несколькими параметрами.

Отредактируйте, отвечая на комментарии: Помните, что вам не нужен загрузчик для оценки cdf. Обычно вы используете загрузчик, чтобы получить распределение (в широком смысле, включая квантили, моменты, что угодно) статистики. Таким образом, у вас не обязательно возникает проблема переобучения (с точки зрения «оценка из-за моих конечных данных выглядит слишком хорошей по сравнению с тем, что я должен видеть с истинным диким распределением»). Но, как выяснилось (цитируемой статьей и комментарием Фрэнка Харреля ниже), получение такой проблемы переоснащения связано с проблемами параметрической оценки той же статистики.

Итак, как и предполагал ваш вопрос, начальная загрузка не является панацеей от проблем с параметрической оценкой. Надежда на то, что начальная загрузка поможет решить проблемы с параметрами, контролируя весь дистрибутив, ложна.

— Хорст Грюнбуш
источник

До сих пор неясно, как работает bootstrap, учитывая, что количество эффективных параметров, задействованных в bootstrap, примерно соответствует размеру выборок. У меня есть одно предположение: конечной целью начальной загрузки является не оценка всего распределения, а оценка 1-2 статистики распределения. Следовательно, несмотря на то, что эмпирический файл cdf, который встроен в загрузочную версию, сильно перегружен, 1-2 оценочные статистические данные каким-то образом заканчиваются. Я правильно понял?

— Джеймс

Количество эффективных параметров не совпадает с размером выборки. Дисперсия эмпирической кумулятивной функции распределения примерно такая же, как дисперсия параметрического соответствия распределению, когда распределение имеет 4 неизвестных параметра для оценки. Одной из причин является то, что эмпирические оценки CDF вынуждены быть в порядке возрастания.

— Фрэнк Харрелл

Хорошая точка зрения. Не могли бы вы предоставить ссылку?

— Джеймс

Я хотел бы иметь один. Я показал это в прошлом с помощью симуляции Монте-Карло.

— Фрэнк Харрелл

L_{2}

$L_2$

\hat{F} - F

$\hat{F}-F$

\hat{F} (x) - F (x)

$\hat{F}(x)-F(x)$

Одним из источников интуиции может быть сравнение скоростей сходимости для параметрических CDF с ECDF для данных iid.

$n^{-1/2}$ https: //en.wikipedia. org / wiki / Dvoretzky% E2% 80% 93Kiefer% E2% 80% 93Wolfowitz_inequality http://www.stat.cmu.edu/~larry/=stat705/Lecture12.pdf

$n^{-1/2}$ $\sigma$ $\mu$

Таким образом, в определенном смысле скорость, с которой вам нужно получить больше выборок, одинакова, независимо от того, оцените ли вы CDF с помощью эмпирического CDF или оцените параметр напрямую с помощью оценщика среднего значения типа выборки. Это может помочь оправдать комментарий Фрэнка Харрелла о том, что «количество эффективных параметров не совпадает с размером выборки».

Конечно, это еще не все. Хотя ставки не отличаются, константы. И непараметрический метод начальной загрузки гораздо больше, чем ECDF - вам все равно нужно что-то делать с ECDF, как только вы его оцените.

— civilstat
источник