Вопросы по параметрическому и непараметрическому бутстрапу

14

Я читаю главу о частой статистике из книги Кевина Мерфи « Машинное обучение - вероятностная перспектива ». Раздел по начальной загрузке гласит:

Бутстрап является простой техникой Монте-Карло для аппроксимации распределения выборки. Это особенно полезно в тех случаях, когда оценка является сложной функцией истинных параметров.

Идея проста. Если бы мы знали истинные параметры , мы могли бы сгенерировать множество (скажем, ) поддельных наборов данных, каждый размером , из истинного распределения для . Затем мы можем вычислить нашу оценку для каждой выборки, и использовать эмпирическое распределение полученных выборок в качестве нашей оценки распределения выборки. Поскольку неизвестно, идея параметрической начальной загрузки состоит в том, чтобы генерировать образцы, используя вместо этого . $θ^∗$ $S$ $N$ $x_i^s \sim p (·| θ^∗ )$ $s = 1 : S, i = 1 : N$ $\hat{\theta^s}=f (x^s_{1:N})$ $\theta$ $\hat{\theta}(D)$

Альтернативой, называемой непараметрической начальной загрузкой , является выборка (с заменой) из исходных данных , а затем вычисление индуцированного распределения, как и раньше. Некоторые методы ускорения начальной загрузки применительно к массивам данных обсуждаются в (Kleiner et al. 2011). $x^s_i$ $D$

1 . Текст говорит:

Если бы мы знали истинные параметры ..., мы могли бы вычислить нашу оценку для каждого образца, ... $\theta^*$ $\hat{\theta^s}$

но зачем мне использовать оценку каждого образца, если я уже знаю истинные параметры ? $\theta^*$

2 . Кроме того, в чем здесь разница между эмпирическим распределением и распределением выборки?
3 . Наконец, я не совсем понимаю разницу между параметрической и непараметрической загрузкой из этого текста. Они оба выводят из набора наблюдений , но в чем именно разница? $\theta$ $D$

bootstrap frequentist

— Амелио Васкес-Рейна
источник

14

Ответ, данный miura, не совсем точен, поэтому я отвечаю на этот старый вопрос для потомков:

(2). Это очень разные вещи. Эмпирический cdf является оценкой CDF (распределение), которая генерировала данные. Именно дискретный CDF присваивает вероятности $1/n$ каждой наблюдаемой точке данных, $\hat{F}(x) = \frac{1}{n}\sum_{i=1}^n I(X_i\leq x)$ для каждого . Эта оценка сходится к истинному cdf: почти наверняка для каждого (фактически равномерно). $x$ $\hat{F}(x) \to F(x) = P(X_i\leq x)$ $x$

Распределение выборки статистики - это распределение статистики, которое вы ожидаете увидеть при повторных экспериментах. То есть вы проводите эксперимент один раз и собираете данные . - это функция ваших данных: . Теперь предположим, что вы повторили эксперимент и собрали данные . Пересчет T в новой выборке дает . Если мы собрали 100 образцов мы имели бы 100 оценок . Эти наблюдения формируют выборочное распределение $T$ ${X_1,\ldots,X_n}$ $T$ $T = T(X_1,\ldots,X_n)$ ${X'_1,\ldots,X'_n}$ $T' = T({X'_1,\ldots,X'_n})$ $T$ $T$ $T$ , Это настоящее распределение. По мере того, как количество экспериментов становится бесконечным, его среднее значение сходится к а его дисперсия к . $E(T)$ $Var(T)$

В общем, конечно , не повторять эксперименты , как это, мы только когда - нибудь один экземпляр . Выяснить, что дисперсия из одного наблюдения очень трудно, если вы не знаете основную функцию вероятности a priori. Бутстрапирование способ оценить , что распределение выборки путем искусственного запуска «новые эксперименты» , на котором для расчета новых экземпляров . Каждый новый образец - это на самом деле просто повторный образец из исходных данных. То, что это дает вам больше информации, чем вы имеете в исходных данных, является загадочным и совершенно потрясающим. $T$ $T$ $T$ $T$ $T$

(1). Вы правы - вы бы этого не делали. Автор пытается мотивировать параметрическую начальную загрузку, описывая ее как «то, что вы сделали бы, если бы вы знали распределение», но подставляя очень хорошую оценку функции распределения - эмпирический cdf.

Например, предположим, что вы знаете, что ваша тестовая статистика обычно распределяется со средним нулем, дисперсией один. Как бы вы оценили распределение выборки ? Итак, поскольку вы знаете распределение, глупый и избыточный способ оценки распределения выборки состоит в том, чтобы использовать R для генерации 10 000 или около того стандартных нормальных случайных величин, затем взять их выборочное среднее значение и дисперсию и использовать их в качестве наших оценок среднего и дисперсия распределения выборки . $T$ $T$ $T$

Если мы априори не знаем параметры , но знаем, что он нормально распределен, мы можем вместо этого сгенерировать около 10000 выборок из эмпирического файла cdf, рассчитать для каждого из них, а затем взять среднее значение выборки. и дисперсия из них 10000 с, и использовать их как наши оценки ожидаемого значения и дисперсии . Поскольку эмпирический cdf является хорошей оценкой истинного cdf, параметры образца должны сходиться к истинным параметрам. Это параметрическая начальная загрузка: вы помещаете модель в статистику, которую хотите оценить. Модель индексируется параметром, например , который вы оцениваете из повторной выборки из файла ecdf. $T$ $T$ $T$ $T$ $(\mu, \sigma)$

(3). Непараметрический загрузчик даже не требует от вас априори знать, что нормально распределен. Вместо этого вы просто рисуете повторные сэмплы из ecdf и вычисляете для каждого. После того, как вы отобрали около 10 000 выборок и рассчитали 10000 s, вы можете построить гистограмму ваших оценок. Это визуализация распределения выборки $T$ $T$ $T$ $T$ , Непараметрическая начальная загрузка не скажет вам, что распределение выборки является нормальным, или гамма-и т. Д., Но оно позволяет вам оценить распределение выборки (обычно) настолько точно, насколько это необходимо. Он делает меньше предположений и предоставляет меньше информации, чем параметрический загрузчик. Это менее точно, когда параметрическое предположение верно, но более точно, когда оно ложно. Какой из них вы используете в каждой ситуации, с которой вы сталкиваетесь, полностью зависит от контекста. По общему признанию, все больше людей знакомы с непараметрической начальной загрузкой, но часто слабое параметрическое допущение делает полностью неразрешимую модель пригодной для оценки, что приятно.

— guest47
источник

1

Я запутался в том, что вы описали параметрический загрузчик: «вместо этого мы можем сгенерировать около 10000 сэмплов из эмпирического cdf-файла». Мое понимание параметрического загрузчика состоит в том, что вы будете выбирать из модели, которую вы вписываете в данные. Это то, что описывает оригинальная цитата из книги Мерфи. Я мог бы неправильно прочитать, но выборка из эмпирического CDF данных будет непосредственно выборкой точек данных, что будет стандартным бутстрапом, нет?

— user20160

@ user20160 вы неверно истолковываете ответ «Вместо»: он описывает непараметрическую загрузку, а не параметрическую.

— daknowles

4

Я действительно ценю усилия, приложенные guest47, но я не совсем согласен с его ответом, в некоторых незначительных аспектах. Я бы не стал прямо излагать свои разногласия, а скорее отражал их в этом ответе.

Во многих случаях это является избыточным для вычисления , когда мы уже знаем истинный базовый параметр & . Тем не менее, это все еще полезно , когда мы хотим , чтобы посмотреть на точность и точность при оценивании . Кроме того, первый абзац в цитируемом вами отрывке облегчит вам понимание понятия «параметрической начальной загрузки», к которому я вскоре коснусь. $\hat\theta s$ $\theta*$ $\hat\theta s$ $\theta*$
Гость47 дает хороший ответ. Не нужно уточнять больше.
В параметрической самозагрузке, что у вас есть наблюдаемые данные D. Подходят с параметрической моделью , чтобы соответствовать данным, и используют оценщик & (который является функцией данных D) для истинных параметров & . Затем вы генерировать тысячи наборов данных из параметрической модели с & и оценки для этих моделей. В непараметрической начальной загрузке вы напрямую используете D, выборку (тысячи раз) именно из D, а не из сгенерированных данных. $\hat\theta$ $\theta*$ $\hat\theta$ $\hat\theta s$

— QINGYUAN FENG
источник

2

Я не эксперт, но для чего это стоит

Потому что вы заинтересованы в распределении выборки, как указано в первом предложении вашей цитаты.
Эмпирическое распределение - это распределение, которое вы видите в вашем конечном числе выборок. Распределение выборок - это то, что вы бы увидели, если бы взяли бесконечное количество выборок.

Я не могу ответить 3. Я всегда понимал то, что здесь описывается как непараметрический бутстрап, как «бутстрап».

Если вы еще не полностью поняли концепцию распределения сэмплирования, здесь есть действительно хорошая тема, которая показывает очень иллюстративный R-код.

— Миура
источник

5

Разница между параметрической и непараметрической начальной загрузкой заключается в том, что первая генерирует свои выборки из (предполагаемого) распределения данных, используя оценочные значения параметров, тогда как вторая генерирует свои выборки путем выборки с заменой из наблюдаемых данных - параметрическая модель не предполагается ,

— Jbowman

@jbowman - у «непараметрической» начальной загрузки действительно есть базовая модель - просто она отличается от модели, используемой для мотивации оценки параметра.

— вероятностная

@miura Пожалуйста, не разрушай свой ответ. Если вы хотите, чтобы спрашивающий выбрал другой ответ, оставьте комментарий под вопросом. Если вы хотите, чтобы ваш ответ был удален, отметьте его и попросите об этом.

— Glen_b