Можно ли интерпретировать бутстрап с байесовской точки зрения?


43

Хорошо, это вопрос, который не дает мне спать по ночам.

Может ли процедура начальной загрузки быть интерпретирована как аппроксимация некоторой байесовской процедуры (кроме байесовской начальной загрузки)?

Мне действительно нравится байесовская «интерпретация» статистики, которую я нахожу приятной и понятной. Однако у меня также есть слабость к процедуре начальной загрузки, которая настолько проста, но во многих ситуациях дает разумные выводы. Однако я был бы более доволен загрузкой, если бы знал, что загрузчик в некотором смысле приближается к заднему распределению.

Я знаю о «байесовском загрузчике» (Rubin, 1981), но, с моей точки зрения, эта версия загрузчика так же проблематична, как и стандартный загрузчик. Проблема состоит в том, что вы действительно делаете своеобразное модельное предположение, как при выполнении классического, так и байесовского бутстрапа, то есть возможные значения распределения - это только те значения, которые я уже видел. Как эти странные модельные предположения могут все же привести к очень разумным выводам, которые дают процедуры начальной загрузки? Я искал статьи, которые исследовали свойства начальной загрузки (например, Weng, 1989), но я не нашел четкого объяснения, которым я доволен.

Ссылки

Дональд Б. Рубин (1981). Байесовский бутстрап. Энн. Statist. Том 9, № 1, 130-134.

Чунг-Синг Венг (1989). Об асимптотическом свойстве второго порядка среднего байесовской начальной загрузки. Летопись статистики , вып. 17, № 2, с. 705-710.


3
Я только что написал пост в блоге «Бутстрап как байесовская модель» ( sumsar.net/blog/2015/04/… ), в котором рассматриваются байесовские «объяснения» бутстрапа. Он не дает прямого ответа на поставленные выше вопросы, но я надеюсь, что он прояснит, что такое начальная загрузка и что она делает.
Расм Бхат

Читайте muliere и secchi (1996) байесовские непараметрические методы прогнозного вывода и бутстрапа. Тей адрес точно твоя точка!

Ответы:


30

Раздел 8.4 «Статистического обучения Хасти, Тибширани и Фридмана» гласит «Отношения между бутстрапом и байесовским умозаключением». Это может быть именно то, что вы ищете. Я считаю, что эта книга находится в свободном доступе через веб-сайт Стэнфорда, хотя у меня нет ссылки под рукой.

Редактировать:

Вот ссылка на книгу, которую авторы сделали свободно доступной в Интернете:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

На странице 272 авторы пишут:

В этом смысле распределение начальной загрузки представляет (приблизительное) непараметрическое, неинформативное апостериорное распределение для нашего параметра. Но это начальное распределение получается безболезненно - без необходимости формально определять априор и без выборки из апостериорного распределения. Следовательно, мы можем думать о распределении бутстрапа как о байесовском «бедном человеке». Путем возмущения данных бутстрап аппроксимирует байесовский эффект возмущения параметров, и его, как правило, гораздо проще осуществить.

В этом перекрестном проверенном вопросе обнаружена еще одна часть головоломки, в которой упоминается неравенство Дворецкого-Кифера-Вулфовица, которое "показывает [...], что эмпирическая функция распределения равномерно сходится к истинной функции распределения, экспоненциально быстрой по вероятности".

Таким образом, в целом непараметрический метод начальной загрузки можно рассматривать как асимптотический метод, который создает «(приблизительное) непараметрическое неинформативное апостериорное распределение для нашего параметра» и где это приближение становится лучше «экспоненциально быстро» по мере увеличения числа выборок.


3
Хотя мы всегда ценим ссылки на соответствующие материалы, этот ответ был бы значительно улучшен, если бы было включено краткое резюме этого раздела.
кардинал

1
Последний бит из этого раздела может быть более полезным: начальная загрузка является приблизительным непараметрическим, неинформативным апостериорным распределением для оцениваемого параметра. Весь раздел стоит прочитать.
Fraijo

2
Спасибо за ссылку! Если я читаю Hastie et al. справа они показывают соответствие между непараметрическим бустрапом и байесовским бутстрапом и утверждают, что первое приближается ко второму. Они мало пишут о том, почему бутстрап (байесовский или нет) приводит к разумным выводам. То, на что я надеялся, было что-то вроде: «При [некоторых общих обстоятельствах] бутстрап аппроксимирует истинное апостериорное распределение параметра / статистики с ошибкой, которая [что-то] и которая зависит от [того и этого]».
Расмус Бат

Спасибо за помощь в улучшении моего ответа. Самым ясным объяснением того, почему работает бутстрап, является то, что только что собранная вами выборка является лучшим представлением всей вашей популяции. Но я не настолько вероятен, чтобы выразить это более формально.
EdM

Если я вспоминаю, они приводят этот аргумент, запускают NN и продолжают работать с полностью байесовской NN от Рэдфорда Нила. Я думаю, что это что-то говорит, не уверен, что, хотя.
парень

3

Это последняя статья, которую я видел на эту тему:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
Моя интерпретация статьи заключается в том, что в ней описывается метод начальной загрузки для расчета апостериорного распределения заданной модели, то есть метод, который можно использовать вместо, например, выборки из метрополии. Я не вижу, чтобы в статье обсуждалась связь между непараметрическими допущениями модели бутстрапа и байесовской оценкой ...
Расмус Бат

1
Он претендует на это. Я не читал газету подробно.
Фрэнк Харрелл

5
Фрэнк: Я не слишком много читал эту статью Эфрона - то, что он делает, можно рассматривать как просто сэмплер с последовательной важностью, который начинается с вероятности и пытается добраться до апостериорного (что часто будет работать). Цель Рубина в статье 1981 года состояла в том, чтобы поставить под сомнение уместность бутстрапа, но Эфрон, очевидно, пришел к противоположной точке зрения. Дэвид Дрэйпер пересмотрел его этим летом в своем курсе JSM и сделал вывод, что он плохой, за исключением случаев, когда вы видите большинство возможностей в примере. Но смотрите здесь normaldeviate.wordpress.com/2013/06/12/...
фанерон

1

Я тоже был соблазнен как начальной загрузкой, так и теоремой Байеса, но я не мог понять смысла оправдания начальной загрузки, пока я не посмотрел на нее с байесовской точки зрения. Тогда - как я объясню ниже - распределение бутстрапа можно рассматривать как байесовское апостериорное распределение, что делает (a?) Обоснование бутстрапа очевидным, а также имеет преимущество в разъяснении сделанных предположений. Ниже приведено более подробное описание аргумента и сделанных допущений в https://arxiv.org/abs/1803.06214 (стр. 22-26).

В качестве примера, который настроен на электронную таблицу по адресу http://woodm.myweb.port.ac.uk/SL/resample.xlsx (нажмите на вкладку начальной загрузки в нижней части экрана), предположим, что у нас есть выборка из 9 измерений со средним значением 60. Когда я использовал электронную таблицу для получения 1000 повторных выборок с заменой из этой выборки и округлил средние значения до ближайшего четного числа, 82 из этих средних составляли 54. Идея начальной загрузки состоит в том, что мы используйте выборку в качестве «притворной» популяции, чтобы увидеть, насколько изменчивыми могут быть средние значения выборок из 9, так что это предполагает, что вероятность того, что среднее значение по выборке будет на 6 ниже среднего по совокупности (в данном случае притворная совокупность на основе выборка со средним значением 60) составляет 8,2%. И мы можем прийти к аналогичному выводу о других столбцах гистограммы передискретизации.

Теперь давайте представим, что истина в том, что среднее значение реальной популяции составляет 66. Если это так, то наша оценка вероятности того, что среднее значение для выборки будет 60 (т.е. данные), составляет 8,2% (используя заключение в параграфе выше, помня что 60 на 6 ниже среднего значения, предположенного в 66). Давайте напишем это как

P (данные приведены в среднем = 66) = 8,2%

и эта вероятность соответствует значению х 54 в распределении передискретизации. Аналогичные аргументы применимы к каждому возможному среднему значению от 0, 2, 4 ... 100. В каждом случае вероятность исходит из распределения повторной выборки, но это распределение отражается относительно среднего значения 60.

Теперь давайте применим теорему Байеса. Рассматриваемое измерение может принимать значения только от 0 до 100, поэтому при округлении до ближайшего четного числа средние значения вероятности составляют 0, 2, 4, 6, .... 100. Если мы предположим, что предыдущее распределение является плоским, каждое из них имеет априорную вероятность 2% (до 1 dp), и теорема Байеса говорит нам, что

P (PopMean = 66 данных) = 8,2% * 2% / P (данные)

где

P (Данные) = P (PopMean = 0 для данных) * 2% + P (PopMean = 2 для данных) * 2% + ... + P (PopMean = 100 для данных) * 2%

Теперь мы можем отменить 2% и помнить, что сумма вероятностей должна быть 1, так как вероятности просто те из распределения повторной выборки. Что оставляет нас с выводом, что

Р (PopMean = 66) = 8,2%

Помня, что 8,2% - это вероятность из распределения повторной выборки, соответствующего 54 (вместо 66), апостериорное распределение - это просто распределение повторной выборки, отраженное относительно среднего по выборке (60). Кроме того, если распределение повторной выборки симметрично в том смысле, что асимметрии являются случайными - как это происходит в этом и во многих других случаях, мы можем принять распределение повторной выборки как идентичное апостериорному распределению вероятности.

Этот аргумент делает различные предположения, главным из которых является то, что предыдущее распределение является равномерным. Они изложены более подробно в статье, приведенной выше.


Существует такая вещь, как байесовский бутстрап, который был представлен Рубином. Но я не думаю, что это то, что вы имеете в виду. Обычный бутстрап, представленный Efron, - это действительно частая концепция.
Майкл Р. Черник
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.