Байесовцы: рабы с вероятностной функцией?


62

В своей книге «Вся статистика» профессор Ларри Вассерман приводит следующий пример (11.10, стр. 188). Предположим , что мы имеем плотность такой , что , где является известным (неотрицательное интегрируемой) функции и нормализация постоянной является неизвестной .ff(x)=cg(x)c > 0gc>0

Нас интересуют те случаи, когда мы не можем вычислить . Например, это может быть случай, когда - это PDF-файл в очень большом размерном пространстве.c=1/g(x)dxf

Хорошо известно, что существуют методы моделирования, которые позволяют нам выбирать из , даже если неизвестно. Следовательно, загадка заключается в следующем: как мы можем оценить по такой выборке?fcc

Профессор Вассерман описывает следующее байесовское решение: пусть будет некоторым априором для . Вероятность: Следовательно, апостериорный не зависит от значений выборки . Следовательно, байесовский не может использовать информацию, содержащуюся в образце, чтобы сделать выводы о .πc

LИкс(с)знак равноΠязнак равно1Nе(Икся)знак равноΠязнак равно1N(сграмм(Икся))знак равносNΠязнак равно1Nграмм(Икся)αсN,
π(с|Икс)αсNπ(с)
Икс1,...,ИксNс

Профессор Вассерман указывает, что «байесовцы являются рабами функции вероятности. Когда вероятность искажается, то и байесовский вывод».

Мой вопрос к моим коллегам-укладчикам таков: что касается этого конкретного примера, что пошло не так (если вообще что-то) с байесовской методологией?

PS Профессор Вассерман любезно объяснил в своем ответе, что пример принадлежит Эду Джорджу.


10
Этот пример звучит просто как причудливый неэффективный способ проведения численной интеграции, а не как любой байесовский анализ.
whuber

2
Как вы можете сказать, что байесовский учится ничего о . Если бы это было так, мы бы имели . Это явно нет. cπ(c|x)π(c)
вероятностная

2
Я не очень понимаю этот пример. Если не зависит от то не удивительно ли, что данные не информативны, так как тогда зависит только от формы и одинаково для выборки? Я, очевидно, упускаю какой-то тонкий (или не очень тонкий) момент. g()ccg()any
Дикран Marsupial

Я придумал формально байесовский подход, который может преодолеть возражение @ Zen, не противопоказывает отсутствие интереса Сианя и в итоге просто оценивает точность численного интегрирования.
Фанерон

1
Хорошее продолжение блога Ларри: normaldeviate.wordpress.com/2012/10/05/…
Zen,

Ответы:


43

Это обсуждалось в моей статье (опубликованной только в Интернете) «На примере Ларри Вассермана» [ 1 ] и в блог-обмене между мной, Вассерманом, Робинсом и некоторыми другими комментаторами в блоге Вассермана: [ 2 ]

Короткий ответ заключается в том, что Вассерман (и Робинс) порождают парадоксы, предполагая, что априоры в пространствах с высокой размерностью «должны» иметь характеристики, которые подразумевают либо то, что интересующий параметр известен априори с почти полной уверенностью, либо что явно актуальная проблема (смещение выбора) известно почти наверняка, чтобы не присутствовать. На самом деле разумные приоры не будут иметь этих характеристик. Я нахожусь в процессе написания краткого сообщения в блоге, чтобы сделать это вместе. Есть отличная статья 2007 года, в которой показаны разумные байесовские подходы к примерам, рассмотренным Вассерманом и Ритовым, по Хамелингу и Туссену: «Байесовские оценки для проблемы Робинса-Ритова» [ 3 ]


12
Спасибо за ваш вклад, профессор Симс. Вы согласны с моим ответом ниже? PS Теперь у нас есть размещение Нобелевских премий на SE. Как насчет этого? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen

1
@ChrisSims Профессор Симс Спасибо за то, что пришли и смахнули мой ответ своим очень авторитетным ответом!
Майкл Черник

4
Я встревожен тем, что этот ответ набрал наибольшее количество голосов (на данный момент). Как отмечает профессор Вассерман, ответ профессора Симса о совершенно другой загадке, о чем спрашивал дзен. Я предполагаю, что большинство людей проголосовало за это, не прочитав и не поняв ссылки, предоставленные симами.
Голубой

3
Cyan, вы можете найти комментарии профессора Сима относительно этой загадки в ссылке [1], WassermanComment.pdf, p. 10, Раздел VII. Постскриптум 2.
madprob

43

Я не вижу особой привлекательности в этом примере, особенно как потенциальная критика байесов и вероятностных валлах .... Константа известна, она равна Если является единственным " неизвестно»в картине, поскольку образец , то нет статистического вопроса о проблеме , и я не согласен , что существует оценщик из . Ни приоры на (кроме массы Дирака на вышеуказанном значении). Это не совсем статистическая проблема, а скорее численная проблема.1 /X g ( x ) d x c x 1 , , x n c cс

1/Xg(x)dx
cx1,,xncc

То, что выборка может быть использована посредством оценки плотности (частых), чтобы обеспечить числовое приближение является просто любопытством. Не критика альтернативных статистических подходов: я мог бы также использовать байесовскую оценку плотности ... cx1,,xnc


4
Невозможно начать с правильного априорного и в конечном итоге с неправильной апостериорной, если вероятность истинной условной плотности!
Сиань,

Как определить разницу между неизвестной константой и параметром? Во введении к вероятности де Финетти рассматривает вопрос о выявлении вашей неопределенности для . Будет ли де Финетти считать c в любом случае отличным от π ? Если нет, то наблюдает ли наблюдение за данными X 1 , X 2 , , X n его неопределенность относительно c ? Также относительно неизвестных констант / параметров. Допустим, Алиса выбирает постоянные С и типов в R , х = т п о т м ( 100 , сπcπX1,X2,,XnccR . Хотя c является неизвестной константой, Боб сможет извлечь свой априор для c и использовать x, чтобы узнать о c . Почему c в примере Вассермана отличается? x=rnorm(100,c,1)ccxcc
madprob

3
Я не де Финетти, поэтому я не могу ответить за него!
Сиань

3
Ваш пример статистический: я получаю наблюдения, базовое распределение которых определяется неизвестным параметром c . Пример Ларри (или Эда!) Не является статистическим: распределение выборки полностью известно и не определяется неизвестным параметром c . Это дополнительно иллюстрируется ответом Дзэн : вы просто не можете написать без окончания парадокса, потому что существует только одно возможное значение c. f(x1,,xn|c)
Сиань

40

Я согласен, что пример странный. Я имел в виду, что это больше похоже на головоломку. (Пример на самом деле из-за Эда Джорджа.)

Это поднимает вопрос о том, что значит что-то быть «известным». Кристиан говорит, что известен. Но, по крайней мере, с чисто субъективной вероятностной точки зрения, вы не знаете этого только потому, что в принципе это может быть известно. (Предположим, вы не можете сделать числовой интеграл.) Субъективный байесовский рассматривает все как случайную величину с распределением, в том числе c .cc

Во всяком случае, бумага

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae и Z. Tan (2003), Теория статистических моделей для интеграции Монте-Карло , J. Royal Statistic. Soc. B , vol. 65, нет 3, 585–604

(с обсуждением) рассматривает по существу ту же проблему.

Пример, на который ссылается Крис Симс в своем ответе, имеет совершенно другую природу.


3
Профессор Вассерман Спасибо, что пришли и объяснили ваш пример и его историю. Я был аспирантом в Стэнфорде и совпадал с Эдом Джорджем. Стэнфордский отдел статистики в те дни был очень небайесовским, хотя с Эфроном и Штейном мы были на грани эмпирического байесовского. Тем не менее, департамент был очень открытым, и Деннис Линдли читал аспирантуру по байесовской статистике, которую я взял одним летом. Каким-то образом Эд превратился в полноценного байесовца и даже написал статью о пробах Гиббса для чайников (хотя, конечно, не с таким названием).
Майкл Черник

1
Я с удовольствием читаю ваши маленькие книжки "Вся статистика" и "Вся непараметрика".
Майкл Черник

1
может быть, не случайно, я обсуждал эту статью Kong et al. (2003), в основном отрицательно оценивая эффективность использования групповых преобразований для измерения, а не для распределения. В последнее время Сяо-Ли подтолкнул меня к более позитивному восприятию газеты ...
Сиань,

1
«Предположим, вы не можете сделать числовой интеграл». Я понимаю, что логическая неопределенность (примером которой она является) не поддается анализу, несмотря на значительные усилия.
Джон Сальватье

По той же логике, что неизвестен, потому что вы не можете его вычислить, я думаю, вам также придется заключить, что функция g «неизвестна» и поставить априор в пространстве функций, в котором она живет. Конечно, вы «знаете» g ( x 1 ) , g ( x 2 ) , ... потому что вы можете оценить g , но с точки зрения функционального анализа я утверждаю, что вы не "знаете", что такое функция, если вы не можете проверить ее по любому элементу двойное пространство, такое как функционал интеграции. cgg(x1)g(x2)g
Ник Алджер

23

g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

fXiC(c) cc=(g(x)dx)1CCπ

x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

π(с)знак равно1с2я[1,)(с),
0π(с)dсзнак равно1
π(с|Икс)α1с2-Nя[1,)(с),
01c2nI[1,)(c)dc
n1

Это невозможно: мы знаем, что если мы начнем с правильного априора, то наш апостериор не может быть неправильным для каждой возможной выборки (он может быть неправильным внутри набора нулевой априорной прогнозирующей вероятности).


+

1
Привет майкл Конечно, вы можете: Гамма, Логнормаль и т. Д. И т. Д. Я не понимаю, как это связано с ответом. Наверное, я не понимаю, что вы говорите.
Дзен

Ну, у меня возникли проблемы после вашего аргумента. Вы говорите, что условная плотность для f существует только для одного c, но это не так. Я не понимаю, почему выражение для вероятности недопустимо, и как вы получаете доказательство от противоречия, принимая надлежащий априор и каким-то образом показывая, что оно приводит к неправильному последнему распределению.
Майкл Черник

Мне кажется, что суть проблемы в том, что данные действительно не зависят от c и не содержат информации о c. Я думаю, что вы можете сказать, что существует функция правдоподобия с участием c, но эта вероятность не может быть максимизирована как функция c. Я думаю, что для каждого варианта c существует f = cg.
Майкл Черник

4
g(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX

11

Пример немного странный и надуманный. Причина, по которой вероятность искажается, в том, что g - известная функция. Единственный неизвестный параметр - это c, который не является частью вероятности. Кроме того, поскольку известно g, данные не дают информации о f. Когда вы видите такое на практике? Таким образом, апостериор пропорционален предыдущему, а вся информация о c - в предыдущем.

Хорошо, но подумай об этом. Частые пользователи используют максимальное правдоподобие, поэтому часто они также полагаются на функцию правдоподобия. Ну, часто можно оценить параметры другими способами, как вы можете сказать. Но эта готовая задача имеет только один параметр c и в данных о c нет информации. Поскольку известно g, нет статистической проблемы, связанной с неизвестными параметрами, которые можно вычленить за период данных.


cf^fxc^=f^(x)/g(x)c

4
@Zen Хорошо, давайте возьмем этот пример. Зачем вообще собирать какие-либо данные? Мы знаем г. Таким образом, мы можем численно интегрировать его, чтобы определить c с любым уровнем точности, который мы хотим, без необходимости что-либо оценивать! Предположение, что мы не можем вычислить c, что означает, что, хотя мы знаем g как функцию x, мы не можем интегрировать его! Я думаю, что его пример слабый, как и аргумент, и мне нравятся его книги в целом.
Майкл Черник

11

c

g()g()g()g()

g()g()


Удивлен, что это не имеет больше голосов. Это доходит до сути проблемы, которая заключается в неоднозначном утверждении, что вы «знаете», что такое функция, просто потому, что вы можете оценить ее в любой момент. Я думаю, что более подходящим критерием, чтобы сказать, что вы «знаете» функцию, является способность оценивать любой непрерывный линейный функционал на ней.
Ник Алджер

@ Ник Алджер: Люди, похоже, потеряли интерес. Я не одобряю это, потому что я не уверен, что это Байес. Относится ли xi в множестве D (xi, f (xi)) к xi, наблюдаемому в исследовании, или случайно генерируемому ими? Если это первый, то это байесовский метод, но его очень легко обыграть с помощью простого MC с несколькими секундами вычислительного времени (так что он не работает нормально) или не по байесовскому принципу (не обусловлен данными).
Фанерон

-2

Мы могли бы расширить определение возможных известных (аналогично расширению данных, чтобы учесть пропущенные данные для данных, которые наблюдались, но были потеряны), чтобы включить NULL (данные не генерируются).

π(с)знак равно1с2я[1,)(с),

сзнак равно(-грамм(Икс)dИкс)-1

еИксa|С(Иксa|с)еИкся|С(Икся|с)знак равнос1грамм(Икся)

еaИксa|С(Иксa|с)знак равно0

Таким образом, апостериор будет 0 или 1 (правильный), но вероятность из вышеупомянутой модели данных недоступна (потому что вы не можете определить условие, требуемое в модели данных).

Так ты делаешь азбуку.

Нарисуйте «с» из предыдущего.

(g(x)dx)1

Сохраненные «с» будут приближением истинного апостериорного.

(Точность приближения будет зависеть от эпсилона и достаточности кондиционирования в этом приближении.)


-5

π(с|Икс)знак равно(Πяграмм(Икся))сNπ(с),
{Икся}α

2
Иксе(Икс|с)π(с)dсΠязнак равно1Nграмм(Икся)
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.