При каких условиях совпадают байесовские и частые точечные оценки?


17

С фиксированным априором оценки ML (частота - максимальная вероятность) и MAP (байесовская апостериорная) совпадают.

В целом, однако, я говорю о точечных оценках, полученных как оптимизаторы некоторой функции потерь. Т.е.

(Bayesian)  х (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

где E является оператором ожидания, L является функцией потерь (минимизировано в x^(y) является оценкой, учитывая данные y , параметра x , а случайные величины обозначены заглавными буквами.

Кто-нибудь знает какие-либо условия на L , PDF из x и y , наложенной линейности и / или непредвзятости, где оценки будут совпадать?

редактировать

Как отмечается в комментариях, требование беспристрастности, такое как непредвзятость, необходимо для придания значимости проблеме Frequentist. Плоские приоры также могут быть общностью.

Помимо общих обсуждений, представленных некоторыми ответами, вопрос на самом деле также о предоставлении реальных примеров . Я думаю, что важным является линейная регрессия:

  • х = ( D ' D ) - 1 D ' у есть (СИНИЙ теорема Гаусса-Маркова ), т.е. минимизирует MSE частотный среди линейно-непредвзятых оценок.x^=(DD)1Dy
  • если является гауссовым и до плоского, х = ( D ' D ) - 1 Д ' у является «задней» означает сводит к минимуму байесовской означает потерю для любой выпуклой функции потерь.(X,Y)x^=(DD)1Dy

Здесь, кажется, известен как матрица данных / дизайна в жаргоне / байесовском жаргоне соответственно.D


Я предполагаю, что вы хотите, чтобы ответ предполагал фиксированное значение? В противном случае, конечно, нет никакой вероятности того, что оценки могут быть разумными в тех же общих случаях.
user56834

2
Это не простой вопрос, чтобы ответить на него в общем изложении, но в настоящее время это действительно горячая тема исследования, см., Например, работу Джудит Руссо в этой области: ceremade.dauphine.fr/~rousseau/publi.html
Jeremias K

@JeremiasK, может быть, вы можете объяснить что-то об этом в ответе?
user56834

1
@ Programmer2134 Я бы, если бы чувствовал себя достаточно комфортно с материалом, но я не чувствую. Я знаю, что они производят байесовский аналог CLT с определенными «задними скоростями концентрации», которые говорят вам, как быстро апостериорный параметр концентрируется на точке в вашем пространстве параметров, когда вы увеличиваете размер выборки, а затем вы в основном заканчиваете поиск частых гарантий согласованности для ваших байесовских оценок.
Иеремия К

Ответы:


7

Вопрос интересный, но в некоторой степени безнадежный, если понятие оценки часто не уточняется. Это, безусловно , не один набор в вопросе х ( , так как ответ на минимизации х ( у ) = х для всех у «Sкак указано вответе Programmer2134 в. Фундаментальная проблема заключается в том, что не существует единого оценщика частоты для задачи оценки, без введения дополнительных ограничений или классов оценок. Без них все оценщики Байеса также являются оценщиками частоты.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Как указано в комментариях, объективность может быть таким ограничением, и в этом случае оценки Байеса исключаются. Но это частое понятие противоречит другим частым понятиям, таким как

  1. допустимость, поскольку феномен Джеймса-Стейна продемонстрировал, что несмещенные оценки могут быть недопустимыми (в зависимости от функции потерь и от размерности проблемы);
  2. инвариантность при репараметризации, поскольку непредвзятость не удерживается при трансформациях.

Плюс беспристрастность относится только к ограниченному классу проблем оценки. Под этим я подразумеваю, что класс несмещенных оценок определенного параметра или преобразования h ( θ ) большую часть времени пуст.θh(θ)

Говоря о допустимости, другом распространенном понятии, существуют параметры, для которых единственно допустимыми оценщиками являются байесовские оценки и наоборот. Этот тип настроек связан с полными теоремами классов, установленными Авраамом Уолдом в 1950-х годах. (То же самое относится к лучшим инвариантным оценкам, которые являются байесовскими по соответствующей правильной мере Хаара.)


1
Существуют ли другие канонические способы ограничения класса оценок, чтобы задача минимизации была хорошо определена и не вырождена (кроме необходимости в непредвзятости), которые ближе к байесовской?
user56834

3

В общем, оценки по частоте и байесовским оценкам не совпадают, если только вы не используете вырожденную плоскость. Основная причина заключается в следующем: оценщики-частисты часто стремятся быть беспристрастными. Например, частые пользователи часто пытаются найти минимальную дисперсию объективного оценщика ( http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator ). Между тем, все невырожденные байесовские оценки смещены (в частом смысле смещения). См., Например, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , теорема 5.

Подводя итог: Большинство популярных оценщиков частоты часто стремятся быть объективными, в то время как все оценки Байеса являются предвзятыми. Таким образом, байесовские и частотные оценки редко совпадают.


5
Я задаюсь вопросом о правильности этих утверждений, учитывая, что «большинство популярных оценщиков частоты» являются ML, и они имеют тенденцию быть предвзятыми (в зависимости от параметризации). Кроме того, хороший частник глубоко обеспокоен потерями и приемлемостью; ключевая часть этой теории признает, что допустимые процедуры происходят из байесовских процедур, откуда - по крайней мере в этом широком смысле - самое сердце теории частонистов опирается на байесовские оценки! Я мог бы быть убежден в вашей точке зрения, если бы вы могли прояснить «часто», «большинство» и «редко», и подкрепить это доказательствами.
whuber

@whuber Хороший вопрос - мой ответ был, возможно, немного упрощенным. Настоящие частые люди, как правило, используют предвзятые процедуры (например, регрессированную регрессию L1 или L2) или могут даже использовать формально байесовские процедуры. Тем не менее, я думаю, что объективные оценки являются отправной точкой для наиболее частого анализа. Например, первая содержательная глава «Теории оценки баллов» Lehmann & Casella (один из стандартных текстов о частых оценках) посвящена беспристрастности.
Стефан Вейджер

5
Ну хорошо (+1). Но я нахожу ваш последний аргумент забавным: в конце концов, книга должна где-то начинаться, и обычно эта отправная точка выбирается из-за ее простоты и доступности, а не из-за ее практической важности. По тем же соображениям вы можете утверждать, что большинство современных математиков в основном занимается логикой и теорией множеств, потому что они часто составляют первую главу во многих учебниках математики! Лучшим отражением статистической практики может быть последняя половина или около того Lehmann & Casella - взгляните на то, что там обсуждается :-).
whuber

«если вы не используете вырожденную квартиру до». Ну, это интересный особый случай, не правда ли?
user56834

Кроме того, его вопрос состоит в том, будут ли они теоретически совпадать при определенных условиях, а не совпадают ли оценки, используемые на практике.
user56834

3

Это не полный ответ, но в то время как эти два взгляд «сек очень похожи, они принципиально отличаются таким образом: в минимизирует байесовский один выражение по отношению к одному значению (то есть, значение х ( у ) в зависимости от у ).argminx^(y)y

Но для Frequentist нужно минимизировать функцию потерь по отношению к одному значению для каждого значения, которое может принять , не зная x . Это происходит потому , что минимум функции F ( х , х ) = E ( L ( х - х ( Y ) ) | х ) зависит от х , несмотря на то, что мы должны свести его к минимуму , не зная х . (заметим , что если бы мы просто минимизировать п ( х , х )xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)WRT х , мы бы просто получить значение минимизирующего х = х ) . В частотной проблеме поэтому не определена. Я не уверен, возможно ли вообще сделать это четко определенным.x^x^=x


1
Хорошие моменты. Я думаю, что вы правы насчет частых проблем. Способ сделать его корректным - ограничить класс оценщиков. От Lehmann & Casella: «До сих пор мы занимались нахождением оценок, которые минимизируют риск R (θ, δ) при каждом значении θ. Это было возможно только путем ограничения класса оценок, которые должны учитываться требованием беспристрастности, таким как как непредвзятость или эквивалентность. "
Патрик

1

Там может не быть ответа на этот вопрос.

Альтернативой может быть запрос методов для эффективного определения двух оценок для любой рассматриваемой проблемы. Байесовские методы довольно близки к этому идеалу. Однако, хотя минимаксные методы можно использовать для определения точечной оценки частоты, в целом применение минимаксного метода остается сложным и, как правило, не применяется на практике.

Другой альтернативой было бы перефразировать вопрос об условиях, при которых байесовские оценки и оценщики частоты часто дают «согласованные» результаты, и попытаться определить методы для эффективного расчета этих оценок. Здесь «согласованный» используется для того, чтобы подразумевать, что байесовские и частичные оценки получены из общей теории и что один и тот же критерий оптимальности используется для обеих оценок. Это сильно отличается от попыток противопоставить байесовскую и частую статистику и может сделать излишний вопрос излишним. Один из возможных подходов состоит в том, чтобы нацеливаться как на частый случай, так и на байесовский случай на наборы решений, которые сводят к минимуму потери для данного размера, т. Е. Как предложено

Шефер, Чад М и Филипп Б. Старк. «Построение доверительных областей оптимального ожидаемого размера». Журнал Американской статистической ассоциации 104.487 (2009): 1080-1089.

Оказывается, это возможно - как для частого, так и для байесовского случая - путем включения наблюдений предпочтений и параметров с большой точечной взаимной информацией. Наборы решений не будут идентичны, поскольку задаваемый вопрос отличается:

  • Независимо от того, что является истинным параметром, ограничьте риск принятия неправильных решений (частое мнение)
  • Учитывая некоторые наблюдения, ограничьте риск включения неправильных параметров в набор решений (байесовский взгляд)

Однако наборы будут в значительной степени перекрываться и становиться идентичными в некоторых ситуациях, если используются плоские априорные значения. Идея обсуждается более подробно вместе с эффективным имплементацией в

Bartels, Christian (2015): родовое и последовательное доверие и заслуживающие доверия регионы. figshare. https://doi.org/10.6084/m9.figshare.1528163

Для информативных априорных показателей наборы решений отклоняются больше (как это широко известно и было указано в вопросе и ответах выше). Тем не менее, в рамках согласованной структуры можно получить тесты для частых, которые гарантируют желаемое покрытие для частых, но учитывают предшествующие знания.

Бартельс, Кристиан (2017): Использование предварительных знаний в тестах для частых. figshare. https://doi.org/10.6084/m9.figshare.4819597

В предлагаемых способах все еще отсутствует эффективная реализация маргинализации.


Не могли бы вы конкретизировать свой вопрос более конкретно, когда они будут «последовательными»?
user56834

@ Programmer2134. Спасибо, попытался уточнить в ответ.
user36160
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.