Как говорит Сиань, вопрос спорный, но я думаю, что многие люди, тем не менее, вынуждены рассматривать оценку максимального правдоподобия с байесовской точки зрения из-за заявления, которое появляется в некоторой литературе и в Интернете: « максимальное правдоподобие оценка представляет собой частный случай апостериорной оценки байесовского максимума, когда предварительное распределение является равномерным ».
Я бы сказал, что с байесовской точки зрения оценка максимального правдоподобия и ее свойство инвариантности могут иметь смысл, но роль и значение оценок в байесовской теории очень отличаются от теории частых. И эта конкретная оценка обычно не очень разумна с точки зрения Байеса. Вот почему Для простоты рассмотрим одномерный параметр и однозначные преобразования.
Прежде всего два замечания:
T=273.16t=0.01θ=32.01η=5.61
p(x)dx
x
Δxp(x)Δxx
dx
p(x1)>p(x2)x1x2xx1x2
xx~Dx~:=argmaxxp(D∣x).(*)
Этот оценщик выбирает точку на многообразии параметров и поэтому не зависит от какой-либо системы координат. Иначе говоря: каждая точка на многообразии параметров связана с числом: вероятность для данных ; мы выбираем точку, которая имеет наибольший связанный номер. Этот выбор не требует системы координат или базовой меры. Именно по этой причине этот оценщик является инвариантом параметризации, и это свойство говорит нам, что это не вероятность, как хотелось бы. Эта инвариантность сохраняется, если мы рассмотрим более сложные преобразования параметров, и вероятность профиля, упомянутая Сианьем, имеет полный смысл с этой точки зрения.D
Давайте посмотрим Байес точки зрения
С этой точки зрения она всегда имеет смысл говорить о вероятности непрерывного параметра, если мы не уверены в этом, обусловливающих данных и других доказательства . Мы записываем это как
Как отмечалось в начале, эта вероятность относится к интервалам на множестве параметров, а не к отдельным точкам.Dp(x∣D)dx∝p(D∣x)p(x)dx.(**)
В идеале мы должны сообщить о нашей неопределенности, указав полное распределение вероятностей для параметра. Таким образом, понятие оценки является вторичным с байесовской точки зрения.p(x∣D)dx
Это понятие появляется, когда мы должны выбрать одну точку на многообразии параметров для какой-то конкретной цели или причины, даже если истинная точка неизвестна. Этот выбор является сферой теории принятия решений [1], а выбранное значение является правильным определением «оценщика» в байесовской теории. Теория принятия решений говорит, что мы должны сначала ввести функцию полезности которая говорит нам, сколько мы получаем, выбирая точку на многообразии параметров, когда истинной точкой является (альтернативно, мы можем пессимистично говорить о функции потерь). Эта функция будет иметь разные выражения в каждой системе координат, например, и(P0,P)↦G(P0;P)P0P(x0,x)↦Gx(x0;x)(y0,y)↦Gy(y0;y); если преобразование координат , два выражения связаны выражением [2].y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]
Позвольте мне сразу подчеркнуть, что когда мы говорим, скажем, о квадратичной функции полезности, мы неявно выбрали конкретную систему координат, обычно естественную для параметра. В другой системе координат выражение для функции полезности обычно не будет квадратичным, но это все та же функция полезности на многообразии параметров.
Оценки , связанные с функцией полезности является точкой , которая максимизирует ожидаемую полезность данный наши данные . В системе координат ее координата:
Это определение не зависит от изменения координат: в новых координатах координата оценщика равна . Это следует из независимости координат и интеграла.P^GDxx^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***)
y=f(x)y^=f(x^)G
Вы видите, что этот вид инвариантности является встроенным свойством байесовских оценок.
Теперь мы можем спросить: есть ли полезная функция, которая приводит к оценке, равной максимально правдоподобной? Поскольку оценщик максимального правдоподобия инвариантен, такая функция может существовать. С этой точки зрения, максимальная вероятность была бы бессмысленной с байесовской точки зрения, если бы она не была инвариантной!
Функция полезности, которая в конкретной системе координат равна дельте Дирака, , похоже, делает эту работу [3]. Уравнение дает , и если в равномерен по координате , мы получить оценку максимального правдоподобия . В качестве альтернативы мы можем рассмотреть последовательность вспомогательных функций со все меньшей поддержкой, например, если и другом месте, для [4].xGx(x0;x)=δ(x0−x)(***)x^=argmaxxp(x∣D)(**)x(*)Gx(x0;x)=1|x0−x|<ϵGx(x0;x)=0ϵ→0
Итак, да, оценка максимального правдоподобия и ее инвариантность могут иметь смысл с байесовской точки зрения, если мы математически щедры и принимаем обобщенные функции. Но само значение, роль и использование оценки в байесовской перспективе полностью отличаются от тех, что используются в частой перспективе.
Позвольте мне также добавить, что в литературе, похоже, существуют оговорки относительно того, имеет ли функция полезности, определенная выше, математический смысл [5]. В любом случае, полезность такой функции полезности довольно ограничена: как отмечает Джейнс [3], это означает, что «мы заботимся только о шансе быть абсолютно правильным; и, если мы ошибаемся, нам все равно как мы ошибаемся ".
Теперь рассмотрим утверждение «максимальное правдоподобие является частным случаем максимума-апостериори с единообразным априором». Важно отметить, что происходит при общем изменении координат :
1. выше функция полезности принимает другое выражение, ;
2. предшествующая плотность в координате не является равномерной из-за определителя Якоби;
3. оценка не является максимумом апостериорной плотности в координате , потому что дельта Дирака приобрела дополнительный мультипликативный коэффициент;y=f(x)
Gy(y0;y)=δ[f−1(y0)−f−1(y)]≡δ(y0−y)|f′[f−1(y0)]|
y
y
4. оценка по-прежнему дается максимумом вероятности в новых координатах .
Эти изменения объединяются, так что точка оценки остается неизменной на многообразии параметров.y
Таким образом, приведенное выше утверждение неявно предполагает специальную систему координат. Предварительное, более явное утверждение могло бы быть таким: «Оценщик максимального правдоподобия численно равен байесовскому оценщику, который в некоторой системе координат имеет функцию дельта-полезности и равномерный априор».
Заключительные комментарии
Вышеприведенное обсуждение является неформальным, но может быть уточнено с помощью теории мер и интеграции Стилтьеса.
В байесовской литературе мы также можем найти более неформальное понятие оценки: это число, которое каким-то образом «суммирует» распределение вероятностей, особенно когда неудобно или невозможно указать его полную плотность ; см., например, Мерфи [6] или Маккей [7]. Это понятие обычно отделено от теории принятия решений и, следовательно, может зависеть от координат или молчаливо предполагает определенную систему координат. Но в теоретико-решающем определении оценки то, что не является инвариантным, не может быть оценщиком.p(x∣D)dx
[1] Например, Х. Райффа, Р. Шлайфер: Теория прикладных статистических решений (Wiley 2000).
[2] Й. Шоке-Брюхат, К. ДеВитт-Моретт, М. Диллард-Блейк: Анализ, многообразия и физика. Часть I: Основы (Elsevier 1996) или любая другая хорошая книга по дифференциальной геометрии.
[3] ET Jaynes: теория вероятностей: логика науки (издательство Cambridge University Press 2003), §13.10.
[4] Ж.-М. Бернардо, А.Ф. Смит: Байесовская теория (Wiley 2000), §5.1.5.
[5] И.Х. Джермин: инвариантная байесовская оценка на многообразиях https://doi.org/10.1214/009053604000001273 ; Р. Бассетт, Дж. Дерид: максимальные апостериорные оценки как предел байесовских оценок https://doi.org/10.1007/s10107-018-1241-0 .
[6] К.П. Мерфи: машинное обучение: вероятностная перспектива (MIT Press 2012), особенно гл. 5.
[7] DJC MacKay: теория информации, умозаключения и алгоритмы обучения (издательство Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .