Является ли свойство инвариантности оценки ML бессмысленным с точки зрения Байеса?

Каселла и Бергер утверждают свойство инвариантности оценки ML следующим образом:

Тем не менее, мне кажется, что они определяют «вероятность» совершенно случайным и бессмысленным образом: $\eta$

Если я применяю основные правила теории вероятностей к простому случаю, когда , я получаю следующее: $\eta=\tau(\theta)=\theta^2$ Теперь применим теорему Байеса, а затем тот факт, чтоивзаимно исключают друг друга, так что мы можем применить правило сумм:

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$

A

$A$

B

$B$

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

Теперь снова примените теорему Байеса к членам в числителе:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

Если мы хотим максимизировать это значение до , чтобы получить максимальную оценку вероятности , мы должны максимизировать: $\eta$ $\eta$

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

Байес снова наносит удар? Каселла и Бергер ошибаются? Или я не прав?

— user56834
источник

Возможный дубликат свойства инвариантности оценки максимального правдоподобия?

— Секст Эмпирик

$\eta=\tau(\theta)=\theta^2$

Я понимаю ваше разочарование, Programmer2134 (& @MartijnWeterings). Однако, пожалуйста, будьте осторожны с вашим тоном в ваших комментариях. Продуктивные разговоры возможны только тогда , когда наша бы неплохо политика следования. Если вы не заинтересованы в продолжении продуктивных бесед, вам нужно опубликовать эти вопросы в другом месте.

— gung - Восстановить Монику

@ gung, ты совершенно прав. И я сожалею, что отреагировал таким тоном. Я перестану делать это с этого момента. Прошу прощения. Что касается разговора, я заинтересован в продолжении продуктивных, но чувствовал, что реакция людей на пару вопросов, которые я задавал, была в основном контрпродуктивной. Тем не менее, в следующий раз я отвечу иначе.

— user56834

Спасибо. Лучше всего предположить, что люди отвечают добросовестно. Есть (относительно немного, IMHO) случаи, когда людей здесь нет, но даже тогда иногда их можно уговорить прийти.

— gung - Восстановить Монику

Как говорит Сиань, вопрос спорный, но я думаю, что многие люди, тем не менее, вынуждены рассматривать оценку максимального правдоподобия с байесовской точки зрения из-за заявления, которое появляется в некоторой литературе и в Интернете: « максимальное правдоподобие оценка представляет собой частный случай апостериорной оценки байесовского максимума, когда предварительное распределение является равномерным ».

Я бы сказал, что с байесовской точки зрения оценка максимального правдоподобия и ее свойство инвариантности могут иметь смысл, но роль и значение оценок в байесовской теории очень отличаются от теории частых. И эта конкретная оценка обычно не очень разумна с точки зрения Байеса. Вот почему Для простоты рассмотрим одномерный параметр и однозначные преобразования.

Прежде всего два замечания:

$T=273.16$ $t=0.01$ $\theta=32.01$ $\eta=5.61$
$\mathrm{p}(x)\,\mathrm{d}x$
$x$

$\Delta x$ $\mathrm{p}(x)\,\Delta x$ $x$
$\mathrm{d}x$

$\mathrm{p}(x_1) > \mathrm{p}(x_2)$ $x_1$ $x_2$ $x$ $x_1$ $x_2$

$x$ $\tilde{x}$ $D$

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$

Этот оценщик выбирает точку на многообразии параметров и поэтому не зависит от какой-либо системы координат. Иначе говоря: каждая точка на многообразии параметров связана с числом: вероятность для данных ; мы выбираем точку, которая имеет наибольший связанный номер. Этот выбор не требует системы координат или базовой меры. Именно по этой причине этот оценщик является инвариантом параметризации, и это свойство говорит нам, что это не вероятность, как хотелось бы. Эта инвариантность сохраняется, если мы рассмотрим более сложные преобразования параметров, и вероятность профиля, упомянутая Сианьем, имеет полный смысл с этой точки зрения. $D$

Давайте посмотрим Байес точки зрения
С этой точки зрения она всегда имеет смысл говорить о вероятности непрерывного параметра, если мы не уверены в этом, обусловливающих данных и других доказательства . Мы записываем это как Как отмечалось в начале, эта вероятность относится к интервалам на множестве параметров, а не к отдельным точкам. $D$

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$

В идеале мы должны сообщить о нашей неопределенности, указав полное распределение вероятностей для параметра. Таким образом, понятие оценки является вторичным с байесовской точки зрения. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

Это понятие появляется, когда мы должны выбрать одну точку на многообразии параметров для какой-то конкретной цели или причины, даже если истинная точка неизвестна. Этот выбор является сферой теории принятия решений [1], а выбранное значение является правильным определением «оценщика» в байесовской теории. Теория принятия решений говорит, что мы должны сначала ввести функцию полезности которая говорит нам, сколько мы получаем, выбирая точку на многообразии параметров, когда истинной точкой является (альтернативно, мы можем пессимистично говорить о функции потерь). Эта функция будет иметь разные выражения в каждой системе координат, например, и $(P_0,P)\mapsto G(P_0; P)$ $P_0$ $P$ $(x_0,x)\mapsto G_x(x_0; x)$ $(y_0,y)\mapsto G_y(y_0; y)$ ; если преобразование координат , два выражения связаны выражением [2]. $y=f(x)$ $G_x(x_0;x) = G_y[f(x_0); f(x)]$

Позвольте мне сразу подчеркнуть, что когда мы говорим, скажем, о квадратичной функции полезности, мы неявно выбрали конкретную систему координат, обычно естественную для параметра. В другой системе координат выражение для функции полезности обычно не будет квадратичным, но это все та же функция полезности на многообразии параметров.

Оценки , связанные с функцией полезности является точкой , которая максимизирует ожидаемую полезность данный наши данные . В системе координат ее координата: Это определение не зависит от изменения координат: в новых координатах координата оценщика равна . Это следует из независимости координат и интеграла. $\hat{P}$ $G$ $D$ $x$

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$

y = f (x)

$y=f(x)$

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$

G

$G$

Вы видите, что этот вид инвариантности является встроенным свойством байесовских оценок.

Теперь мы можем спросить: есть ли полезная функция, которая приводит к оценке, равной максимально правдоподобной? Поскольку оценщик максимального правдоподобия инвариантен, такая функция может существовать. С этой точки зрения, максимальная вероятность была бы бессмысленной с байесовской точки зрения, если бы она не была инвариантной!

Функция полезности, которая в конкретной системе координат равна дельте Дирака, , похоже, делает эту работу [3]. Уравнение дает , и если в равномерен по координате , мы получить оценку максимального правдоподобия . В качестве альтернативы мы можем рассмотреть последовательность вспомогательных функций со все меньшей поддержкой, например, если и другом месте, для [4]. $x$ $G_x(x_0; x) = \delta(x_0-x)$ $\eqref{UF}$ $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ $\eqref{PD}$ $x$ $\eqref{ML}$ $G_x(x_0; x) = 1$ $\lvert x_0-x \rvert<\epsilon$ $G_x(x_0; x) = 0$ $\epsilon\to 0$

Итак, да, оценка максимального правдоподобия и ее инвариантность могут иметь смысл с байесовской точки зрения, если мы математически щедры и принимаем обобщенные функции. Но само значение, роль и использование оценки в байесовской перспективе полностью отличаются от тех, что используются в частой перспективе.

Позвольте мне также добавить, что в литературе, похоже, существуют оговорки относительно того, имеет ли функция полезности, определенная выше, математический смысл [5]. В любом случае, полезность такой функции полезности довольно ограничена: как отмечает Джейнс [3], это означает, что «мы заботимся только о шансе быть абсолютно правильным; и, если мы ошибаемся, нам все равно как мы ошибаемся ".

Теперь рассмотрим утверждение «максимальное правдоподобие является частным случаем максимума-апостериори с единообразным априором». Важно отметить, что происходит при общем изменении координат : 1. выше функция полезности принимает другое выражение, ; 2. предшествующая плотность в координате не является равномерной из-за определителя Якоби; 3. оценка не является максимумом апостериорной плотности в координате , потому что дельта Дирака приобрела дополнительный мультипликативный коэффициент; $y=f(x)$
$G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$
$y$
$y$
4. оценка по-прежнему дается максимумом вероятности в новых координатах . Эти изменения объединяются, так что точка оценки остается неизменной на многообразии параметров. $y$

Таким образом, приведенное выше утверждение неявно предполагает специальную систему координат. Предварительное, более явное утверждение могло бы быть таким: «Оценщик максимального правдоподобия численно равен байесовскому оценщику, который в некоторой системе координат имеет функцию дельта-полезности и равномерный априор».

Заключительные комментарии
Вышеприведенное обсуждение является неформальным, но может быть уточнено с помощью теории мер и интеграции Стилтьеса.

В байесовской литературе мы также можем найти более неформальное понятие оценки: это число, которое каким-то образом «суммирует» распределение вероятностей, особенно когда неудобно или невозможно указать его полную плотность ; см., например, Мерфи [6] или Маккей [7]. Это понятие обычно отделено от теории принятия решений и, следовательно, может зависеть от координат или молчаливо предполагает определенную систему координат. Но в теоретико-решающем определении оценки то, что не является инвариантным, не может быть оценщиком. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

[1] Например, Х. Райффа, Р. Шлайфер: Теория прикладных статистических решений (Wiley 2000).
[2] Й. Шоке-Брюхат, К. ДеВитт-Моретт, М. Диллард-Блейк: Анализ, многообразия и физика. Часть I: Основы (Elsevier 1996) или любая другая хорошая книга по дифференциальной геометрии.
[3] ET Jaynes: теория вероятностей: логика науки (издательство Cambridge University Press 2003), §13.10.
[4] Ж.-М. Бернардо, А.Ф. Смит: Байесовская теория (Wiley 2000), §5.1.5.
[5] И.Х. Джермин: инвариантная байесовская оценка на многообразиях https://doi.org/10.1214/009053604000001273 ; Р. Бассетт, Дж. Дерид: максимальные апостериорные оценки как предел байесовских оценок https://doi.org/10.1007/s10107-018-1241-0 .
[6] К.П. Мерфи: машинное обучение: вероятностная перспектива (MIT Press 2012), особенно гл. 5.
[7] DJC MacKay: теория информации, умозаключения и алгоритмы обучения (издательство Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

— pglpm
источник

Существуют способы определения инвариантных байесовских оценок в указанном выше смысле путем создания функциональной функции потерь, как, например, расхождение Кульбака-Лейблера между двумя плотностями. Я назвал эти потери собственными потерями в статье 1996 года .

— Сиань

С небайесовской точки зрения не существует определения величин, таких как потому что тогда является фиксированным параметром, а условная запись делает не имеет смысла. Альтернатива, которую вы предлагаете, основывается на предварительном распространении, и именно этого хочет избежать подход, такой как предложенный Казеллой и Бергером . Вы можете проверить вероятность профиля ключевого слова для большего количества записей. (И в этом нет никакого смысла или нет.)

p (x | θ = - \sqrt{η} \lor θ = \sqrt{η})

$p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)$

θ

$\theta$ rightwrong

— Сиань
источник

Как это противоречит тому, что я говорю? Я хотел сказать, что это бессмысленно с байесовской точки зрения . Проблема, с которой я столкнулся в случае решения Казеллы и Бергера, заключается в том, что в основном они придумали совершенно новое специальное определение вероятности таким образом, что их желаемое заключение было достигнуто. Если бы кто-то давал согласованное определение вероятности, а именно то, которое я дал выше, то вывод был бы другим. Конечно, Казелла и Бергер, возможно, захотят не вводить приоры, но единственный способ сделать это - предложить специальное изменение определения вероятности.

— user56834

Если вы хотите сохранить байесовскую перспективу, вопрос спорный, так как большинство небайесовских результатов не будет иметь смысла или «будет соответствовать» байесовским принципам.

— Сиань