Сравнение оценки максимального правдоподобия (MLE) и теоремы Байеса


12

В теореме Байеса , а из книги, которую я читаю, называется вероятность , но я предполагаю , что это всего лишь условная вероятность от дается , не так ли? p(x|y)

п(Y|Икс)знак равноп(Икс|Y)п(Y)п(Икс)
п(Икс|Y)уИксY

Оценка максимального правдоподобия пытается максимизировать , верно? Если это так, я сильно запутался, потому что обе случайные величины, верно? Для максимального только выяснить , в ? Еще одна проблема, если эти 2 случайные величины независимы, то это просто , верно? Тогда максимизация означает максимизацию .х , у р ( х | у )п(Икс|Y)Икс,Yп(Икс|Y) р(х|у)р(х)р(х|у)р(х)Y^п(Икс|Y)п(Икс)п(Икс|Y)п(Икс)

Или, может быть, п(Икс|Y) является функцией некоторых параметров θ , то есть п(Икс|Y;θ) , и MLE пытается найти θ которая может максимизировать п(Икс|Y) ? Или даже , что Y на самом деле параметры модели, а не случайной величины, максимизируя вероятность, чтобы найти у ?Y^

ОБНОВИТЬ

Я новичок в машинном обучении, и эта проблема - путаница из материала, который я прочитал из учебника по машинному обучению. Здесь, учитывая наблюдаемый набор данных {Икс1,Икс2,,,,,ИксN} , целевыми значениями являются , и я пытаюсь подогнать модель по этому набору данных, поэтому я предполагаю, что, учитывая , имеет форму распределения с именем параметризованный , то есть , и я предполагаю, что это апостериорная вероятность , верно?x y W θ p ( y | x ; θ ){Y1,Y2,,,,,YN}ИксYWθп(Y|Икс;θ)

Теперь, чтобы оценить значение , я использую MLE. Хорошо, вот моя проблема, я думаю, что вероятность , верно? Максимизация вероятности означает, что я должен выбрать правильные и ?p ( x | y ; θ )θп(Икс|Y;θ)yθY

Если мое понимание вероятности неверно, пожалуйста, покажите мне правильный путь.


Я думаю, что путаница заключается в следующем: теорема Байеса - это просто манипулирование условными вероятностями, которые вы даете в начале своего вопроса. Байесовская оценка использует теорему Байеса , чтобы сделать оценки параметров. Только в последнем случае в игру вступают оценка максимального правдоподобия (MLE), параметр тета и т. Д.
Жубарб

@Berkan, ну, на самом деле я пытаюсь выяснить, какова вероятность, учитывая . Икс,Y,θ
авокадо

1
Я вижу, я бы порекомендовал вам взглянуть на этот большой набор вводных слайдов лекций в оценке параметров.
Жубарб

1
Еще одна замечательная тема для чтения - «Эмпирические байесовские оценки». Мы только что узнали о них в моем классе :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic,

Ответы:


16

Я думаю, что основное недоразумение проистекает из вопросов, которые вы задаете в первой половине вашего вопроса. Я отношусь к этому ответу как к контрасту MLE и байесовской логической логики. Очень доступное обсуждение MLE можно найти в главе 1 Гэри Кинга « Объединяющая политическая методология». Байесовский анализ данных Гельмана может предоставить подробную информацию о байесовской стороне.

В теореме Байеса и из книги, которую я читаю,p(x|y)называется вероятностью, но я предполагаю, что это просто условная вероятностьx,заданнаяy, верно?

п(Y|Икс)знак равноп(Икс|Y)п(Y)п(Икс)
п(Икс|Y)ИксY

Вероятность - это условная вероятность. Для байесовской формулы эта формула описывает распределение параметра учетом данных x и предшествующего значения p ( y ) . Но поскольку эти обозначения не отражают ваше намерение, впредь я буду использовать ( θ , y ) для параметров и x для ваших данных.YИксп(Y)θYИкс

Но ваше обновление указывает, что наблюдаются из некоторого распределения p ( x | θ , y ) . Если мы разместим наши данные и параметры в соответствующих местах в правиле Байеса, мы обнаружим, что эти дополнительные параметры не создают проблем для байесовских уравнений: p ( θ | x , y ) = p ( x , y | θ ) p ( θ )Иксп(Икс|θ,Y)

п(θ|Икс,Y)знак равноп(Икс,Y|θ)п(θ)п(Икс,Y)

Я верю, что это выражение - то, что вам нужно в вашем обновлении.

Оценка максимального правдоподобия пытается максимизировать , верно?п(Икс,Y|θ)

Да. MLE утверждает, что то есть обрабатывает член p ( θ , y )

п(Икс,Y|θ)αп(θ|Икс,Y)
как неизвестная (и непознаваемая) константа. Напротив, в байесовском умозаключенииp(x)рассматриваетсякак нормализующая константа (так что вероятности суммируются / интегрируются в единицу), аp(θ,y) -как ключевой элемент информации: предыдущая. Мы можем думать оp(θ,y)как о способе наложения штрафа на процедуру оптимизации за «слишком большое отклонение» от региона, который мы считаем наиболее вероятным.п(θ,Y)п(Икс)п(Икс)п(θ,Y)п(θ,Y)

Если это так, я сильно запутался, потому что - случайные переменные, верно? Для максимального р ( х , у | & thetas ; ) просто выяснить & thetas ?Икс,Y,θп(Икс,Y|θ)θ^

В предполагается быть фиксированной величиной, неизвестно , но в состоянии сделать вывод, не является случайной величиной. Байесовский вывод рассматривает θ как случайную величину. Функции плотности байесовской логический вывод ставит вероятность в и получают функцию плотности вероятности из , а не точечного резюме модели, как и в ОМПЕ. То есть, байесовский вывод рассматривает полный диапазон значений параметров и вероятность каждого из них. MLE утверждает , что θ является адекватной сводкой данных , приведенных в модель.θ^θθ^


1
Спасибо за ваш ответ, я обновляю свой пост, пожалуйста, смотрите мое обновление.
авокадо

Это обновление в корне изменило мое понимание вопроса. Сначала я думал, что вы рассматриваете как параметр и x как ваши данные. Теперь кажется, что ( x , y ) являются данными, и вы заинтересованы в построении модели, которая описывает отношения между x и y . Я изменю свой ответ, как у меня есть время. YИкс(Икс,Y)ИксY
Sycorax говорит восстановить Monica

+1 Это по-прежнему отличный ответ: я надеюсь, что вы сохраните его практически без изменений, даже если вы измените его, чтобы соответствовать изменениям в вопросе.
whuber

Я обновил свой ответ, чтобы отразить ваш обновленный вопрос. Я надеюсь, что эти детали помогут. Я действительно рекомендую ссылаться на ссылки, которые я упоминаю. И я надеюсь, что @whuber все еще одобряет. ;-)
Sycorax говорит восстановить Monica

Большое спасибо за обновление, так что вы имеете в виду, что, хотя я выбираю форму распределения для , я должен относиться к x , y как к наблюдаемым данным, когда пытаюсь оценить θ ? p(y|x)x,yθ
авокадо

3

Обычно является функцией параметра y . Рассмотрим следующую переформулировку теоремы Байеса:p(x|y)y

п(θ|Икс)знак равноп(Икс|θ)п(θ)п(Икс)

Или даже более явно (в отношении понятия вероятности):

п(θ|Икс)знак равноL(θ;Икс)п(θ)п(Икс)

Для конкретного примера рассмотрим модель

Икс|θ~ВяNомяaL(θ)θ~ВеTa(α,β)

YИкс

Y обычно является параметром в PDF-файле X. В настройке для часто используемых пользователей y обычно является фиксированным значением. В байесовской системе Y само является случайной величиной (как в примере, который я привел). X | Y также может быть условной вероятностью в том смысле, в каком вы имеете в виду, я пытался дать вам мотивацию, почему эта величина называется вероятностью.
Дэвид Маркс

θИкс

То, что что-то является случайной переменной, не означает, что она не может быть параметром. Добро пожаловать в удивительный мир байесовской вероятности :)
Дэвид Маркс

0
  • п(Икс|Y)

п(Икс|Y)ИксY

  • п(Икс|Y)п(Икс)п(Икс|Y)п(Икс)

п(Икс|Y)знак равноп(Икс)п(Икс)YY

  • п(Икс|Y)θп(Икс|Y;θ)θп(Икс|Y)Y^

θYп(Икс|Y;θ)θ


θИксYθ

0

Из справочного руководства STAN:

Если предшествующее является однородным, задний режим соответствует оценке максимального правдоподобия (MLE) параметров. Если предшествующее значение не является однородным, задний режим иногда называют максимальной апостериорной (MAP) оценкой.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.