MLE против MAP оценки, когда использовать какой?


14

MLE = оценка максимального правдоподобия

MAP = максимум апостериорный

MLE интуитивно понятен / наивен в том смысле, что он начинается только с вероятности наблюдения с учетом параметра (то есть функции правдоподобия) и пытается найти параметр, наилучшим образом соответствующий наблюдению . Но это не принимать во внимание предшествующее знание.

MAP кажется более разумным, потому что он принимает во внимание предшествующее знание через правило Байеса.

Вот связанный вопрос, но ответ не исчерпывающий. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Итак, я думаю, что MAP намного лучше. Это правильно? И когда я должен использовать какой?

Ответы:


18

Если в качестве составной части проблемы задана предварительная вероятность, используйте эту информацию (т. Е. Используйте MAP). Если такая предварительная информация не предоставлена ​​или не принята, то MAP невозможен, и MLE является разумным подходом.


9
Стоит добавить, что MAP с плоскими приорами эквивалентны использованию ML.
Тим

Также стоит отметить, что если вы хотите математически «удобный» априор, вы можете использовать сопряженный априор, если таковой существует для вашей ситуации.
боб

8

Байесовец согласился бы с вами, а частый - нет. Это вопрос мнения, перспективы и философии. Я думаю, что статистическому сообществу очень вредно пытаться утверждать, что один метод всегда лучше другого. Многие проблемы будут иметь байесовские и частые решения, которые похожи до тех пор, пока байесовский не слишком сильный предшественник.


7
Это не просто вопрос мнения. Существуют определенные ситуации, когда один оценщик лучше другого.
Том Минка

2
@ TomMinka Я никогда не говорил, что не бывает ситуаций, когда один метод лучше другого! Я просто ответил на общие заявления ФП, такие как «MAP кажется более разумным». Такое утверждение эквивалентно утверждению, что байесовские методы всегда лучше, и это утверждение, с которым вы и я, очевидно, оба не согласны.
Jsk

Джок прав. Байесовский и частичный подходы философски различны. Таким образом, строгий частый участник счел бы байесовский подход неприемлемым.
Майкл Р. Черник

2

Предполагая, что у вас есть точная предварительная информация, лучше использовать MAP, если в оценке есть функция с нулевым убытком. Если потеря не равна нулю (а во многих реальных проблемах это не так), то может случиться, что MLE достигнет более низкой ожидаемой потери. В этих случаях было бы лучше не ограничивать себя MAP и MLE как единственными двумя вариантами, поскольку они оба неоптимальны.


Оценщик MAP, если параметр зависит от параметризации, тогда как потеря "0-1" - нет. 0-1 в кавычках, потому что по моим подсчетам все оценщики, как правило, дают потерю 1 с вероятностью 1, и любая попытка построить аппроксимацию снова приводит к проблеме параметризации
парень

1
На мой взгляд, ноль-один убыток зависит от параметризации, поэтому несоответствия нет.
Том Минка

0

Краткий ответ @bean объясняет это очень хорошо. Тем не менее, я хотел бы указать на раздел 1.1 статьи « Выборка Гиббса» для непосвященных Ресником и Хардисти, в которой этот вопрос рассматривается более подробно. Я пишу несколько строк из этой статьи с очень небольшими изменениями (этот ответ повторяет несколько вещей, которые ОП знает для полноты)

MLE

Формально MLE производит выбор (параметра модели), наиболее вероятно генерирующий наблюдаемые данные.

КАРТА

Оценка MAP - это выбор, который наиболее вероятен с учетом наблюдаемых данных. В отличие от MLE, оценка MAP применяет правило Байеса, так что наша оценка может учитывать предыдущие знания о том, что мы ожидаем, что наши параметры будут в форме предварительного распределения вероятностей.

Улов

Оценки MLE и MAP дают нам наилучшую оценку в соответствии с их соответствующими определениями «best». Но обратите внимание, что при использовании одной оценки - будь то MLE или MAP - выбрасывается информация. В принципе, параметр может иметь любое значение (из домена); не могли бы мы получить более точные оценки, если бы мы приняли во внимание все распределение, а не только одно оценочное значение для параметра? Если мы делаем это, мы используем всю информацию о параметре, которую мы можем извлечь из наблюдаемых данных, X.

Так что с этим уловом мы могли бы не использовать ни один из них. Кроме того, как уже упоминалось Бином и Тимом, если вам нужно использовать один из них, используйте MAP, если вы получили ранее. Если у вас нет априоров, MAP уменьшается до MLE. Сопряженные априорные значения помогут решить проблему аналитически, в противном случае используйте выборку Гиббса.


0

Поскольку мы знаем, что

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

Приоритет рассматривается как регуляризатор, и если вы знаете предшествующее распределение, например, Гауссин ( ) в линейной регрессии, и лучше добавить, что регуляризация для лучшей производительности.exp(λ2θTθ)


-2

Если данных меньше и у вас есть априоры - «ПЕРЕЙТИ К КАРТЕ». Если у вас много данных, MAP будет сходиться к MLE. Таким образом, в случае сценария с большим количеством данных всегда лучше делать MLE, а не MAP.


1
Это не так просто.
Майкл Р. Черник

@MichaelChernick Я могу ошибаться. Я читал это в аспирантуре. Я прошу вас исправить меня, где я ошибся.
Heisenbug

Частотный подход и байесовский подход философски различны. Частотный подход оценивает значение параметров модели на основе повторной выборки. Байесовский подход рассматривает параметр как случайную величину. Таким образом, в байесовском подходе вы получаете апостериорное распределение параметра, объединяющее априорное распределение с данными. MAP ищет самый высокий пик апостериорного распределения, в то время как MLE оценивает параметр, рассматривая только функцию правдоподобия данных.
Майкл Р. Черник

@MichaelChernick - Спасибо за ваш вклад. Но разве MAP не ведет себя как MLE, когда у нас есть достаточно данных? Если мы нарушаем выражение MAP, мы также получаем термин MLE. При большом количестве данных термин MLE в MAP берет на себя приоритет.
Heisenbug

Это зависит от предыдущих и количества данных. Они могут дать аналогичные результаты в больших выборках. Разница в интерпретации. Мой комментарий должен был показать, что это не так просто, как вы делаете это. С небольшим количеством данных это не просто вопрос выбора MAP, если у вас есть предварительный. Плохо выбранный априор может привести к плохому заднему распределению и, следовательно, к плохому MAP.
Майкл Р. Черник
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.