Краткий ответ @bean объясняет это очень хорошо. Тем не менее, я хотел бы указать на раздел 1.1 статьи « Выборка Гиббса» для непосвященных Ресником и Хардисти, в которой этот вопрос рассматривается более подробно. Я пишу несколько строк из этой статьи с очень небольшими изменениями (этот ответ повторяет несколько вещей, которые ОП знает для полноты)
MLE
Формально MLE производит выбор (параметра модели), наиболее вероятно генерирующий наблюдаемые данные.
КАРТА
Оценка MAP - это выбор, который наиболее вероятен с учетом наблюдаемых данных. В отличие от MLE, оценка MAP применяет правило Байеса, так что наша оценка может учитывать предыдущие знания о том, что мы ожидаем, что наши параметры будут в форме предварительного распределения вероятностей.
Улов
Оценки MLE и MAP дают нам наилучшую оценку в соответствии с их соответствующими определениями «best». Но обратите внимание, что при использовании одной оценки - будь то MLE или MAP - выбрасывается информация. В принципе, параметр может иметь любое значение (из домена); не могли бы мы получить более точные оценки, если бы мы приняли во внимание все распределение, а не только одно оценочное значение для параметра? Если мы делаем это, мы используем всю информацию о параметре, которую мы можем извлечь из наблюдаемых данных, X.
Так что с этим уловом мы могли бы не использовать ни один из них. Кроме того, как уже упоминалось Бином и Тимом, если вам нужно использовать один из них, используйте MAP, если вы получили ранее. Если у вас нет априоров, MAP уменьшается до MLE. Сопряженные априорные значения помогут решить проблему аналитически, в противном случае используйте выборку Гиббса.