Методы MaxEnt и байесовского вывода соответствуют различным способам включения информации в процедуру моделирования. И то, и другое можно поставить на аксиоматическую почву ( «Аксиомы максимальной энтропии» Джона Скиллинга и «Алгебра вероятного вывода» Кокса ).
Байесовский подход прост в применении, если ваши предыдущие знания приходят в форме измеримой действительной функции в пространстве ваших гипотез, так называемый «предыдущий». MaxEnt прост, когда информация представляет собой набор жестких ограничений в пространстве ваших гипотез. В реальной жизни знания не приходят ни в «предыдущей» форме, ни в форме «ограничений», поэтому успех вашего метода зависит от вашей способности представлять свои знания в соответствующей форме.
Что касается игрушечной задачи, то усреднение по байесовской модели даст вам наименьшую среднюю потерю в журнале (усредненную по многим отрисовкам модели), когда предыдущая соответствует истинному распределению гипотез. Подход MaxEnt даст вам наименьшую потерю журнала в худшем случае, когда его ограничения будут выполнены (наихудшее из всех возможных априоров)
ETJaynes, считающийся отцом методов "MaxEnt", также полагался на байесовские методы. На странице 1412 своей книги он приводит пример, где байесовский подход привел к хорошему решению, а затем пример, когда подход MaxEnt является более естественным.
Максимальное правдоподобие сводит модель к тому, что она лежит внутри некоторого заранее определенного пространства модели и пытается подогнать ее «настолько жестко, насколько возможно», в том смысле, что она будет иметь самую высокую чувствительность к данным из всех методов выбора модели, ограниченных такой моделью. Космос. В то время как MaxEnt и Bayesian - это фреймворки, ML - это метод подбора конкретной модели, и для некоторых конкретных вариантов проектирования ML может в конечном итоге использовать метод, основанный на байесовском или MaxEnt-подходе. Например, MaxEnt с ограничениями равенства эквивалентен подгонке по методу максимального правдоподобия некоторого экспоненциального семейства. Аналогично, приближение к байесовскому выводу может привести к регуляризованному решению с максимальным правдоподобием. Если вы выбираете свой предварительный вариант, чтобы сделать свои выводы максимально чувствительными к данным, результат байесовского вывода будет соответствовать подгонке по методу максимального правдоподобия. Например,ппо испытаниям Бернулли, таким предварительным было бы предельное распределение бета (0,0)
Реальные успехи машинного обучения часто представляют собой смесь различных философий. Например, «Случайные поля» были получены из принципов MaxEnt. Самая популярная реализация идеи, регуляризованная CRF, предполагает добавление «априора» к параметрам. В результате метод не является на самом деле MaxEnt или Bayesian, но под влиянием обеих школ мысли.
Я собрал несколько ссылок на философские основы подходов Байеса и MaxEnt здесь и здесь .
Примечание по терминологии: иногда люди называют свой метод байесовским просто, если в какой-то момент он использует правило Байеса. Аналогично, «MaxEnt» иногда используется для некоторого метода, который предпочитает решения с высокой энтропией. Это не то же самое, что «вывод MaxEnt» или «байесовский вывод», как описано выше