Рассмотрим Байеса задней . Асимптотически его максимум возникает при оценке MLE , которая просто максимизирует вероятность .
Все эти концепции - байесовские априоры, максимизирующие вероятность - звучат сверхпринципно и вовсе не произвольно. Там не журнал в поле зрения.
Тем не менее, MLE минимизирует расхождение KL между реальным распределением и , т. Е. Минимизирует
Вау, откуда эти бревна? Почему KL расхождение в частности?
Почему, например, минимизация различных расхождений не соответствует сверхпринципным и мотивированным концепциям байесовских постеров и максимизирует вероятность выше?
Кажется, что-то особенное в дивергенции KL и / или журналах в этом контексте. Конечно, мы можем поднять руки вверх и сказать, что математика такова. Но я подозреваю, что может быть какая-то более глубокая интуиция или связи, чтобы раскрыть.