Почему дивергенция КЛ неотрицательна?
С точки зрения теории информации у меня есть такое интуитивное понимание:
Скажем, есть два ансамбля и которые состоят из одного и того же набора элементов, помеченных знаком . и - разные распределения вероятностей по ансамблю и соответственно.
С точки зрения теории информации, представляет собой наименьшее количество битов , которое требуется для записи элемент х для ансамбля А . Так что ожидание Е х Руководство ∈ е н сек е м б л е - р ( х ) LN ( р ( х ) ) можно интерпретировать как , по меньшей мере , сколько бит , что нам нужно для записи элемент в А в среднем.
Поскольку эта формула устанавливает нижнюю границу для битов, которые нам нужны в среднем, так что для другого ансамбля который приводит к другому распределению вероятности q ( x ) , граница, которую она дает для каждого элемента x , безусловно, не будет битом, который определяется как p ( x ) , что означает принятие ожидания, ∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) )
я не ставлюздесь≥,посколькуp(x)иq(x)различны.
Это мое интуитивное понимание, существует ли чисто математический способ доказать, что дивергенция КЛ неотрицательна? Проблема может быть сформулирована как:
Как это можно доказать? Или это можно доказать без дополнительных условий?