Эвристически, функция плотности вероятности на с максимальной энтропией оказывается той, которая соответствует наименьшему количеству знаний о , другими словами, Равномерное распределение.{ х 1 , х 2 , . , , . х н }{ х1, х2, . , , . ИксN}{ х1, х2, . , , . ИксN}
Теперь для более формального доказательства рассмотрим следующее:
Функция плотности вероятности на - это набор неотрицательных действительных чисел которые складываются в 1. Энтропия - это непрерывная функция от кортежей , и эти точки лежат в компактном подмножестве , поэтому существует кортеж, в котором энтропия максимальна. Мы хотим показать, что это происходит в и больше нигде.р 1 , . , , , Р п п ( р 1 , . . . , Р п ) Р н п ( 1 / п , . . . , 1 / п ){ х1, х2, . , , . ИксN}п1, . , , , рNN( р1, . , , , рN)рNN( 1 / п , . . . , 1 / п )
Предположим, что не все равны, скажем, . (Ясно, что ) Мы найдем новую плотность вероятности с более высокой энтропией. Из этого следует, что, поскольку энтропия максимизируется в некотором кортеже, эта энтропия однозначно максимизируется в кортеже с для всех .p 1 < p 2 n ≠ 1 n n p i = 1 / n iпJп1< р2n ≠ 1NNпя= 1 / nя
Поскольку , для небольшого положительного мы имеем . Энтропия минус энтропия равна ε р 1 + ε < р 2 - ε { р 1 + ε , р 2 - ε , р 3 , . , , , Р п } { р 1 , р 2 , р 3 , . , , , п н }п1< р2εп1+ ε < p2- ε{ р1+ ε , p2- ε , р3, . , , , рN}{ р1, р2, р3, . , , , рN}
ε-p1log(1+ε
- р1журнал( р1+ εп1) -εlog( р1+ ε ) - p2журнал( р2- εп2) +εlog( р2- ε )
Чтобы завершить доказательство, мы хотим показать, что это положительно для достаточно малого . Перепишите вышеприведенное уравнение как
ε- р1журнал( 1 + εп1) -ε ( журналп1+ журнал( 1 + εп1) ) - р2журнал( 1 - εп2)+ ε ( журналп2+ журнал( 1 - εп2) )
Напоминая, что для малых , вышеприведенное уравнение имеет вид
что положительно, когда достаточно мал, так как .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2журнал( 1 + x ) = x + O ( x2)Икс
- ε - ε logп1+ ε + ε logп2+ O ( ε2) = ε log( р2/ р1) + O ( ε2)
εп1< р2
Менее строгое доказательство заключается в следующем:
Рассмотрим сначала следующую лемму:
Пусть и непрерывные функции плотности вероятности на интервале
в действительных числах, с и на . Мы имеем
если существуют оба интеграла. Более того, равенство существует тогда и только тогда, когда для всех .q ( x ) I p ≥ 0 q > 0 I - ∫ I p log p d x ≤ - ∫ I p log q d x p ( x ) = q ( x ) xр ( х )Q( х )яp ≥ 0Q> 0я
- ∫яр логр дх ≤ - ∫яр логQdИкс
p ( x ) = q(х )Икс
Теперь пусть - любая функция плотности вероятности на , где . Обозначая для всех ,
что является энтропией . Поэтому наша лемма говорит о с равенством тогда и только тогда, когда равномерно.{ х 1 , . , , , Х п } р я = р ( х я ) д я = 1 / п я - п Σ я = 1 р я войти д я = п Σ я = 1 р я лог п = лог п д ч ( р ) ≤ ч ( q )п{ х1, . ,, , хN}пя= р (хя)Qя= 1 / nя
- ∑я = 1NпяжурналQя= ∑я = 1Nпяжурналn = logN
Qh ( p ) ≤ h ( q)п
Кроме того, в Википедии есть краткое обсуждение этого: вики