Почему энтропия максимизируется, когда распределение вероятностей равномерно?

32

Я знаю, что энтропия - это мера случайности процесса / переменной, и ее можно определить следующим образом. для случайной величины множестве : - . В книге МакКея об энтропии и теории информации он приводит это утверждение в гл. 2 $X \in$ $A$ $H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i))$

Энтропия максимальна, если р равномерно.

Интуитивно, я могу понять это, как если бы все точки данных в наборе выбирались с равной вероятностью ( является количеством элементов множества ), то случайность или энтропия увеличивались. Но если мы знаем, что некоторые точки в множестве будут встречаться с большей вероятностью, чем другие (скажем, в случае нормального распределения, где максимальная концентрация точек данных находится вокруг среднего значения и области стандартного малого отклонения вокруг него, то случайность или энтропия должна уменьшиться. $A$ $1/m$ $m$ $A$ $A$

Но есть ли математическое подтверждение этому? Как и уравнение для я дифференцирую его по и устанавливаю в 0 или что-то в этом роде. $H(X)$ $p(x)$

Кстати, есть ли связь между энтропией, возникающей в теории информации, и вычислениями энтропии в химии (термодинамике)?

uniform entropy maximum-entropy

— user76170
источник

2

На этот вопрос ответили (мимоходом) на stats.stackexchange.com/a/49174/919 .

— whuber

Меня очень смущает другое утверждение, данное в книге Кристофера Бишопса, в котором говорится, что «для единственной реальной переменной распределение, максимизирующее энтропию, является гауссовым». В нем также говорится, что «многомерное распределение с максимальной энтропией для данной ковариации является гауссовым». Насколько это утверждение верно? Разве энтропия равномерного распределения не всегда максимальная?

— user76170

6

Максимизация всегда выполняется с учетом ограничений на возможное решение. Когда ограничения заключаются в том, что все вероятности должны исчезнуть за предопределенные пределы, максимальное решение энтропии является равномерным. Когда вместо этого существуют ограничения на то, что ожидание и дисперсия должны равняться заранее заданным значениям, ME-решение является гауссовым. Заявления, которые вы цитируете, должны быть сделаны в определенных контекстах, где эти ограничения были заявлены или, по крайней мере, неявно поняты.

— whuber

2

Я, вероятно, также должен упомянуть, что слово «энтропия» означает нечто иное в гауссовой постановке, чем в исходном вопросе, поскольку тогда мы обсуждаем энтропию непрерывных распределений. Эта «дифференциальная энтропия» отличается от энтропии дискретных распределений. Основное отличие состоит в том, что дифференциальная энтропия не является инвариантной при смене переменных.

— whuber

Итак, что означает, что максимизация всегда в отношении ограничений? Что делать, если нет никаких ограничений? Я имею в виду, не может быть такой вопрос? Какое распределение вероятностей имеет максимальную энтропию?

— user76170

25

Эвристически, функция плотности вероятности на с максимальной энтропией оказывается той, которая соответствует наименьшему количеству знаний о , другими словами, Равномерное распределение. $\{x_1, x_2,..,.x_n\}$ $\{x_1, x_2,..,.x_n\}$

Теперь для более формального доказательства рассмотрим следующее:

Функция плотности вероятности на - это набор неотрицательных действительных чисел которые складываются в 1. Энтропия - это непрерывная функция от кортежей , и эти точки лежат в компактном подмножестве , поэтому существует кортеж, в котором энтропия максимальна. Мы хотим показать, что это происходит в и больше нигде. $\{x_1, x_2,..,.x_n\}$ $p_1,...,p_n$ $n$ $(p_1,...,p_n)$ $\mathbb{R}^n$ $n$ $(1/n,...,1/n)$

Предположим, что не все равны, скажем, . (Ясно, что ) Мы найдем новую плотность вероятности с более высокой энтропией. Из этого следует, что, поскольку энтропия максимизируется в некотором кортеже, эта энтропия однозначно максимизируется в кортеже с для всех . $p_j$ $p_1 < p_2$ $n\neq 1$ $n$ $n$ $p_i = 1/n$ $i$

Поскольку , для небольшого положительного мы имеем . Энтропия минус энтропия равна $p_1 < p_2$ $\varepsilon$ $p_1 + \varepsilon < p_2 -\varepsilon$ $\{p_1 + \varepsilon, p_2 -\varepsilon,p_3,...,p_n\}$ $\{p_1,p_2,p_3,...,p_n\}$

- p_{1} \log (\frac{p_{1} + ε}{p_{1}}) - ε \log (p_{1} + ε) - p_{2} \log (\frac{p_{2} - ε}{p_{2}}) + ε \log (p_{2} - ε)

$-p_1\log\left(\frac{p_1+\varepsilon}{p_1}\right)-\varepsilon\log(p_1+\varepsilon)-p_2\log\left(\frac{p_2-\varepsilon}{p_2}\right)+\varepsilon\log(p_2-\varepsilon)$ Чтобы завершить доказательство, мы хотим показать, что это положительно для достаточно малого . Перепишите вышеприведенное уравнение как

ε

$\varepsilon$

- p_{1} \log (1 + \frac{ε}{p_{1}}) - ε (\log p_{1} + \log (1 + \frac{ε}{p_{1}})) - p_{2} \log (1 - \frac{ε}{p_{2}}) + ε (\log p_{2} + \log (1 - \frac{ε}{p_{2}}))

$-p_1\log\left(1+\frac{\varepsilon}{p_1}\right)-\varepsilon\left(\log p_1+\log\left(1+\frac{\varepsilon}{p_1}\right)\right)-p_2\log\left(1-\frac{\varepsilon}{p_2}\right)+\varepsilon\left(\log p_2+\log\left(1-\frac{\varepsilon}{p_2}\right)\right)$

Напоминая, что для малых , вышеприведенное уравнение имеет вид что положительно, когда достаточно мал, так как . $\log(1 + x) = x + O(x^2)$ $x$

- ε - ε \log p_{1} + ε + ε \log p_{2} + O (ε^{2}) = ε \log (p_{2} / p_{1}) + O (ε^{2})

$-\varepsilon-\varepsilon\log p_1 + \varepsilon + \varepsilon \log p_2 + O(\varepsilon^2) = \varepsilon\log(p_2/p_1) + O(\varepsilon^2)$

ε

$\varepsilon$

p_{1} < p_{2}

$p_1 < p_2$

Менее строгое доказательство заключается в следующем:

Рассмотрим сначала следующую лемму:

Пусть и непрерывные функции плотности вероятности на интервале в действительных числах, с и на . Мы имеем если существуют оба интеграла. Более того, равенство существует тогда и только тогда, когда для всех . $p(x)$ $q(x)$ $I$ $p\geq 0$ $q > 0$ $I$

- \int_{I} p \log p d x \leq - \int_{I} p \log q d x

$-\int_I p\log p dx\leq -\int_I p\log q dx$

p (x) = q (x)

$p(x) = q(x)$

x

$x$

Теперь пусть - любая функция плотности вероятности на , где . Обозначая для всех , что является энтропией . Поэтому наша лемма говорит о с равенством тогда и только тогда, когда равномерно. $p$ $\{x_1,...,x_n\}$ $p_i = p(x_i)$ $q_i = 1/n$ $i$

- Σ_{я знак равно 1}^{N} п_{я} журнал Q_{я} знак равно Σ_{я знак равно 1}^{N} п_{я} журнал N знак равно журнал N

$-\sum_{i=1}^n p_i\log q_i = \sum_{i=1}^n p_i \log n=\log n$

q

$q$

h (p) \leq h (q)

$h(p)\leq h(q)$

p

$p$

Кроме того, в Википедии есть краткое обсуждение этого: вики

— mitchus
источник

11

Я восхищаюсь попыткой представить элементарное (без исчисления) доказательство. Строгая однострочная демонстрация доступна через взвешенное неравенство AM-GM , отмечая, что = с равенством, если все равны, QED.

\exp (H)

$\exp(H)$

\prod {(\frac{1}{p_{i}})}^{p_{i}} \leq \sum p_{i} \frac{1}{p_{i}} = n

$\prod\left(\frac{1}{p_i}\right)^{p_i}\le\sum p_i\frac{1}{p_i}=n$

1 / p_{i}

$1/p_i$

— whuber

Я не понимаю, как может быть равно .

\sum \log n

$\sum{\log{n}}$

\log n

$\log{n}$

— user1603472

4

@ user1603472 Вы имеете в виду ? Это потому, что

\sum_{i = 1}^{n} p_{i} \log n = \log n

$\sum\limits_{i=1}^n p_i \log n = \log n$

\sum_{i = 1}^{n} p_{i} \log n = \log n \sum_{i = 1}^{n} p_{i} = \log n \times 1

$\sum\limits_{i=1}^n p_i \log n = \log n \sum\limits_{i=1}^n p_i = \log n \times 1$

— HBeel

@Roland Я вытащил за пределы суммы, так как она не зависит от . Тогда сумма равна потому что - плотности функции вероятности массы.

\log n

$\log n$

i

$i$

1

$1$

p_{1}, \dots, p_{n}

$p_1,\ldots,p_n$

— HBeel

Такое же объяснение с более подробной информацией можно найти здесь: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf

— Роланд

14

Энтропия в физике и теории информации не связаны. Они более разные, чем следует из названия, но между ними явно есть связь. Целью энтропийной метрики является измерение количества информации. Смотрите мой ответ с графиками здесь, чтобы показать, как энтропия меняется от равномерного распределения к горбатому.

Причина, по которой энтропия максимизируется для равномерного распределения, заключается в том, что она была разработана именно так! Да, мы строим показатель для отсутствия информации, поэтому мы хотим присвоить его наибольшее значение наименее информативному распределению.

Пример. Я спросил тебя " Чувак, где моя машина ?" Ваш ответ: «Это где-то в США между Атлантическим и Тихим океанами». Это пример равномерного распределения. Моя машина может быть где угодно в США. Я не получил много информации из этого ответа.

Однако, если вы сказали мне: «Я видел вашу машину час назад на трассе 66, направляющейся из Вашингтона, округ Колумбия» - это уже не единообразное распределение. Автомобиль, скорее всего, будет в 60 милях от округа Колумбия, чем где-либо недалеко от Лос-Анджелеса. Здесь явно больше информации.

Следовательно, наша мера должна иметь высокую энтропию для первого ответа и меньшую для второго. Форма должна быть наименее информативной, это, по сути, ответ «я понятия не имею».

— Аксакал
источник

7

Математический аргумент основан на неравенстве Дженсена для вогнутых функций. То есть, если является вогнутой функцией на и являются точками в , то: $f(x)$ $[a,b]$ $y_1, \ldots y_n$ $[a,b]$ $n \cdot f(\frac{y_1 + \ldots y_n}{n}) \geq f(y_1) + \ldots + f(y_n)$

Примените это для вогнутой функции и неравенства Дженсена для и у вас есть доказательство. Обратите внимание, что определяет дискретное распределение вероятностей, поэтому их сумма равна 1. То, что вы получаете, это , с равенством для равномерного распределения. $f(x) = -x \log(x)$ $y_i = p(x_i)$ $p(x_i)$ $log(n) \geq \sum_{i=1}^n - p(x_i) log(p(x_i))$

— Октавиан Ганеа
источник

1

Я на самом деле нахожу доказательство неравенства Дженсена концептуально более глубоким, чем доказательство AM-GM.

— Casebash

4

Кстати, есть ли связь между энтропией, возникающей в теории информации, и вычислениями энтропии в химии (термодинамике)?

Да, есть! Вы можете увидеть работу Джейнса и многих других после его работы (например, здесь и здесь , например).

Но основная идея заключается в том, что статистическую механику (и другие области науки) можно рассматривать как вывод, который мы делаем о мире .

В качестве дальнейшего чтения я бы порекомендовал книгу Ариэля Катича на эту тему.

— kaslusimoes
источник

1

Интуитивное объяснение:

Если мы поместим больше вероятностной массы в одно событие случайной величины, нам придется отнять некоторые из других событий. У одного будет меньше информационного содержания и больше веса, у других больше информационного содержания и меньше веса. Следовательно, энтропия, являющаяся ожидаемым информационным содержанием, будет снижаться, поскольку событие с более низким информационным содержанием будет взвешиваться больше.

В качестве крайнего случая представьте, что одно событие получает вероятность, равную почти одному, поэтому другие события будут иметь суммарную вероятность, почти равную нулю, и энтропия будет очень низкой.

— Roland
источник

0

$p_i$

$p_i$ $i=1,...,n$ $q = 1-\sum_{i=0}^{n-1} p_i$

\begin{aligned} ЧАС & знак равно - Σ_{я знак равно 0}^{N - 1} п_{я} журнал п_{я} - (1 - Q) журнал Q \\ ЧАС * пер 2 & знак равно - Σ_{я знак равно 0}^{N - 1} п_{я} пер п_{я} - (1 - Q) пер Q \end{aligned}

$\begin{align} H &= -\sum_{i=0}^{n-1} p_i \log p_i - (1-q)\log q\\ H*\ln 2 &= -\sum_{i=0}^{n-1} p_i \ln p_i - (1-q)\ln q \end{align}$

\begin{aligned} \frac{\partial ЧАС}{\partial п_{я}} & знак равно пер \frac{Q}{п_{я}} знак равно 0 \end{aligned}

$\begin{align} \frac{\partial H}{\partial p_i} &= \ln \frac{q}{p_i} = 0 \end{align}$

q = p_{i}

$q = p_i$

i

$i$

p_{1} = p_{2} = . . . = p_{n}

$p_1=p_2=...=p_n$

— Ян Фан
источник

p_{i}

$p_i$