Это на самом деле не моя сфера, поэтому некоторые размышления:
Я начну с концепции неожиданности . Что значит быть удивленным? Обычно это означает, что произошло то, чего не ожидалось. Итак, удивите это вероятностным понятием и можно объяснить как таковой (об этом писал И. Дж. Гуд). Смотрите также Википедию и Байесовский Сюрприз .
Возьмите частный случай ситуации да / нет, что-то может случиться или нет. Это происходит с вероятностью p . Скажем, если р = 0,9, и это происходит, вы не очень удивлены. Если p=0.05 и это происходит, вы несколько удивлены. И если p=0.0000001 и это происходит, вы действительно удивлены. Таким образом, естественным показателем «неожиданности в наблюдаемом результате» является некоторая (анти) монотонная функция вероятности того, что произошло. Кажется естественным (и работает хорошо ...) взять логарифм вероятности того, что произошло, и затем мы добавляем знак минус, чтобы получить положительное число. Кроме того, беря логарифм, мы концентрируемся на порядке неожиданности, и на практике вероятности часто известны только до порядка, более или менее .
Итак, мы определяем
Surprise(A)=−logp(A)
где A - наблюдаемый результат, а p(A) - его вероятность.
Теперь мы можем спросить, что является ожидаемым сюрпризом . Пусть X - случайная величина Бернулли с вероятностью p . Он имеет два возможных результата, 0 и 1. Соответствующие значения неожиданности -
Surprise(0)Surprise(1)=−log(1−p)=−logp
поэтому неожиданность при наблюденииXсама по себе является случайной величиной с ожиданием
p⋅−logp+(1−p)⋅−log(1−p)
и это --- сюрприз! --- энтропияX! Так что энтропия этонеожиданный сюрприз!
Теперь этот вопрос о максимальной энтропии . Почему кто-то хочет использовать максимальное распределение энтропии? Ну, это должно быть потому, что они хотят быть максимально удивленными! Зачем кому-то этого хотеть?
Можно взглянуть на это следующим образом: вы хотите что-то узнать, и для этой цели вы устанавливаете некоторый опыт обучения (или эксперименты ...). Если вы уже знали все об этой теме, вы всегда можете предсказать идеально, поэтому никогда не удивляйтесь. Тогда вы никогда не получите новый опыт, поэтому не изучайте ничего нового (но вы уже знаете все - учиться нечему, так что все в порядке). В более типичной ситуации, которая вас смущает, вы не можете точно предсказать, есть возможность обучения! Это приводит к мысли, что мы можем измерить «количество возможного обучения» ожидаемому сюрпризу , то есть энтропии. Таким образом, максимизация энтропии - это не что иное, как максимизация возможностей для обучения, Это звучит как полезная концепция, которая может быть полезна при разработке экспериментов и подобных вещей.
Поэтический пример хорошо известен
Вайнер Эйн Рейз Мачт, Данн Кан Эр был ...
Один практический пример: вы хотите спроектировать систему для онлайн-тестов (онлайн означает, что не все задают одинаковые вопросы, вопросы выбираются динамически в зависимости от предыдущих ответов, поэтому оптимизируются, в некотором роде, для каждого человека).
Если вы задаете слишком сложные вопросы, чтобы они никогда не были освоены, вы ничему не научитесь. Это означает, что вы должны снизить уровень сложности. Каков оптимальный уровень сложности, то есть уровень сложности, который максимизирует скорость обучения? Пусть вероятность правильного ответа будет p . Нам нужно значение p которое максимизирует энтропию Бернулли. Но это p=0.5 . Таким образом, вы стремитесь сформулировать вопросы, где вероятность получения правильного ответа (от этого человека) равна 0,5.
XX{X=x}−logpxf(x)fSurprise(x)=−logf(x)
XE{−logf(X)}=−∫f(x)logf(x)dx
XX . Это также можно рассматривать как ожидаемое логарифмическое правдоподобие.
X