Я предполагаю, что ваш вопрос больше о «значении» этого логарифма и о том, почему каждый компонент вносит вклад в общее значение формулы, а не в простой формализм, показывающий согласованность определения с определенными требованиями.
Идея энтропии Шеннона состоит в том, чтобы оценить информацию о сообщении, посмотрев на его ЧАСТОТУ (т. Е. ) и на ОБЩУЮ (т. ):p(x)−log(p(x))
- p(x) : чем более «частое» сообщение, тем меньше информации будет переноситься (т. е. легче предсказать).
- −log(p(x)) : чем более «общее» сообщение, тем больше информации будет переноситься.
Первое слагаемое относится к частоте, а - к его общности.p(x)−log(p(x))
С этого момента я буду обсуждать, как ОБЩИЕ свойства влияют на окончательную формулу энтропии.
Таким образом, мы можем определить, как общее (например, дождь / не дождь) или конкретное (например, ligth / avg / heavy / veryHeavy rain) сообщение на основе количества битов, необходимых для его кодирования:
log2(x)=number_of_bits_to_encode_the_messages
Теперь сядьте, расслабьтесь и посмотрите, как прекрасно работает энтропия Шеннона: она основана на (разумном) допущении, что сообщения, которые являются более ОБЩАМИ, следовательно, более ЧАСТОТЫ.
Например, я скажу, что идет дождь, если это средний, сильный или очень тяжелый дождь. Таким образом, он предложил закодировать ОБЩИЕ сообщения, основываясь на том, насколько они ЧАСТОТЫ ... и вот вы:
log2N=−log21/N=−log2P
с частота сообщения .Nx
Уравнение можно интерпретировать как: редкие сообщения будут иметь более длинную кодировку, потому что они менее общие, поэтому им нужно больше битов для кодирования и они менее информативны. Следовательно, наличие более конкретных и редких сообщений будет способствовать большей энтропии, чем наличие множества общих и частых сообщений.
В окончательной формулировке мы хотим рассмотреть два аспекта. Первая, , заключается в том, что частые сообщения легче прогнозировать, и с этой точки зрения они менее информативны (т.е. более длинное кодирование означает более высокую энтропию). Второй, , заключается в том, что частые сообщения также носят общий характер и с этой точки зрения более информативны (т. Е. Более короткое кодирование означает меньшую энтропию).p(x)−log(p(x))
Самая высокая энтропия - это когда у нас есть система со множеством редких и специфических сообщений Самая низкая энтропия с частыми и общими сообщениями. Между ними у нас есть спектр энтропийно-эквивалентных систем, которые могут иметь как редкие, так и общие сообщения или частые, но специфические сообщения.