Согласно Википедии :
Энтропия Шеннона измеряет информацию, содержащуюся в сообщении, в отличие от той части сообщения, которая определена (или предсказуема). Примеры последних включают избыточность в структуре языка или статистических свойствах, связанных с частотой встречаемости пар букв или слов, триплетов и т. Д.
Таким образом, энтропия является мерой количества информации, содержащейся в сообщении. Энтропийные кодеры используются для сжатия такого сообщения без потерь до минимального количества битов, необходимого для его представления (энтропия). Для меня это выглядит так, будто идеальный энтропийный кодер - это все, что нужно для того, чтобы без потерь сжать сообщение как можно больше.
Однако во многих алгоритмах сжатия используются энтропийное кодирование, чтобы предположительно уменьшить энтропию сообщения.
Согласно немецкой Википедии
Entropiekodierer werden häufig mit andderen Kodierern kombiniert. Dabei dienen vorgeschaltete Verfahren dazu, умереть Entropie der Daten zu verringern.
По-английски:
Энтропийные кодеры часто комбинируются с другими кодерами. Предыдущие шаги служат для уменьшения энтропии данных.
т. е. bzip2 использует преобразование Берроуза-Уилера с последующим преобразованием «движение вперед» перед применением энтропийного кодирования (в данном случае кодирование Хаффмана).
Действительно ли эти шаги уменьшают энтропию сообщения, что подразумевает уменьшение количества информации, содержащейся в сообщении? Это кажется мне противоречивым, так как это означало бы, что информация была потеряна во время сжатия, предотвращая распаковку без потерь. Или они просто преобразуют сообщение, чтобы повысить эффективность алгоритма энтропийного кодирования? Или энтропия не соответствует количеству информации в сообщении?