Код Хаффмана для распределения вероятности - это код префикса с минимальной средневзвешенной длиной кодового слова , где - длина го кодового слова. Хорошо известна теорема о том, что средняя длина каждого символа кода Хаффмана находится между и , где - энтропия Шеннона. распределения вероятностей.∑ p i ℓ i ℓ я
Плохой канонический пример, где средняя длина превышает энтропию Шеннона почти на 1, - это распределение вероятностей, такое как , где энтропия равна почти 0, а средняя длина кодового слова равна 1. Это дает разрыв между энтропией и длиной кодового слова почти .
Но что происходит, когда существует предел наибольшей вероятности в распределении вероятностей? Предположим, например, что все вероятности меньше, чем . Самый большой пробел, который я мог найти в этом случае, относится к распределению вероятностей, например , где энтропия чуть больше 1, а средняя длина кодового слова чуть меньше 1,5, что дает разрыв приближается к . Это лучшее, что вы можете сделать? Можете ли вы дать верхнюю границу зазора, которая строго меньше 1 для этого случая?
Теперь рассмотрим случай, когда все вероятности очень малы. Предположим , вы выбираете распределение вероятностей букв, каждая из которых имеет вероятность . В этом случае самый большой разрыв возникает, если вы выберете . Здесь вы получите разрыв около
Этот вопрос был вдохновлен этим вопросом TCS Stackexchange .