Качественно что такое Cross Entropy

Этот вопрос дает количественное определение кросс-энтропии с точки зрения ее формулы.

Я ищу более условное определение, википедия говорит:

В теории информации кросс-энтропия между двумя распределениями вероятностей измеряет среднее число битов, необходимое для идентификации события из набора возможностей, если схема кодирования используется на основе заданного распределения вероятности q, а не «истинного» распределения p ,

Я подчеркнул ту часть, которая доставляет мне затруднения в понимании этого. Мне бы хотелось хорошее определение, которое не требует отдельного (уже существующего) понимания энтропии.

entropy information-theory

— Линдон Уайт
источник

Вы просите дать определение перекрестной энтропии, которое в то же время определит саму энтропию . И интуитивно так ... Если у вас есть проблемы с пониманием концепции самой энтропии, было бы неплохо сначала понять основную концепцию, а затем любое из ее расширений.

— Алекос Пападопулос

Лично у меня было базовое понимание энтропии (хотя прошло уже почти 12 месяцев с момента ее применения). Но количественное выражение энтропии должно уместиться в один короткий абзац, а перекрестная энтропия должна занять только еще один. Поэтому я считаю, что хороший ответ может включать в себя и то, и другое, так что читателю не нужно ссылаться в другом месте, чтобы понять это.

— Линдон Уайт

Смотрите соответствующие сообщения: stats.stackexchange.com/questions/66186/… и stats.stackexchange.com/questions/188903/…

— kjetil b halvorsen

$p$ $\log_2(1/p)$

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}}),

$\sum_i p_i \log_2(\tfrac{1}{p_i}),$

$P$ $Q$

\sum_{i} p_{i} code_length(i) = \sum_{i} p_{i} \log_{2} (\frac{1}{q_{i}}),

$\sum_i p_i \text{code_length($i$)} = \sum_i p_i \log_2(\tfrac{1}{q_i}),$

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}})

$\sum_i p_i \log_2(\tfrac{1}{p_i})$

$P=(\tfrac{1}{2}, \tfrac{1}{2}, 0, 0)$

Затем, если мы хотим оптимально кодировать его, мы кодируем A как 0, а B как 1, поэтому мы получаем один бит закодированного сообщения на одну букву. (И это точно энтропия Шеннона нашего распределения вероятностей.)

$P$ $Q=(\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4})$

— Петр Мигдаль
источник

Хорошее объяснение, спасибо. Однако определение в Википедии - это sum_i [p_i * log (q_i)]. Использование 1 / q_i дает число возможных состояний, поэтому log_2 преобразует это в число битов, необходимых для кодирования одного символа, но страница в Википедии описывает что-то немного другое.

— Redcalx

1 / q_{i}

$1/q_i$

\log (1 / q_{i}) = - \log (q_{i})

$\log(1/q_i)=-\log(q_i)$