Минимизация перекрестной энтропии часто используется в качестве цели обучения в порождающих моделях, где p - это истинное распределение, а q - это изученное распределение.
Перекрестная энтропия p и q равна энтропии p плюс расхождение KL между p и q.
ЧАС( р , д) = H( р ) + ДКL( p | | q)
Вы можете думать о как о константе, потому что p происходит непосредственно из обучающих данных и не изучается моделью. Таким образом, важен только термин дивергенции KL. Мотивация для дивергенции KL как расстояния между распределениями вероятности состоит в том, что она говорит вам, сколько битов информации получено при использовании распределения p вместо приближения q.ЧАС( р )п
Обратите внимание, что дивергенция KL не является правильной метрикой расстояния. Во-первых, оно не симметрично по p и q. Если вам нужна метрика расстояния для распределения вероятностей, вам придется использовать что-то еще. Но если вы используете слово «расстояние» неофициально, то вы можете использовать дивергенцию KL.