Интуитивно понятно, почему кросс-энтропия является мерой расстояния двух распределений вероятности?

Для двух дискретных распределений и перекрестная энтропия определяется как $p$ $q$

H (p, q) = - \sum_{x} p (x) \log q (x),

$H(p,q)=-\sum_x p(x)\log q(x).$

Интересно, почему это будет интуитивно понятная мера расстояния между двумя распределениями вероятностей?

Я вижу, что - энтропия , которая измеряет «удивление» . - это мера, которая частично заменяет на . Я до сих пор не понимаю интуитивное значение определения. $H(p,p)$ $p$ $p$ $H(p,q)$ $p$ $q$

probability distributions cross-entropy

— Kadistar
источник

Я рекомендую вам посмотреть математическое определение метрики (и расстояния). обычно следование этим свойствам - это минимальная вещь, которой должна следовать функция, поскольку это расстояние. Надеюсь, поможет. Хотя кажется, что

. Интуитивно понятно, что поскольку эта функция является частью дивергенции KL, я бы предположил, что это своего рода расхождение р и q, смещенное энтропией р. Хотя это только предположение. Кроме того, расхождение не является метрикой / расстоянием, поэтому я бы удивился, если бы была перекрестная энтропия.

H (p, q) = H (p) + D_{K L} (p | | q)

$H(p,q) = H(p) + D_{KL}(p || q )$

— Чарли Паркер

Тогда понимание расхождения Kullback_leibler помогает понять взаимную

— kjetil b halvorsen

Вот отличное видео, объясняющее KL Divergence простым и понятным способом: youtube.com/watch?v=ErfnhcEV1O8

— Кэтрин Чен

Посмотрите, помогает ли эта «Интуиция за Крестной Энтропией»: medium.com/@siddharth.4oct/…

— Сиддхарт Рой

Минимизация перекрестной энтропии часто используется в качестве цели обучения в порождающих моделях, где p - это истинное распределение, а q - это изученное распределение.

Перекрестная энтропия p и q равна энтропии p плюс расхождение KL между p и q.

$H(p, q) = H(p) + D_{KL}(p||q)$

Вы можете думать о как о константе, потому что происходит непосредственно из обучающих данных и не изучается моделью. Таким образом, важен только термин дивергенции KL. Мотивация для дивергенции KL как расстояния между распределениями вероятности состоит в том, что она говорит вам, сколько битов информации получено при использовании распределения p вместо приближения q. $H(p)$ $p$

Обратите внимание, что дивергенция KL не является правильной метрикой расстояния. Во-первых, оно не симметрично по p и q. Если вам нужна метрика расстояния для распределения вероятностей, вам придется использовать что-то еще. Но если вы используете слово «расстояние» неофициально, то вы можете использовать дивергенцию KL.

— Аарон
источник

почему вы можете думать о р как константа? Что ты изучаешь"? д? Оригинальный вопрос ничего не говорил об обучении, поэтому мне было бы интересно лучше понять, что вы имели в виду :)

— Чарли Паркер,

отредактировал это, чтобы сделать это более ясным. p - это распределение, полученное из обучающих данных, а q определяется моделью.

— Аарон