Не ссылаясь на источники, Википедия определяет кросс-энтропию дискретных распределений и Q как
Кто первым начал использовать это количество? И кто изобрел этот термин? Я посмотрел в:
JE Shore и RW Johnson, "Аксиоматический вывод принципа максимальной энтропии и принципа минимальной кросс-энтропии", Теория информации, IEEE Transactions on, vol. 26, нет 1, с. 26-37, январь 1980 г.
Я следовал за их введением в
Wehrl А., Общие свойства энтропии. Обзоры современной физики. 50, нет 2, с. 221-260, апрель 1978 г.
который никогда не использует термин.
Ни один не делает
С. Кульбек и Р. Лейблер, "Об информации и достаточности", Анналы математической статистики, вып. 22, нет 1, с. 79-86, 1951.
Я заглянул в
TM Cover и JA Thomas, Элементы теории информации (серия Wiley по телекоммуникациям и обработке сигналов). Wiley-Interscience, 2006.
и
И. Гуд, "Максимальная энтропия для формулировки гипотез, особенно для многомерных таблиц сопряженности", "Анналы математической статистики", вып. 34, нет 3, с. 911-934, 1963.
но обе статьи определяют перекрестную энтропию как синоним KL-дивергенции.
Оригинальная статья
Шеннон, "Математическая теория коммуникации", технический журнал Bell system, vol. 27, 1948.
Не упоминает перекрестную энтропию (и имеет странное определение «относительной энтропии»: «Отношение энтропии источника к максимальному значению, которое он может иметь, в то же время ограничиваясь теми же символами»).
Наконец, я просмотрел несколько старых книг и статей Tribus.
Кто-нибудь знает, как называется приведенное выше уравнение и кто его придумал, или имеет хорошее представление о нем?