Определение и происхождение «перекрестной энтропии»

15

Не ссылаясь на источники, Википедия определяет кросс-энтропию дискретных распределений и как $P$ $Q$

\begin{aligned} {ЧАС}^{\times} (п; Q) & знак равно - \underset{Икс}{Σ} п (Икс) журнал Q (Икс), \end{aligned}

$\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align}$

Кто первым начал использовать это количество? И кто изобрел этот термин? Я посмотрел в:

JE Shore и RW Johnson, "Аксиоматический вывод принципа максимальной энтропии и принципа минимальной кросс-энтропии", Теория информации, IEEE Transactions on, vol. 26, нет 1, с. 26-37, январь 1980 г.

Я следовал за их введением в

Wehrl А., Общие свойства энтропии. Обзоры современной физики. 50, нет 2, с. 221-260, апрель 1978 г.

который никогда не использует термин.

Ни один не делает

С. Кульбек и Р. Лейблер, "Об информации и достаточности", Анналы математической статистики, вып. 22, нет 1, с. 79-86, 1951.

Я заглянул в

TM Cover и JA Thomas, Элементы теории информации (серия Wiley по телекоммуникациям и обработке сигналов). Wiley-Interscience, 2006.

и

И. Гуд, "Максимальная энтропия для формулировки гипотез, особенно для многомерных таблиц сопряженности", "Анналы математической статистики", вып. 34, нет 3, с. 911-934, 1963.

но обе статьи определяют перекрестную энтропию как синоним KL-дивергенции.

Оригинальная статья

Шеннон, "Математическая теория коммуникации", технический журнал Bell system, vol. 27, 1948.

Не упоминает перекрестную энтропию (и имеет странное определение «относительной энтропии»: «Отношение энтропии источника к максимальному значению, которое он может иметь, в то же время ограничиваясь теми же символами»).

Наконец, я просмотрел несколько старых книг и статей Tribus.

Кто-нибудь знает, как называется приведенное выше уравнение и кто его придумал, или имеет хорошее представление о нем?

information-theory entropy

— Нил Г
источник

7

$I_{1:2}(E)$ $2.2-2.4$ (1948).

РЕДАКТИРОВАТЬ:

Дополнительные псевдонимы включают меру информации Кульбака-Лейблера, меру относительной информации, перекрестную энтропию, I-расхождение и неточность Керриджа .

— Итамар
источник

Благодарность! Я проверил эти ссылки, но мне все еще не удается найти термин «перекрестная энтропия» или уравнение соответствия. Пожалуйста, дайте мне знать, если вы видели один в одной из статей или книг.

— Нил Дж

1

Вы также можете искать в Google scholar в обратном направлении статьи с разными псевдонимами, опубликованные до определенного года (например, перекрестная энтропия до 1980 года ).

— Итамар

1

Что касается вашего недавнего редактирования, меня интересует история формы, приведенной в моем вопросе. Я уже заметил, что ранние статьи использовали «перекрестную энтропию» для обозначения «дивергенции КЛ». (Обратите внимание, что статья Кулбэка находится в моем вопросе.)

— Нил Дж

Извините, я пропустил статью Кульбака в вопросе

— Итамар

4

Благодаря предложению @ Itamar, я нашел упоминание в:

И. Д. Гуд, «Некоторые термины и обозначения в теории информации», Труды IEE - Часть C: Монографии, вып. 103, нет. 3, с. 200-204, март 1956 г.

Для меня все еще было бы очень полезно найти хорошее представление о кросс-энтропии.

— Нил Г
источник

2

Спасибо за это - хорошее резюме справочной литературы. Статья Шора и Джонсона 1980 года в IEEE - хорошее начало, но указатель @ itamar на монографию Good 1956 года еще лучше. Концепция, кажется, взята из работы Шеннона, причем примечание AMS Kullback & Leibler 1951 года является источником текущего использования этого термина. Поскольку происхождение термина «перекрестная энтропия» относится к искусственным нейронным сетям, этот термин используется в статье «Наука», представленной в 1994 г. и опубликованной в 1995 г. Г. Э. Хинтоном, П. Даяном, Б. Дж. Фреем и Р. М. Нилом в который есть раннее использование термина «машина Хемгольца» - возможно, первый. URL для копирования: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf В этой статье «Алгоритм пробуждения-сна для неконтролируемых нейронных сетей» в примечании к уравнению № 5 говорится: «Когда существует много альтернативных способов описания входного вектора, можно разработать схему стохастического кодирования, которая использует преимущества энтропия между альтернативными описаниями [1]. Тогда стоимость равна: «(см. статью для уравнения № 5)« Тогда второй член - это энтропия распределения, которое веса распознавания присваивают различным альтернативным представлениям ». Позже в статье уравнение № 5 переписывается как уравнение № 8, а последний член описывается как расхождение Кульбака-Лейблера между начальным распределением вероятности и последующим распределением вероятности. В документе говорится: «Таким образом, для двух порождающих моделей, которые присваивают равную вероятность d, Эта статья все еще описывает процесс минимизации для этого конкретного алгоритма как минимизацию расхождения Кульбака-Лейблера, но похоже, что это могло быть, когда термин «энтропия через альтернативные описания» был сокращен до просто «кросс-энтропии». Для числового примера перекрестной энтропии, используя TensorFlow, смотрите публикацию здесь, это полезно: Эта статья все еще описывает процесс минимизации для этого конкретного алгоритма как минимизацию расхождения Кульбака-Лейблера, но похоже, что это могло быть, когда термин «энтропия через альтернативные описания» был сокращен до просто «кросс-энтропии». Для числового примера перекрестной энтропии, используя TensorFlow, смотрите публикацию здесь, это полезно: /programming/41990250/what-is-cross-entropy Обратите внимание, что решение CE = 0,47965 получается просто путем натурального логарифма вероятности 0,619. В приведенном выше примере использование «одного горячего» кодирования означает, что две другие начальные и апостериорные вероятности игнорируются из-за умножения на нулевую начальную вероятность в суммировании для кросс-энтропии.

— gemesyscanada
источник

+1 Это может быть правильно. Итак, вы говорите, что 1994 является источником современного определения перекрестной энтропии?

— Нил Дж