Почему кросс-энтропия стала стандартной функцией потерь классификации, а не дивергенцией Кульбека-Лейблера?


15

Перекрестная энтропия идентична дивергенции KL плюс энтропия распределения цели. KL равняется нулю, когда два распределения одинаковы, что мне кажется более интуитивным, чем энтропия целевого распределения, то есть то, что перекрестная энтропия находится на совпадении.

Я не говорю, что в одном другом есть больше информации, за исключением того, что человеческий взгляд может найти ноль более интуитивным, чем позитивным. Конечно, обычно используют оценочный метод, чтобы действительно увидеть, насколько хорошо происходит классификация. Но является ли выбор перекрестной энтропии над KL историческим?

Ответы:


12

Когда дело доходит до проблемы классификации в машинном обучении, кросс-энтропия и дивергенция KL равны . Как уже говорилось в вопросе, общая формула такова:

ЧАС(п,Q)знак равноЧАС(п)+DКL(п||Q)

Где п - «истинное» распределение, а Q - предполагаемое распределение, ЧАС(п,Q) - кросс-энтропия, ЧАС(п) - энтропия, а D - дивергенция Кульбака-Лейблера.

Обратите внимание на то, что в машинном обучении п является горячим представлением класса истинности, т.е.

пзнак равно[0,,,,,1,,,,,0]

который в основном является распределением дельта-функции . Но энтропия дельта-функции равна нулю, следовательно, дивергенция KL просто равна кросс-энтропии.

Фактически, даже если ЧАС(п) не было 0 (например, мягкие метки), оно является фиксированным и не влияет на градиент. С точки зрения оптимизации, можно просто удалить его и оптимизировать расхождение Кульбака-Лейблера.


0

Кросс-энтропия - это энтропия, а не разница энтропии.

Более естественный и, возможно, интуитивно понятный способ концептуализации критериев категоризации заключается в использовании отношения, а не определения.

ЧАС(п,Q)-ЧАС(п)знак равноDКL(п| |Q)знак равно-Σяп(я)журналQ(я)п(я)

Это следует параллелям, отождествленным Клодом Шенноном с Джоном фон Нейманом, между квантово-механической термодинамикой и теорией информации. Энтропия не абсолютная величина. Он является относительным, поэтому ни энтропия, ни перекрестная энтропия не могут быть рассчитаны, но их различие может быть как для дискретного случая выше, так и для его непрерывного брата ниже.

ЧАС(п,Q)-ЧАС(п)знак равноDКL(п| |Q)знак равно--п(Икс)журналQ(Икс)п(Икс)dИкс

ЧАС(,,,)знак равно,,,

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.