Попытка понять связь между перекрестной энтропией и недоумением. В общем случае для модели M , Недоумение (М) = 2 ^ энтропии (M) . Действуют ли эти отношения для всех разных n-грамм, то есть униграмм, биграмм и т. Д.
Попытка понять связь между перекрестной энтропией и недоумением. В общем случае для модели M , Недоумение (М) = 2 ^ энтропии (M) . Действуют ли эти отношения для всех разных n-грамм, то есть униграмм, биграмм и т. Д.
Ответы:
Да, недоумение всегда равно двум силам энтропии. Неважно, какая у вас модель, n-грамм, униграмма или нейронная сеть.
Есть несколько причин, по которым людям, моделирующим язык, нравится недоумение, а не просто энтропия. Одна из них заключается в том, что из-за показателя степени улучшения в недоумении «чувствуются», как будто они более существенны, чем эквивалентное улучшение энтропии. Другое состоит в том, что до того, как они начали использовать недоумение, сложность языковой модели сообщалась с использованием упрощенного измерения коэффициента ветвления, которое больше похоже на недоумение, чем на энтропию.
Согласился с ответом @Aaron с небольшой модификацией:
Это не всегда равно двум силам энтропии. На самом деле, это будет (база для журнала) в силу энтропии. Если бы вы использовали e в качестве своей базы, то это была бы энтропия.