Я понимаю, что, учитывая набор из независимых наблюдений максимального правдоподобия оценщик (или, что эквивалентно, карта с плоской / равномерной до) , который идентифицирует параметров \ mathbf {θ} , которые производят распределение модели P_ {модель} \ слева (\, \ cdot \,; \ mathbf {θ} \ right), который лучше всего соответствует этим наблюдениям, будет
или, более удобно
и посмотрите роль, которую может сыграть в определении функции потерь для многоклассовых глубоких нейронных сетей, в которой соответствует обучаемым параметрам сети (например, и наблюдения являются парами входных активаций и соответствующих правильных меток классов , = { }, взяв
Я не понимаю, как это связано с так называемой «перекрестной энтропией» (векторизованного) правильного вывода и соответствующими выходными активациями сети, , который используется на практике при измерении ошибки / потери во время тренировки , Есть несколько связанных вопросов:
Активации "как вероятности"
Одним из шагов в установлении взаимосвязи между MLE и кросс-энтропией является использование выходных активаций «как будто», они являются вероятностями. Но мне не ясно, что они есть, или, по крайней мере, они .
При расчете ошибки обучения - в частности, при названии ее «кросс-энтропийной потери» - предполагается, что (после нормализации активаций сумма равна 1)
или
так что мы можем написать
и поэтому
Но хотя это, безусловно, делает вероятностью (в той степени, в которой что-либо есть), оно не накладывает никаких ограничений на другие активации.
Можно ли в действительности сказать, что действительно являются PMF? Есть ли что-нибудь, что делает на самом деле не вероятностями (а просто «похожими» на них) )?
Ограничение по категоризации
Вышеупомянутый важный шаг при отождествлении MLE с кросс-энтропией полностью опирается на «одну горячую» структуру которая характеризует (однокомпонентную) проблему обучения в нескольких классах. Любая другая структура для сделает невозможным от к .
Ограничено ли уравнение MLE и минимизации кросс-энтропии случаями, когда являются "горячими"?
Различные вероятности обучения и прогнозирования
Во время предсказания это почти всегда
что приводит к правильному прогнозированию вероятностей, которые отличаются от вероятностей, извлеченных во время обучения, если только это не является достоверно
Надежно ли это когда-нибудь? Вероятно ли это хотя бы приблизительно верно? Или есть какой-то другой аргумент, который оправдывает это уравнение значения изученной активации в позиции метки с вероятностью того, что там происходит максимальное значение изученных активаций?
Энтропия и теория информации
Даже если предположить, что вышеупомянутые проблемы решены и активации являются действительными PMF (или могут быть осмысленно рассматриваться как таковые), так что роль, которую играет кросс-энтропия в вычислениях вызывает проблем, неясно, мне, почему полезно или полезно говорить об энтропии , поскольку энтропия Шенона применяется к определенному вид кодирования , который не используется для обучения сети.
Какую роль играет теоретико-информационная энтропия в интерпретации функции стоимости, в отличие от простого предоставления инструмента (в форме кросс-энтропии) для его вычисления (которое соответствует MLE)?
softmax_cross_entropy_with_logits
: они рассчитывают и, следовательно, который определяет сеть, «предназначенную» для создания вероятностей (по крайней мере, в месте расположения метки). Нет?