Насколько значима связь между MLE и кросс-энтропией в глубоком обучении?


12

Я понимаю, что, учитывая набор из независимых наблюдений максимального правдоподобия оценщик (или, что эквивалентно, карта с плоской / равномерной до) , который идентифицирует параметров \ mathbf {θ} , которые производят распределение модели P_ {модель} \ слева (\, \ cdot \,; \ mathbf {θ} \ right), который лучше всего соответствует этим наблюдениям, будетmO={o(1),...,o(m)}θpmodel(;θ)

θML(O)=pmodel(O;θ)=argmaxθi=1mpmodel(o(i);θ)

или, более удобно

θML(O)=argminθi=1mlogpmodel(o(i);θ)

и посмотрите роль, которую θML может сыграть в определении функции потерь для многоклассовых глубоких нейронных сетей, в которой θ соответствует обучаемым параметрам сети (например, θ={W,b}) и наблюдения являются парами входных активаций x и соответствующих правильных меток классов y[1,k] , o(i) = { x(i),y(i) }, взяв

pmodel(o(i);θ)pmodel(y(i)|x(i);θ)


Я не понимаю, как это связано с так называемой «перекрестной энтропией» (векторизованного) правильного вывода и соответствующими выходными активациями сети, , который используется на практике при измерении ошибки / потери во время тренировки , Есть несколько связанных вопросов:y(i)a(x(i);θ)

H(o(i);θ)=y(i)loga(x(i);θ)


Активации "как вероятности"

Одним из шагов в установлении взаимосвязи между MLE и кросс-энтропией является использование выходных активаций «как будто», они являются вероятностями. Но мне не ясно, что они есть, или, по крайней мере, они .all

При расчете ошибки обучения - в частности, при названии ее «кросс-энтропийной потери» - предполагается, что (после нормализации активаций сумма равна 1)

(1)pmodel(o(i);θ)ay(i)(x(i);θ)

или

logpmodel(o(i);θ)=logay(i)(x(i);θ)

так что мы можем написать

(3)logpmodel(o(i);θ)=y(i)loga(x(i);θ)

и поэтому

θML(O)=argminθi=1mH(o(i);θ)

Но хотя это, безусловно, делает вероятностью (в той степени, в которой что-либо есть), оно не накладывает никаких ограничений на другие активации.ay(i)(x(i);θML)

Можно ли в действительности сказать, что действительно являются PMF? Есть ли что-нибудь, что делает на самом деле не вероятностями (а просто «похожими» на них) )?ay(i)(x(i);θML)ay(i)(x(i);θML)


Ограничение по категоризации

Вышеупомянутый важный шаг при отождествлении MLE с кросс-энтропией полностью опирается на «одну горячую» структуру которая характеризует (однокомпонентную) проблему обучения в нескольких классах. Любая другая структура для сделает невозможным от к .y(i)y(i)(1)(3)

Ограничено ли уравнение MLE и минимизации кросс-энтропии случаями, когда являются "горячими"? y(i)


Различные вероятности обучения и прогнозирования

Во время предсказания это почти всегда

(2)pmodel(y(i)|x(i);θ)P(argmaxj[1,k]aj(x(i);θ)=y(i))

что приводит к правильному прогнозированию вероятностей, которые отличаются от вероятностей, извлеченных во время обучения, если только это не является достоверно

ay(i)(x(i);θML)=P(argmaxj[1,k]aj(x(i);θML)=y(i))

Надежно ли это когда-нибудь? Вероятно ли это хотя бы приблизительно верно? Или есть какой-то другой аргумент, который оправдывает это уравнение значения изученной активации в позиции метки с вероятностью того, что там происходит максимальное значение изученных активаций?


Энтропия и теория информации

Даже если предположить, что вышеупомянутые проблемы решены и активации являются действительными PMF (или могут быть осмысленно рассматриваться как таковые), так что роль, которую играет кросс-энтропия в вычислениях вызывает проблем, неясно, мне, почему полезно или полезно говорить об энтропии , поскольку энтропия Шенона применяется к определенному вид кодирования , который не используется для обучения сети.θMLa(x(i);θML)

Какую роль играет теоретико-информационная энтропия в интерпретации функции стоимости, в отличие от простого предоставления инструмента (в форме кросс-энтропии) для его вычисления (которое соответствует MLE)?

Ответы:


5

Нейронные сети не обязательно дают вероятности в качестве выходных данных, но они могут быть разработаны для этого. Чтобы быть интерпретированным как вероятности, набор значений должен быть неотрицательным и иметь сумму, равную единице. Проектирование сети для вывода вероятностей обычно сводится к выбору выходного слоя, который накладывает эти ограничения. Например, в задаче классификации с классами распространенным выбором является выходной слой softmax с единицами. Функция softmax заставляет выходы быть неотрицательными и суммировать в единицу. - й выходной блок дает вероятность того, что класс . Для задач бинарной классификации другим популярным выбором является использование единого блока вывода с логистикойkkjjфункция активации. Выходные данные логистической функции находятся в диапазоне от нуля до единицы и дают вероятность того, что класс равен 1. Вероятность того, что класс равен 0, неявно равна единице минус это значение. Если сеть не содержит скрытых слоев, то эти два примера эквивалентны полиномиальной логистической регрессии и логистической регрессии соответственно.

Перекрестная энтропия измеряет разницу между двумя вероятностными распределениями и . Когда перекрестная энтропия используется в качестве функции потерь для дискриминационных классификаторов, и являются распределениями по меткам классов, учитывая входные данные (то есть конкретную точку данных). - это «истинное» распределение, а - это распределение, предсказанное моделью. В типичных задачах классификации каждый вход в наборе данных связан с целочисленной меткой, представляющей истинный класс. В этом случае мы используем эмпирическое распределение дляH(p,q)pqpqpqp, Это просто присваивает вероятность 1 истинному классу точки данных, а вероятность 0 - всем другим классам. - распределение вероятностей класса, предсказанное сетью (например, как описано выше).q

Скажем, данные iid, - эмпирическое распределение, а - прогнозируемое распределение (для й точки данных). Тогда минимизация кросс-энтропийных потерь (т. усредненных по точкам данных) эквивалентна максимизации вероятности данных. Доказательство относительно простое. Основная идея состоит в том, чтобы показать, что кросс-энтропийная потеря пропорциональна сумме отрицательных логарифмических вероятностей точек данных. Это выпадает аккуратно из-за формы эмпирического распределения.piqiiH(pi,qi)

Перекрестная потеря энтропии также может применяться более широко. Например, в задачах «мягкой классификации» нам даны распределения по меткам классов, а не по меткам жестких классов (поэтому мы не используем эмпирическое распределение). Я описываю, как использовать кросс-энтропийную потерю в этом случае здесь .

Для решения некоторых других вопросов в вашем вопросе:

Различные вероятности обучения и прогнозирования

Похоже, вы находите модуль вывода с максимальной активацией и сравниваете его с меткой класса. Это не сделано для обучения с использованием перекрестной потери энтропии. Вместо этого вероятности, выведенные моделью, сравниваются с «истинными» вероятностями (обычно принимается за эмпирическое распределение).

Энтропия Шенона применяется к определенному виду кодирования, который не используется при обучении сети.

Кросс-энтропия может интерпретироваться как количество битов в сообщении, необходимое (в среднем) для кодирования событий, извлеченных из истинного распределения , если используется оптимальный код для распределения . Перекрестная энтропия принимает минимальное значение (энтропия Шеннона ), когда . Чем лучше совпадение между иH(p,q)pqH(p)pq=pqp, чем короче длина сообщения. Обучение модели для минимизации перекрестной энтропии можно рассматривать как обучение ее для лучшего приближения к истинному распределению. В контролируемых задачах обучения, которые мы обсуждали, модель дает распределение вероятностей по возможным выходным данным с учетом входных данных. Явный поиск оптимальных кодов для распределения не является частью процесса.


«Это не сделано для обучения с использованием перекрестной потери энтропии». Это именно то, что делают API, подобные TensorFlow softmax_cross_entropy_with_logits: они рассчитывают и, следовательно, который определяет сеть, «предназначенную» для создания вероятностей (по крайней мере, в месте расположения метки). Нет? argminθi=1mH(o(i);θ)θML(O)
Оромэ

Да, перекрестная энтропия минимизируется, а вероятность максимальна (по крайней мере, локально). В этом предложении я имел в виду уравнения в разделе «различные вероятности обучения и прогнозирования». Глядя на это еще раз, мне не совсем понятно, что вы имеете в виду под этими уравнениями, поэтому я просто скажу следующее: если вы используете выходной слой, где каждая единица дает классовую вероятность (например, softmax). Вероятности модели одинаковы во время обучения и прогнозирования. pmodel(y(i)=jx(i);θ)=aj(x(i);θ)
user20160

Я понимаю , что одни и те же значения используются - то есть, ученый используются для предсказания - но они используются по - разному. Вероятность того, что модель узнает для , действительно равна , но вероятность того, что будет предсказана обученной моделью в ответ на тот же ввод, - это . Это не то же самое, если (2) не верно. apmodel(y(i)|x(i);θML)ay(i)(x(i);θML)y(i)x(i)P(argmaxj[1,k]aj(x(i);θML)=y(i))
Оромэ

И (первый вопрос) я понимаю, что из-за роли, определенной в уравнении. (1), сыгранный в максимизации , то значения являются вероятности (не потому , что Softmax, который только гарантирует, что они добавят к 1). Но это не накладывает никаких ограничений на других ; (кроме суммы в ). Поэтому я не понимаю, как как дыра можно считать PMF. ay(i)(x(i);θ)pmodel(O;θ)ay(i)(x(i);θML)ajjy(i)1ay(i)a(x(i);θML)
Оромэ

Еще один способ высказать мнение по первому вопросу состоит в том, что только когда-либо участвуют в процессе ML, и, таким образом, только они могут рассматриваться как вероятности. И хотя подходящая функция активации (например, softmax) гарантирует, что сумма оставшихся активаций будет являться вероятностью, отношения между любыми из них не имеют смысла. ay(i)
Оромэ

3

Я отвечу с несколько более общей точки зрения относительно характера того, как, когда и почему мы можем рассматривать выходные данные NN как распределения вероятностей.

В том смысле, что softmax приводит к тому, что выходные данные суммируются с 1 и также являются неотрицательными, выходные данные сети представляют собой дискретное распределение вероятностей по классам или, по крайней мере, могут интерпретироваться как таковые. Следовательно, совершенно разумно говорить о кросс-энтропиях и максимальных вероятностях.

Тем не менее, я думаю, что вы видите (и это правильно), что выходные «вероятности» могут не иметь ничего общего с реальной вероятностью правильности . Это хорошо известная проблема в ML, называемая калибровкой . Например, если ваш классификатор собак и кошек говорит , то вы ожидаете, что если вы взяли набор примеров всех из которых , тогда примерно 30% входных данных будут ошибочно классифицированы (так как они были уверены только на 70%).fθDCfθ(xi,C)=P(xi=C|θ)=0.7S={xj} P(xj=C|θ)=0.7

Однако, оказывается, что современные методы обучения не навязывают это вообще! Посмотрите Guo и др., О калибровке современных нейронных сетей, чтобы увидеть некоторые обсуждения этого.

Другими словами, «вероятность» вывода из softmax вполне может не иметь ничего общего с фактической достоверностью модели. И это не удивительно: мы просто хотим максимизировать нашу точность, и каждый входной пример имеет вероятность 1 быть его целевым классом. Существует мало стимулов для модели, чтобы получить это право. Если не нужно оценивать неопределенность, то зачем это нужно? Кросс-энтропия не устраняет эту проблему; на самом деле, вы говорите, чтобы каждый раз переходил к дельта-функции!

Много недавних работ по Байесовским нейронным сетям пытаются исправить эту проблему. Такие модели используют распределение по параметрам с учетом данных , которые можно интегрировать для получения фактического распределения вероятности . Это помогает гарантировать полезные измерения неопределенности и лучшую калибровку. Тем не менее, это более проблематично в вычислительном отношении.P(θ|X)=P(X|θ)P(θ)/P(X)P(yi|xi,X)=P(yi|θ,xi)P(θ|X)dθ

Надеюсь, я не поняла ваш вопрос!


Хорошая связанная работа: arxiv.org/abs/1711.01297
user3658307

0

Нейронные сети с прямой связью аппроксимируют истинные классовые вероятности при надлежащем обучении.

В 1991 году Ричард и Липпманн доказали, что нейронные сети с прямой связью приближаются к вероятностям апостериорных классов, когда обучаются с {0,1} шаблонами целевых показателей класса [ Richard MD, & Lippmann RP (1991). Классификаторы нейронной сети оценивают байесовские апостериорные вероятности. Нейронные вычисления, 3, 461–483. ]. В своей линии доказательств они используют нейронные сети прямой связи с одним скрытым слоем.

В математической аннотации Duda & Hart [ Duda RO & Hart PE (1973): классификация образов и анализ сцен, Wiley ] определите распределения признаков, предоставляемые в качестве входного вектора для нейронной сети прямой связи, как , где, например, вектор данных равен , для задачи классификации с 4 признаками-переменными. Индекс указывает возможные классов, .P(xωi)x=(0.2,10.2,0,2)ini{1,,n}

Классификатор нейронной сети с прямой связью изучает апостериорные вероятности при обучении градиентным спуском. Например, требуемый шаблон вывода должен быть для задачи классификации двух классов. Нейронная сеть с прямой связью имеет один выходной узел на класс. Вектор указывает, что наблюдаемый признак-вектор принадлежит 2-му классу.P^(ωix)o=(0,1)(0,1)


Это не вопрос.
августа

0

Логарифмическая вероятность не связана напрямую с энтропией в контексте вашего вопроса. Сходство поверхностно: оба имеют суммы логарифмов вероятностных величин.

Логарифм в логарифмическом правдоподобии (MLE) выполняется исключительно по причинам численного расчета. Произведение вероятностей может быть очень маленьким, особенно если ваша выборка велика. Тогда диапазон вероятностей переходит от 1 к исчезающе малой стоимости продукта. Когда вы получаете журнал, продукт становится суммой, а функция журнала сжимает диапазон значений в меньший, более управляемый домен. Логарифм является монотонной функцией, поэтому максимальное (минимальное) логарифмическое правдоподобие даст тот же ответ самой вероятности. Следовательно, наличие лог в выражении MLE не важно в математическом смысле, а просто вопрос удобства.

Наличие логарифмической функции в энтропии является более существенным и имеет свои корни в статистической механике, отрасли физики. Это связано с распределением Больцмана , которое используется в теории газов. Например, вы можете определить давление воздуха как функцию высоты над уровнем моря.


Можете ли вы выделить какую часть вопроса это адрес?
1818

Как я уже сказал в ОП, ясно, что использование журнала во втором способе выражения MLE - это просто удобство (ваши первые два абзаца). И ваш последний абзац просто говорит о том, что наличие лог в выражении для энтропии имеет смысл - в контексте энтропии (особенно физики). Но то, что отсутствует (и это вопрос), является оправданием для объединения этих двух различных (и истинных) наблюдений. Я не вижу одного, кроме уравнения после (3), полезного способа выразить второе уравнение для MLE. Возможно, это то, что вы говорите?
августа

@ orome, вы можете сделать NN для вычисления энтропии, конечно, но это не то, как функция кросс-энтропии фактически используется в большинстве случаев. Вы можете думать об этом как о другом виде функции стоимости, вот и все здесь. Кажется, что он обладает желаемыми свойствами и приятно симметричен.
Аксакал

Да, так что называть это энтропией или предполагать, что имеют смысл искажения (для которых "энтропия" обеспечивает какое-либо понимание) вводит в заблуждение . ay(i)(x(i);θML)
18:30

@ О, я бы не стал зацикливаться на названии. Как будто функция «потеря шарнира» имеет мало общего с шарнирами. Они называют это «потерей энтропии», потому что ее функциональная форма в точности подобна уравнению информационной энтропии.
Аксакал
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.