Мотивирующие сигмовидные выходные блоки в нейронных сетях, начиная с ненормализованных логарифмических вероятностей, линейных по

12

Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода $P(y=1|x)$ мотивировано .

Чтобы суммировать некоторые материалы, они позволяют быть выходным нейроном до применения активации, где - выход предыдущего скрытого слоя, - вектор весов, а - скалярное смещение. Входной вектор обозначен (от которого является функцией), а выходное значение обозначено где - сигмовидная функция. Книга желает определить распределение вероятностей по используя значение

Z знак равно {вес}^{T} час + б

$z = w^Th+b$

h

$h$

w

$w$

b

$b$

x

$x$

h

$h$

y = ϕ (z)

$y=\phi(z)$

ϕ

$\phi$

y

$y$

z

$z$ , Из второго абзаца страницы 183:

Мы опускаем зависимость от на данный момент, чтобы обсудить, как определить распределение вероятностей по используя значение . Сигмовидное может быть мотивировано построением ненормированного распределения вероятностей , который не суммируется до 1. Затем мы можем разделить на соответствующей константу , чтобы получить действительное распределение вероятностей. Если мы начнем с предположения, что ненормализованные логарифмические вероятности линейны по и , мы можем возвести в степень для получения ненормированных вероятностей. Затем мы нормализуем, чтобы увидеть, что это дает распределение Бернулли, управляемое сигмоидальным преобразованием z: $x$ $y$ $z$ $\tilde P(y)$ $y$ $z$
$\begin{aligned} журнал \tilde{п} (Y) & знак равно Y Z \\ \tilde{п} (Y) & знак равно ехр (Y Z) \\ п (Y) & знак равно \frac{ехр (Y Z)}{Σ_{Y^{'} знак равно 0}^{1} ехр (Y^{'} Z)} \\ п (Y) & знак равно φ ((2 Y - 1) Z) \end{aligned}$ $\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align}$

Вопросы: я запутался в двух вещах, особенно в первом:

Откуда исходит исходное предположение? Почему ненормализованная логарифмическая вероятность линейна по и ? Может кто-нибудь дать мне некоторое представление о том, как авторы начали с $y$ $z$ $\log\tilde P(y) = yz$ ?
Как следует последняя строка?

neural-networks deep-learning

— HBeel
источник

8

Есть два возможных результата для . Это очень важно, потому что это свойство меняет смысл умножения. Есть два возможных случая: $y \in \{0, 1\}$

\begin{aligned} журнал \tilde{п} (Y знак равно 1) & знак равно Z \\ журнал \tilde{п} (Y знак равно 0) & знак равно 0 \end{aligned}

$\begin{align} \log\tilde P(y=1) &= z \\ \log\tilde P(y=0) &= 0 \\ \end{align}$

Кроме того, важно отметить, что ненормализованная логарифмическая вероятность для постоянна. Это свойство вытекает из основного предположения. Применение любой детерминированной функции к постоянному значению даст постоянный результат. Это свойство упростит окончательную формулу, когда мы проведем нормализацию по всем возможным вероятностям, потому что нам просто нужно знать только ненормализованную вероятность для и для $y=0$ $y=1$ $y=0$ она всегда постоянна. А поскольку выход из сети с ненормализованной логарифмической вероятностью нам потребуется только один выход, потому что другой предполагается постоянным.

Затем мы применяем возведение в степень для ненормализованной вероятности логарифма, чтобы получить ненормализованную вероятность.

\begin{aligned} \tilde{п} (Y знак равно 1) & знак равно е^{Z} \\ \tilde{п} (Y знак равно 0) & знак равно е^{0} знак равно 1 \end{aligned}

$\begin{align} \tilde P(y=1) &= e ^ z \\ \tilde P(y=0) &= e ^ 0 = 1 \end{align}$

Затем мы просто нормализуем вероятности, деля каждую ненормализованную вероятность на сумму всех возможных ненормализованных вероятностей.

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} \\ P (y = 0) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} \\ P(y=0) = \frac{1}{1 + e ^ z} \end{align}$

Нас интересует только , потому что именно это означает вероятность из сигмовидной функции. Полученная функция на первый взгляд не выглядит как сигмовидная, но они равны, и это легко показать. $P(y=1)$

\begin{aligned} P (y = 1) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{\frac{e^{x} + 1}{e^{x}}} = \frac{1}{1 + \frac{1}{e^{x}}} = \frac{1}{1 + e^{- x}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ x}{1 + e ^ x} = \frac{1}{\frac{e ^ x + 1}{e ^ x}} = \frac{1}{1 + \frac{1}{e ^ x}} = \frac{1}{1 + e ^ {-x}} \end{align}$

Последнее утверждение может сначала сбить с толку, но это всего лишь способ показать, что эта конечная функция вероятности является сигмоидальной. В значение новообращенные до и к (или мы можем сказать , что это было бы без изменений). $(2y−1)$ $0$ $-1$ $1$ $1$

P (y) = σ ((2 y - 1) z) = {\begin{cases} σ (z) = \frac{1}{1 + e^{- z}} = \frac{e^{z}}{1 + e^{z}} & when y = 1 \\ σ (- z) = \frac{1}{1 + e^{- (- z)}} = \frac{1}{1 + е^{Z}} & когда Y знак равно 0 \end{cases}

$P(y) = \sigma((2y - 1)z) = \begin{cases} \sigma(z) = \frac{1}{1 + e ^ {-z}} = \frac{e ^ z}{1 + e ^ z} & \text{when } y = 1 \\ \sigma(-z) = \frac{1}{1 + e ^ {-(-z)}} = \frac{1}{1 + e ^ z} & \text{when } y = 0 \\ \end{cases}$

Как мы видим, это просто способ показать связь между и $\sigma$ $P(y)$

— itdxer
источник

«Кроме того, важно отметить, что ненормализованная логарифмическая вероятность для

постоянна. Это свойство вытекает из основного предположения». Предполагается, что мы уже решили, что

?

y = 0

$y=0$

y = 1

$y=1$

— HBeel

Я думаю, что моя путаница возникла из-за того, что сигмоид дает модели вероятность

независимо от фактической метки. Благодаря!

y = 1

$y=1$

— HBeel

Не хочу быть толстым здесь, но как

линейно по

и

. Я ожидал бы что-то вида

. Я понимаю, что

произведение

даст сумму, которая приблизит меня к линейности, но, похоже, это не является прямым следствием заявленного автором.

y \times z

$y\times z$

y

$y$

z

$z$

a y + b z + c

$ay + bz + c$

\log

$\log$

y z

$yz$

— Зебуллон

Я вижу, это действительно интересный вопрос. Я не обратил внимания на это утверждение, когда впервые прочитал вопрос. Теперь это выглядит странно и для меня. Одна проблема заключается в том, что у двоичная переменная, и я не уверен, как проверить свойства линейной функции в этих условиях. Я думаю, это будет иметь смысл, если вы будете задавать отдельные вопросы, может быть, кто-то может объяснить вам, почему это было написано таким образом.

— Itdxer

2

Я также нахожу этот фрагмент книги трудным для подражания, и приведенный выше ответ itdxer заслуживает некоторого времени, чтобы понять его и тому, кто недостаточно хорошо владеет вероятностями и математическим мышлением. Однако я сделал это, прочитав ответ в обратном направлении, поэтому начнем с сигмоида z

\begin{aligned} п (Y знак равно 1) знак равно \frac{е^{Z}}{1 + е^{Z}} знак равно \frac{1}{1 + е^{- Z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} = \frac{1}{1 + e ^ {-z}} \end{align}$

и попытаться вернуться к.

\begin{aligned} журнал \tilde{п} (Y) & знак равно Y Z \end{aligned}

$\begin{align} \log\tilde P(y) &= yz \end{align}$

Тогда имеет смысл, почему они начали объяснение с YZ - это по замыслу, так же, как в финале

\begin{aligned} σ ((2 Y - 1) Z) \end{aligned}

$\begin{align} \sigma((2y-1)z) \end{align}$

по построению позволяет получить -1 для y = 0 и 1 для y = 1, которые являются единственно возможными значениями y при Бернулли.

— Якуб Юрек
источник

0

Вот более формальная формулировка, которая понравится тем, у кого теоретический фон.

Пусть - число Бернулли, и пусть обозначает меру pushforward, т.е. для , и пусть $Y$ $P_Y$ $y\in \{0,1\}$ $P_Y(y)=P(Y=y)$ $\tilde P_Y$ обозначает его ненормализованный аналог.

У нас есть следующая цепочка последствий:

\begin{aligned} журнал {\tilde{п}}_{Y} (Y) знак равно Y Z & ⟹ {\tilde{п}}_{Y} (Y) знак равно ехр (Y Z) \\ ⟹ п_{Y} (Y) знак равно \frac{е^{Y Z}}{е^{0 \cdot Z} + е^{1 \cdot Z}} знак равно \frac{е^{Y Z}}{1 + е^{Z}} \\ ⟹ п_{Y} (Y) знак равно Y \frac{е^{Z}}{1 + е^{Z}} + (1 - Y) \frac{1}{1 + е^{Z}} \\ ⟹ п_{Y} (Y) знак равно Y σ (Z) + (1 - Y) σ (- Z) \\ ⟹ п_{Y} (Y) знак равно σ ((2 Y - 1) Z) \end{aligned}

$\begin{aligned} \log \tilde P_Y(y)=yz &\implies \tilde P_Y(y) = \exp(yz)\\ &\implies P_Y(y) = \frac{e^{yz}}{e^{0\cdot z}+e^{1\cdot z}}=\frac{e^{yz}}{1+e^{ z}}\\ &\implies P_Y(y) =y\frac{e^{z}}{1+e^{ z}} + (1-y)\frac{1}{1+e^{ z}}\\ &\implies P_Y(y) =y\sigma(z) + (1-y)\sigma(-z)\\ &\implies P_Y(y) = \sigma((2y-1)z) \end{aligned}$

$\{0,1\}$ $\{-1,1\}$

— Габриэль Ромон
источник