Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода мотивировано .
Чтобы суммировать некоторые материалы, они позволяют быть выходным нейроном до применения активации, где h - выход предыдущего скрытого слоя, w - вектор весов, а b - скалярное смещение. Входной вектор обозначен x (от которого h является функцией), а выходное значение обозначено y = ϕ ( z ), где ϕ - сигмовидная функция. Книга желает определить распределение вероятностей по y, используя значение z
Мы опускаем зависимость от на данный момент, чтобы обсудить, как определить распределение вероятностей по y, используя значение z . Сигмовидное может быть мотивировано построением ненормированного распределения вероятностей ~ Р ( у ) , который не суммируется до 1. Затем мы можем разделить на соответствующей константу , чтобы получить действительное распределение вероятностей. Если мы начнем с предположения, что ненормализованные логарифмические вероятности линейны по y и z , мы можем возвести в степень для получения ненормированных вероятностей. Затем мы нормализуем, чтобы увидеть, что это дает распределение Бернулли, управляемое сигмоидальным преобразованием z: log ˜
Вопросы: я запутался в двух вещах, особенно в первом:
- Откуда исходит исходное предположение? Почему ненормализованная логарифмическая вероятность линейна по и z ? Может кто-нибудь дать мне некоторое представление о том, как авторы начали с log ˜ P ( y ) = y z ?
- Как следует последняя строка?