Функция кросс-энтропийной стоимости в нейронной сети

10

Я смотрю на функцию стоимости кросс-энтропии, найденную в этом уроке :

C = - \frac{1}{n} \sum_{x} [y \ln a + (1 - y) \ln (1 - a)]

$C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)]$

Что именно мы подводим? Это, конечно, над $x$ , но $y$ и $a$ не меняются с $x$ . Все $x$ являются входами в один $a$ . $a$ даже определяется в абзаце выше уравнением как функция суммы всех $w$ 's и $x$ .

Кроме того, $n$ определяется как количество входов в этот конкретный нейрон, правильно? Он сформулирован как «общее количество элементов данных обучения» .

Редактировать:

Правильно ли я считаю, что

C = - \frac{1}{n} \sum_{x} [y \ln a + (1 - Y) пер (1 - a)]

$C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)]$

будет функция стоимости для всей сети, тогда как

С знак равно [Y пер a + (1 - Y) пер (1 - a)]

$C = [y \ln a+(1−y)\ln(1−a)]$

будет стоимость отдельных нейронов? Разве сумма не должна быть по каждому выходному нейрону?

neural-networks error-propagation

— Adam12344
источник

14

Вот как бы я выразил потерю кросс-энтропии :

L (Икс, Y) знак равно - \frac{1}{N} Σ_{я знак равно 1}^{N} Y^{(я)} пер a ({Икс}^{(я)}) + (1 - Y^{(я)}) пер (1 - a ({Икс}^{(я)}))

$\mathcal{L}(X, Y) = -\frac{1}{n} \sum_{i=1}^n y^{(i)} \ln a(x^{(i)}) + \left(1 - y^{(i)}\right) \ln \left(1 - a(x^{(i)})\right)$

Здесь - это набор входных примеров в наборе обучающих данных, а - соответствующий набор меток. для этих входных примеров. представляет собой выход нейронной сети с учетом входного . $X = \left\{x^{(1)},\dots,x^{(n)}\right\}$ $Y=\left\{y^{(1)},\dots,y^{(n)} \right\}$ $a(x)$ $x$

Каждый из равен 0 или 1, и выходная активация обычно ограничивается открытым интервалом (0, 1) с использованием логистической сигмоиды . Например, для однослойной сети (что эквивалентно логистической регрессии) активация будет задана $y^{(i)}$ $a(x)$ где- весовая матрица, а- вектор смещения. Для нескольких слоев, вы можете расширить функции активации к чемутокак

a (Икс) знак равно \frac{1}{1 + е^{- W Икс - б}}

$a(x) = \frac{1}{1 + e^{-Wx-b}}$

W

$W$

b

$b$

где

и

- весовая матрица и смещение для первого слоя, а

a (Икс) знак равно \frac{1}{1 + е^{- W Z (Икс) - б}} Z (Икс) знак равно \frac{1}{1 + е^{- В Икс - с}}

$a(x) = \frac{1}{1 + e^{-Wz(x)-b}} \\ z(x) = \frac{1}{1 + e^{-Vx-c}}$

V

$V$

c

$c$

z (x)

$z(x)$ - активация скрытого слоя в сети.

Я использовал верхний индекс (i) для обозначения примеров, потому что нашел его весьма эффективным в курсе машинного обучения Эндрю Нга; иногда люди выражают примеры в виде столбцов или строк в матрице, но идея остается той же.

— lmjohns3
источник

Спасибо! Так что это даст нам единственное число для нашей ошибки для всей сети по всем нашим образцам. Для обратного распространения мне нужно найти частную производную этой функции по весовой матрице в последнем слое. Как бы я это сделал?

— Adam12344

Бэкпроп - это отдельная банка червей! На странице, на которую вы ссылаетесь, есть описание вычислительных производных и т. Д., И есть много вопросов о backprop на stackoverflow и на этом сайте. Попробуйте немного осмотреться, а затем опубликовать отдельный вопрос специально о backprop.

— lmjohns3

Это может быть полезно для понимания backprop, он проходит через заднюю опору с четырехслойной нейронной сетью с перекрестной потерей энтропии в мрачных

— YellowPillow

5

Что именно мы подводим?

Учебник на самом деле довольно явный:

$n$

$x$ $\Sigma$ $a$

a знак равно \underset{J}{Σ} {вес}_{J} {Икс}_{J},

$a = \sum_{j} w_jx_j.$

Позже в том же учебном пособии Нильсен дает выражение для функции стоимости для многослойной, многонейронной сети (уравнение 63):

С знак равно - \frac{1}{N} \underset{Икс}{Σ} \underset{J}{Σ} [Y_{J} пер a_{J}^{L} + (1 - Y_{J}) пер (1 - a_{J}^{L})],

$C = -\frac{1}{n}\sum_{x}\sum_{j}[ y_j \ln a^{L}_{j} + (1 - y_j) \ln (1 - a^{L}_{j})].$

$x$ $j$

— ali_m
источник

Спасибо за понимание, один вопрос: последнее, которое вы определили, не является категориальной перекрестной энтропией, верно?

— Томмазо

В своем уроке он также сказал, что «y может иногда принимать значения, промежуточные между 0 и 1», но функция, которую он давал, полностью связана с y, и не было ввода активации. Как мы можем реализовать промежуточные значения в функции st?

— Feras

В учебном пособии Нильсена, где показан однослойный персептрон, a = \ sigma (\ sum_ {j} w_j x_j), потому что у вас есть функция активации сигмоида для выходного слоя, а не a = \ sum_ {j} w_j x_j

— ARAT