Список функций стоимости, используемых в нейронных сетях, наряду с приложениями

133

Какие функции общих затрат используются при оценке производительности нейронных сетей?

подробности

(не стесняйтесь пропустить остальную часть этого вопроса, мое намерение здесь состоит в том, чтобы просто дать пояснение по обозначению, которое ответы могут использовать, чтобы помочь им быть более понятными для широкого читателя)

Я думаю, что было бы полезно иметь список общих функций затрат, а также несколько способов их использования на практике. Так что, если другие заинтересуются этим, я думаю, что вики-сообщество, вероятно, является лучшим подходом, или мы можем снять его, если это не по теме.

нотация

Итак, для начала я бы хотел определить обозначение, которое мы все используем при их описании, чтобы ответы хорошо соответствовали друг другу.

Это обозначение из книги Нильсена .

Нейронная сеть с прямой связью - это множество слоев нейронов, соединенных вместе. Затем он принимает на входе, что вход «течет» через сеть, а затем нейронная сеть возвращает выходной вектор.

Более формально, назовите активацией (он же выход) нейрона в слое , где является элементом во входном векторе. $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

Затем мы можем связать вход следующего слоя с его предыдущим с помощью следующего отношения:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

где

- функция активации, $\sigma$

- вес отнейрона вслое донейрона вслое , $w^i_{jk}$ $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

- смещениенейрона вслое , и $b^i_j$ $j^{th}$ $i^{th}$

представляет значение активациинейрона вслое . $a^i_j$ $j^{th}$ $i^th$

Иногда мы пишем чтобы представить , другими словами, значение активации нейрона перед применением функции активации. $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

введите описание изображения здесь

Для более кратких обозначений мы можем написать

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

Чтобы использовать эту формулу для вычисления выхода сети прямой связи для некоторого входа , установите , а затем вычислите , , ..., , где m - количество слоев. $I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

Введение

Функция стоимости - это мера того, «насколько хорошо» нейронная сеть работает в отношении заданной обучающей выборки и ожидаемого результата. Это также может зависеть от таких переменных, как вес и отклонения.

Функция стоимости - это одно значение, а не вектор, потому что она оценивает, насколько хорошо нейронная сеть работает в целом.

В частности, функция стоимости имеет вид

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

где - это веса нашей нейронной сети, - смещения нашей нейронной сети, - вход одной обучающей выборки, а - желаемый выход этой обучающей выборки. Обратите внимание, что эта функция также потенциально может зависеть от и для любого нейрона в слое , потому что эти значения зависят от , и . $W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

В обратном распространении функция стоимости используется для вычисления ошибки нашего выходного слоя, , через $\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$

Который также может быть записан как вектор через

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$

Мы предоставим градиент функций стоимости в терминах второго уравнения, но если кто-то хочет доказать эти результаты самостоятельно, рекомендуется использовать первое уравнение, потому что с ним легче работать.

Требования к функции стоимости

Для использования в обратном распространении функция стоимости должна удовлетворять двум свойствам:

1: функция стоимости должна быть записана как среднее $C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

функции перерасхода для отдельных примеров обучения, . $C_x$ $x$

Это позволяет нам вычислить градиент (относительно весов и смещений) для одного примера обучения и запустить Gradient Descent.

2: Функция затрат не должно зависеть от любых значений активации нейронной сети , кроме выходных значений . $C$ $a^L$

Технически функция стоимости может зависеть от любого или $a^i_j$ $z^i_j$ . Мы просто налагаем это ограничение, чтобы можно было использовать обратное распространение, потому что уравнение для нахождения градиента последнего слоя является единственным, которое зависит от функции стоимости (остальные зависят от следующего слоя). Если функция стоимости зависит от других уровней активации, кроме выходного, обратное распространение будет недопустимым, поскольку идея «обратного хода» больше не работает.

Кроме того, функции активации должны иметь выход для всех . Таким образом, эти функции затрат должны быть определены только в этом диапазоне (например, $0\leq a^L_j \leq 1$ $j$ справедливо, поскольку нам гарантировано). $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Phylliida
источник

Это сайт вопросов и ответов, и формат этого поста не очень подходит для этого. Вероятно, вы должны поместить большую часть контента в ответ и оставить только вопрос (например, что такое список функций стоимости, используемых в NN?).

— Роджер Фан

Хорошо, это лучше? Я думаю, что определения важны, иначе ответы станут неопределенными для тех, кто не знаком с терминологией, которую использует автор.

— Филиллида

Но что, если другой ответ использует другое обозначение или терминологию?

— Роджер Фан

Идея состоит в том, что все используют здесь одну и ту же терминологию, и если она отличается, мы конвертируем ее в это, поэтому ответы «соответствуют» друг другу. Но я полагаю, я мог бы удалить этот кусок, если вы не думаете, что он полезен.

— Филиллида

Я просто думаю, что детали, в которые входит вопрос, на самом деле не нужны или не актуальны. Это кажется немного чрезмерным и ограничивающим, но это только я.

— Роджер Фан

Ответы:

Вот те, кого я понимаю до сих пор. Большинство из них работают лучше всего, когда заданы значения от 0 до 1.

Квадратичная стоимость

Также известный как среднеквадратичная ошибка , максимальная вероятность и суммарная квадратичная ошибка , это определяется как:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

Градиент этой функции стоимости по отношению к выходу нейронной сети и некоторому образцу : $r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Стоимость кросс-энтропии

Также известный как отрицательная логарифмическая вероятность Бернулли и бинарная перекрестная энтропия

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

Градиент этой функции стоимости по отношению к выходу нейронной сети и некоторому образцу : $r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Экспоненциальная стоимость

Это требует выбора некоторого параметра который, по вашему мнению, даст вам желаемое поведение. Обычно вам просто нужно поиграть с этим, пока все не заработает. $\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

$\text{exp}(x)$ $e^x$

Градиент этой функции стоимости по отношению к выходу нейронной сети и некоторому образцу r $r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

$C_{EXP}$ $C_{EXP}$

Расстояние Хеллингера

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

$0$ $1$

Градиент этой функции стоимости по отношению к выходу нейронной сети и некоторому образцу r $r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Расхождение Кульбака – Лейблера

Также известен как информационное расхождение , информационное усиление , относительная энтропия , KLIC или дивергенция KL (см. Здесь ).

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

$D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

$P=E^i$ $Q=a^L$

Градиент этой функции стоимости по отношению к выходу нейронной сети и некоторому образцу r $r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Обобщенная дивергенция Кульбака – Лейблера

От сюда .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

Градиент этой функции стоимости по отношению к выходу нейронной сети и некоторому образцу r $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Расстояние Итакура - Сайто

Также отсюда .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

Градиент этой функции стоимости по отношению к выходу нейронной сети и некоторому образцу r $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

$\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— Phylliida
источник

Спасибо, что поделились, вы также можете рассмотреть следующие вопросы: github.com/torch/nn/blob/master/doc/criterion.md

— Яннис Ассаэль

у вас есть небольшая ошибка в знаменателе производной кросс-энтропии, оно должно быть a*(1-a)неa*(1+a)

— Amro

Также было бы здорово показать функцию потери пинбола, чтобы минимизировать квантили ошибок, а не среднюю ошибку. Очень используется в системах поддержки принятия решений.

— Рикардо Крус

где я могу посмотреть графики для них?

— Coiso

\neq

$\neq$

\neq

$\neq$

У меня нет репутации, чтобы комментировать, но в последних 3 градиентах есть ошибки знака.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$ Эта же ошибка знака появляется в расхождении обобщенного KL.

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— откровенный
источник