Я получил небольшую путаницу с алгоритмом обратного распространения , используемым в многослойном персептроне (MLP).

Ошибка корректируется функцией стоимости. В обратном распространении мы пытаемся отрегулировать вес скрытых слоев. Я могу понять ошибку вывода, то есть e = d - y[Без подписки].

Вопросы:

Как получить ошибку скрытого слоя? Как рассчитать это?
Если я распространяю его обратно, должен ли я использовать его как функцию стоимости адаптивного фильтра или использовать указатель (в C / C ++) в смысле программирования, чтобы обновить вес?

machine-learning neural-networks backpropagation

— Хиггинс
источник

NN - скорее устаревшая технология, поэтому я боюсь, что вы не получите ответ, потому что никто здесь не использует их ...

@mbq: Я не сомневаюсь в ваших словах, но как вы пришли к выводу, что NN - это «устаревшая технология»?

— Штеффен

@steffen наблюдением; Я имею в виду, что очевидно, что никто из значимого сообщества NN не выйдет и скажет: «Эй, ребята, давайте бросим нашу жизнь и поиграем с чем-то лучше!», Но у нас есть инструменты, которые достигают такой же или лучшей точности без всей этой двойственности и никогда окончание обучения. И люди отказываются от NN в их пользу.

Это было правдой, когда ты это сказал, @mbq, но больше нет.

— Джерад

@jerad Довольно просто - я просто еще не видел честного сравнения с другими методами (Kaggle - это несправедливое сравнение из-за отсутствия доверительных интервалов для точности - особенно когда результаты всех команд с высокими показателями так близки как и в конкурсе Merck), нет никакого анализа надежности оптимизации параметров - что намного хуже.

Я подумал, что отвечу на отдельный пост здесь для всех, кто заинтересован. Это будет использовать обозначения, описанные здесь .

Вступление

Идея обратного распространения заключается в том, чтобы иметь набор «обучающих примеров», которые мы используем для обучения нашей сети. У каждого из них есть известный ответ, поэтому мы можем подключить их к нейронной сети и выяснить, насколько это было неправильно.

Например, при распознавании рукописного ввода у вас будет много рукописных символов наряду с тем, чем они были на самом деле. Затем нейронную сеть можно обучить с помощью обратного распространения, чтобы «научиться» распознавать каждый символ, а затем, когда он будет представлен неизвестным рукописным символом, он сможет определить, что это такое.

В частности, мы вводим некоторую обучающую выборку в нейронную сеть, видим, насколько она хороша, затем «стекаем назад», чтобы выяснить, насколько мы можем изменить вес и смещение каждого узла, чтобы получить лучший результат, и затем соответствующим образом скорректировать их. Пока мы продолжаем это делать, сеть «учится».

Есть и другие шаги, которые могут быть включены в учебный процесс (например, отсев), но я сосредоточусь в основном на обратном распространении, поскольку именно об этом и был этот вопрос.

Частные производные

Частная производная является производной от по некоторой переменной . $\frac{\partial f}{\partial x}$ $f$ $x$

Например, если , , потому что является просто константой относительно . Аналогично, , потому что является просто константой относительно . $f(x, y)=x^2 + y^2$ $\frac{\partial f}{\partial x}=2x$ $y^2$ $x$ $\frac{\partial f}{\partial y}= 2y$ $x^2$ $y$

Градиент функции, обозначенной , является функцией, содержащей частную производную для каждой переменной в f. В частности: $\nabla f$

\nabla f (v_{1}, v_{2}, . . ., v_{n}) = \frac{\partial f}{\partial v_{1}} e_{1} + \dots + \frac{\partial f}{\partial v_{n}} e_{n}

$\nabla f(v_1, v_2, ..., v_n) = \frac{\partial f}{\partial v_1 }\mathbf{e}_1 + \cdots + \frac{\partial f}{\partial v_n }\mathbf{e}_n$ ,

где - единичный вектор, указывающий в направлении переменной . $e_i$ $v_1$

Теперь, как только мы вычислили для некоторой функции , если мы находимся в позиции , мы можем «скользить вниз» по в направлении . $\nabla f$ $f$ $(v_1, v_2, ..., v_n)$ $f$ $-\nabla f(v_1, v_2, ..., v_n)$

В нашем примере единичными векторами являются и , потому что и , и эти векторы указывают в направлении осей и . Таким образом, . $f(x, y)=x^2 + y^2$ $e_1=(1, 0)$ $e_2=(0, 1)$ $v_1=x$ $v_2=y$ $x$ $y$ $\nabla f(x, y) = 2x (1, 0) + 2y(0, 1)$

Теперь, чтобы «сдвинуть» нашу функцию , скажем, мы находимся в точке . Тогда нам нужно двигаться в направлении . $f$ $(-2, 4)$ $-\nabla f(-2, -4)= -(2 \cdot -2 \cdot (1, 0) + 2 \cdot 4 \cdot (0, 1)) = -((-4, 0) + (0, 8))=(4, -8)$

Величина этого вектора даст нам, насколько крутой холм (более высокие значения означают, что холм круче). В этом случае у нас есть . $\sqrt{4^2+(-8)^2}\approx 8.944$

Gradient Descent

Адамар продукт

Произведение Адамара двух матриц , аналогично сложению матриц, за исключением того, что вместо сложения матриц пошагово, мы умножаем их поэлементно. $A, B \in R^{n\times m}$

Формально при матричном сложении есть , где такой, что $A + B = C$ $C \in R^{n \times m}$

C_{j}^{i} = A_{j}^{i} + B_{j}^{i}

$C^i_j = A^i_j + B^i_j$ ,

Произведение Адамара , где такое, что $A \odot B = C$ $C \in R^{n \times m}$

C_{j}^{i} = A_{j}^{i} \cdot B_{j}^{i}

$C^i_j = A^i_j \cdot B^i_j$

Вычисление градиентов

(Большая часть этого раздела из книги Нильсена ).

У нас есть набор обучающих выборок , где - это одна входная обучающая выборка, а - ожидаемое выходное значение этой обучающей выборки. Мы также имеем нашу нейронную сеть, состоящую из пристрастий и веса . используется для предотвращения путаницы с , и используемыми в определении сети прямой связи. $(S, E)$ $S_r$ $E_r$ $W$ $B$ $r$ $i$ $j$ $k$

Затем мы определяем функцию стоимости, которая берет в нашей нейронной сети и один пример обучения, и выводит, насколько хорошо это было сделано. $C(W, B, S^r, E^r)$

Обычно используется квадратичная стоимость, которая определяется

C (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

где - выход в нашу нейронную сеть, данный входной образец $a^L$ $S^r$

Затем мы хотим найти и для каждого узла в нашей нейронной сети с прямой связью. $\frac{\partial C}{\partial w^i_j}$ $\frac{\partial C}{\partial b^i_j}$

Мы можем назвать это градиентом в каждом нейроне, потому что мы рассматриваем и как константы, так как мы не можем изменить их, когда мы пытаемся учиться. И это имеет смысл - мы хотим двигаться в направлении относительно и что минимизирует затраты, и движение в отрицательном направлении градиента относительно и сделает это. $C$ $S^r$ $E^r$ $W$ $B$ $W$ $B$

Для этого мы определяем как ошибку нейрона в слое . $\delta^i_j=\frac{\partial C}{\partial z^i_j}$ $j$ $i$

Мы начнем с вычисления , подключив к нашей нейронной сети. $a^L$ $S^r$

Затем мы вычисляем ошибку нашего выходного слоя, , через $\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{L})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^L_j)$ .

Который также можно записать как

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{L})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^L)$ .

Далее мы находим ошибку в терминах ошибки в следующем слое , через $\delta^i$ $\delta^{i+1}$

δ^{i} = ((W^{i + 1})^{T} δ^{i + 1}) ⊙ σ^{'} (z^{i})

$\delta^i=((W^{i+1})^T \delta^{i+1}) \odot \sigma^{\prime}(z^i)$

Теперь, когда у нас есть ошибка каждого узла в нашей нейронной сети, вычислить градиент относительно наших весов и смещений легко:

\frac{\partial C}{\partial w_{j k}^{i}} = δ_{j}^{i} a_{k}^{i - 1} = δ^{i} (a^{i - 1})^{T}

$\frac{\partial C}{\partial w^i_{jk}}=\delta^i_j a^{i-1}_k=\delta^i(a^{i-1})^T$

\frac{\partial C}{\partial b_{j}^{i}} = δ_{j}^{i}

$\frac{\partial C}{\partial b^i_j} = \delta^i_j$

Обратите внимание, что уравнение для ошибки выходного слоя является единственным уравнением, зависящим от функции стоимости, поэтому, независимо от функции стоимости, последние три уравнения одинаковы.

В качестве примера с квадратичной стоимостью получаем

δ^{L} = (a^{L} - E^{r}) ⊙ σ^{'} (z^{L})

$\delta ^L = (a^L - E^r) \odot \sigma ^ {\prime}(z^L)$

для ошибки выходного слоя. и затем это уравнение можно вставить во второе уравнение, чтобы получить ошибку слоя : $L-1^{\text{th}}$

δ^{L - 1} = ((W^{L})^{T} δ^{L}) ⊙ σ^{'} (z^{L - 1})

$\delta^{L-1}=((W^{L})^T \delta^{L}) \odot \sigma^{\prime}(z^{L-1})$

= ((W^{L})^{T} ((a^{L} - E^{r}) ⊙ σ^{'} (z^{L}))) ⊙ σ^{'} (z^{L - 1})

$=((W^{L})^T ((a^L - E^r) \odot \sigma ^ {\prime}(z^L))) \odot \sigma^{\prime}(z^{L-1})$

которые мы можем повторить этот процесс , чтобы найти ошибку любого слоя относительно , который затем позволяет вычислять градиент весов и смещения любого узла по отношению к . $C$ $C$

Я мог бы написать объяснение и доказательство этих уравнений при желании, хотя можно также найти доказательства их здесь . Тем не менее, я бы посоветовал всем, кто читает это, доказать это сами, начиная с определения и применяя правило цепи свободно. $\delta^i_j=\frac{\partial C}{\partial z^i_j}$

Для еще несколько примеров, я сделал список некоторых функций затрат наряду с их градиентов здесь .

Градиентный спуск

Теперь, когда у нас есть эти градиенты, нам нужно использовать их для обучения. В предыдущем разделе мы нашли, как двигаться, чтобы «скользить» вниз по кривой относительно некоторой точки. В этом случае, поскольку это градиент некоторого узла по отношению к весам и смещению этого узла, наша «координата» - это текущий вес и смещение этого узла. Поскольку мы уже нашли градиенты относительно этих координат, эти значения уже являются тем, сколько нам нужно изменить.

Мы не хотим скользить вниз по склону с очень высокой скоростью, иначе мы рискуем проскользнуть ниже минимума. Чтобы предотвратить это, мы хотим иметь «размер шага» . $\eta$

Затем найдите, насколько мы должны изменить каждый вес и смещение, потому что мы уже вычислили градиент по отношению к имеющемуся у нас току.

Δ w_{j k}^{i} = - η \frac{\partial C}{\partial w_{j k}^{i}}

$\Delta w^i_{jk}= -\eta \frac{\partial C}{\partial w^i_{jk}}$

Δ b_{j}^{i} = - η \frac{\partial C}{\partial b_{j}^{i}}

$\Delta b^i_j = -\eta \frac{\partial C}{\partial b^i_j}$

Таким образом, наши новые веса и уклоны

w_{j k}^{i} = w_{j k}^{i} + Δ w_{j k}^{i}

$w^i_{jk} = w^i_{jk} + \Delta w^i_{jk}$

b_{j}^{i} = b_{j}^{i} + Δ b_{j}^{i}

$b^i_j = b^i_j + \Delta b^i_j$

Использование этого процесса в нейронной сети только с входным слоем и выходным слоем называется дельта-правилом .

Стохастический градиентный спуск

Теперь, когда мы знаем, как выполнять обратное распространение для одного образца, нам нужен какой-то способ использовать этот процесс, чтобы «изучить» весь наш тренировочный набор.

Один из вариантов - просто выполнить обратное распространение для каждого образца в наших данных обучения, по одному за раз. Это довольно неэффективно, хотя.

Лучший подход - Стохастический градиентный спуск . Вместо того, чтобы выполнять обратное распространение для каждого образца, мы выбираем небольшую случайную выборку (называемую серией ) нашего обучающего набора, а затем выполняем обратное распространение для каждого образца в этой партии. Надежда состоит в том, что, делая это, мы фиксируем «намерение» набора данных без необходимости вычислять градиент каждой выборки.

Например, если у нас было 1000 образцов, мы могли бы выбрать партию размером 50, а затем запустить обратное распространение для каждого образца в этой партии. Надежда состоит в том, что нам дали достаточно большой обучающий набор, чтобы он представлял распределение фактических данных, которые мы пытаемся изучить достаточно хорошо, что выбор небольшой случайной выборки достаточен для сбора этой информации.

Тем не менее, выполнение обратного распространения для каждого примера обучения в нашей мини-партии не является идеальным, потому что мы можем в конечном итоге «вертеться», когда обучающие образцы изменяют веса и смещения таким образом, что они взаимно компенсируют друг друга и не позволяют им добраться до минимум, к которому мы стремимся.

Чтобы предотвратить это, мы хотим перейти к «среднему минимуму», потому что есть надежда, что в среднем градиенты выборок указывают вниз по склону. Итак, после случайного выбора нашей партии мы создаем мини-партию, которая представляет собой небольшую случайную выборку нашей партии. Затем дается мини-партия с обучающими выборками, и обновляются только веса и смещения после усреднения градиентов каждой выборки в мини-партии. $n$

Формально мы делаем

Δ w_{j k}^{i} = \frac{1}{n} \sum_{r} Δ w_{j k}^{r i}

$\Delta w^{i}_{jk} = \frac{1}{n}\sum\limits_r \Delta w^{ri}_{jk}$

Δ b_{j}^{i} = \frac{1}{n} \sum_{r} Δ b_{j}^{r i}

$\Delta b^{i}_{j} = \frac{1}{n}\sum\limits_r \Delta b^{ri}_{j}$

где - вычисленное изменение веса для образца , а - вычисленное изменение смещения для образца . $\Delta w^{ri}_{jk}$ $r$ $\Delta b^{ri}_{j}$ $r$

Затем, как и раньше, мы можем обновить весовые коэффициенты с помощью:

w_{j k}^{i} = w_{j k}^{i} + Δ w_{j k}^{i}

$w^i_{jk} = w^i_{jk} + \Delta w^{i}_{jk}$

b_{j}^{i} = b_{j}^{i} + Δ b_{j}^{i}

$b^i_j = b^i_j + \Delta b^{i}_{j}$

Это дает нам некоторую гибкость в том, как мы хотим выполнить градиентный спуск. Если у нас есть функция, которую мы пытаемся изучить с большим количеством локальных минимумов, такое поведение «шатания» на самом деле желательно, потому что это означает, что у нас гораздо меньше шансов «застрять» в одном локальном минимуме, и с большей вероятностью «выпрыгнуть» из одного локального минимума и, надеюсь, упасть в другом, который ближе к глобальным минимумам. Таким образом, мы хотим маленькие мини-партии.

С другой стороны, если мы знаем, что локальных минимумов очень мало, и, как правило, градиентный спуск направляется к глобальным минимумам, нам нужны более крупные мини-партии, потому что такое поведение "покачивания" не позволит нам спуститься по склону так быстро как мы хотели бы. Смотрите здесь .

Один из вариантов - выбрать самую большую мини-партию, учитывая всю партию как одну мини-партию. Это называется « Пакетный градиентный спуск» , поскольку мы просто усредняем градиенты пакета. Это практически никогда не используется на практике, потому что это очень неэффективно.

— Phylliida
источник

Я не имел дело с нейронными сетями уже несколько лет, но я думаю, вы найдете здесь все, что вам нужно:

Нейронные сети - систематическое введение, глава 7: алгоритм обратного распространения

Я извиняюсь за то, что не написал здесь прямой ответ, но так как я должен искать детали, которые нужно запомнить (как и вы), и учитывая, что ответ без какой-либо резервной копии может быть даже бесполезным, я надеюсь, что это нормально. Однако, если остались какие-либо вопросы, оставьте комментарий, и я посмотрю, что я могу сделать.

— Штеффен
источник

Алгоритм обратного распространения