Разъяснение о реализации правила перцептрона против градиентного спуска против стохастического градиентного спуска

Я немного поэкспериментировал с различными реализациями Perceptron и хочу убедиться, правильно ли я понимаю «итерации».

Оригинальное правило персептрона Розенблатта

Насколько я понимаю, в классическом алгоритме персептрона Розенблатта веса обновляются одновременно после каждого примера обучения через

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

где $eta$ - это правило обучения здесь. И цель, и фактическая имеют пороговое значение (-1 или 1). Я реализовал это как 1 итерация = 1 проход по тренировочной выборке, но вектор весов обновляется после каждой тренировочной выборки.

И я рассчитываю «фактическое» значение как

$sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d)$

Стохастический градиентный спуск

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

Однако, это то же самое, что и правило персептрона, targetи actualэто не пороговые значения, а реальные значения. Кроме того, я считаю «итерацию» как путь к обучающему образцу.

И SGD, и классическое правило персептрона сходятся в этом линейно отделимом случае, однако у меня возникают проблемы с реализацией градиентного спуска.

Градиентный спуск

Здесь я просматриваю тренировочную выборку и суммирую изменения веса за 1 проход по тренировочной выборке и обновляю веса после этого, например,

для каждого образца обучения:

$\Delta{w_{new}} \mathrel{{+}{=}} \Delta{w}^{(t)} + \eta(target - actual)x_i$

...

после 1 прохода над тренировочным набором:

$\Delta{w} \mathrel{{+}{=}} \Delta{w_{new}}$

Мне интересно, верно ли это предположение или я что-то упускаю. Я пробовал разные (до бесконечно малых) скорости обучения, но никогда не мог заставить их показать какие-либо признаки сходимости. Итак, мне интересно, если я неправильно понял, что-н. Вот.

Спасибо Себастьян

optimization gradient-descent perceptron

У вас есть пара ошибок в ваших обновлениях. Я думаю, что в общем случае вы путаете значение текущих весов с разницей между текущими весами и предыдущими весами. У вас есть символы, разбросанные там, где их не должно быть, и + = там, где вы должны иметь =. $\Delta$

Perceptron:

, $\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \eta_t (y^{(i)} - \hat{y}^{(i)}) \pmb{x}^{(i)}$

где это предсказание модели на примере обучения. $\hat{y}^{(i)} = \text{sign} ({\pmb{w}^\top\pmb{x}^{(i)}})$ $i^{th}$

Это можно рассматривать как метод стохастического субградиентного спуска для следующей функции «потери перцептрона» *:

Потеря персептрона:

. $L_{\pmb{w}}(y^{(i)}) = \max(0, -y^{(i)} \pmb{w}^\top\pmb{x}^{(i)})$

. $\partial L_{\pmb{w}}(y^{(i)}) = \begin{array}{rl} \{ 0 \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} > 0 \\ \{ -y^{(i)} \pmb{x}^{(i)} \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} < 0 \\ [-1, 0] \times y^{(i)} \pmb{x}^{(i)}, & \text{ if } \pmb{w}^\top\pmb{x}^{(i)} = 0 \\ \end{array}$

Поскольку персептрон уже является формой SGD, я не уверен, почему обновление SGD должно отличаться от обновления перцептрона. То, как вы написали шаг SGD, с не пороговыми значениями, вы понесете убытки, если ответите слишком правильно. Плохо.

Ваш шаг пакетного градиента неверен, потому что вы используете "+ =", когда вы должны использовать "=". Текущие веса добавляются для каждого обучающего экземпляра . Другими словами, как ты это написал,

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \sum_{i=1}^n \{\pmb{w}^{(t)} - \eta_t \partial L_{\pmb{w}^{(t)}}(y^{(i)}) \}$

Что должно быть:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} - \eta_t \sum_{i=1}^n {\partial L_{\pmb{w}^{(t)}}(y^{(i)}) }$

$\eta_t = \frac{\eta_0}{\sqrt{t}}$

$\pmb{w}^\top\pmb{x}^{(i)} = 0$ $\partial L= [-1, 0] \times y^{(i)} \pmb{x}^{(i)}$ $\pmb{0} \in \partial L$ $\pmb{w} = \pmb{0}$ $-y^{(i)} \pmb{x}^{(i)} \in \partial L$

Таким образом, они не совсем одинаковы, но если вы исходите из предположения, что алгоритм персептрона является SGD для некоторой функции потерь, и реинжинирируете функцию потерь, потеря перцептрона - это то, что вы в конечном итоге получите.

— Сэм Томсон
источник

Спасибо, Сэм, и я прошу прощения за мой грязный вопрос. Я не знаю, откуда берутся дельты, но «+ =» был тем, что пошло не так. Я полностью упустил из виду эту часть. Спасибо за подробный ответ!