Что именно представляет собой блок остаточного обучения в контексте глубоких остаточных сетей в глубоком обучении?


12

Я читал статью « Глубокое остаточное обучение для распознавания изображений», и мне было трудно со 100% -ной уверенностью понять, что остаточный блок влечет за собой в вычислительном отношении. Читая их бумагу, у них есть рисунок 2:

введите описание изображения здесь

который иллюстрирует то, что должен быть Остаточный Блок. Является ли вычисление остаточного блока просто таким же, как:

Yзнак равноσ(W2σ(W1Икс+б1)+б2+Икс)

Или что-то еще?

Другими словами, возможно, чтобы попытаться сопоставить обозначения бумаги, это:

F(Икс)+Иксзнак равно[W2σ(W1Икс+б1)+б2]+Икс

это правда?

Обратите внимание, что после суммирования по окружности на бумаге появляется слово ReLU, поэтому вывод остаточного блока (который я обозначил ) должен быть:Y

σ(F(Икс)+Икс)знак равноσ([W2σ(W1Икс+б1)+б2]+Икс)

с одной дополнительной нелинейностью ReLU .σ


х положительный relu (x) = x
Рэй Тайек

Ответы:


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.