Потенциально более новая статья, в которой предпринимается попытка обратиться к ней от команды Langford и Shapire: последовательное изучение блоков Deep ResNet с использованием теории повышения
Интересующие части (см. Раздел 3):
Ключевое отличие состоит в том, что повышение - это совокупность оценочных гипотез, тогда как ResNet - это совокупность оценочных представлений признаков . Чтобы решить эту проблему, мы вводим вспомогательный линейный классификатор поверх каждого остаточного блока, чтобы построить модуль гипотезы . Формально
модуль гипотезы определяется какΣTт = 0еT( гT( х ) )весTo t ( x ) : = w T t g t ( x ) ∈ RоT( х ) : = шTTграммT( x ) ∈ R
...
(где)оT( х ) = ∑т - 1T'= 0весTTеT'( гT'( х ) )
В статье более подробно рассматривается создание слабого классификатора модуля и его интеграция с их алгоритмом BoostResNet .часT( х )
Добавив немного больше деталей к этому ответу, все алгоритмы повышения могут быть записаны в некоторой форме [1] (стр. 5, 180, 185 ...):
FT( х ) : = ∑т = 0TαTчасT( х )
Где - слабая гипотеза для некоторого выбора . Обратите внимание, что разные алгоритмы повышения будут давать и по-разному.часTTт чαTαTчасT
Например, AdaBoost [1] (стр. 5.) использует для минимизации взвешенной ошибки с помощьючасTεTαT= 12журнал1 - ϵTεT
С другой стороны, в настройке повышения градиента [1] (стр. 190.) который максимизирует и выбран (как скорость обучения и т. д.)часT∇ L ( Fт - 1( х ) ) ⋅ чTαT> 0
Где, как и в [2] в соответствии с леммой 3.2, показано, что выходное значение глубины ResNet равно что эквивалентноTF( х )
F( х ) ∝ ∑т = 0TчасT( х )
это завершает отношения между бустингом и реснетом. В статье [2] предлагается добавить вспомогательный линейный слой, чтобы получить его в виде , что приводит к их алгоритму BoostResNet и некоторым обсуждениям по этому поводу.FT( х ) : = ∑Tт = 0αTчасT( х )
[1] Роберт Э. Шапире и Йоав Фрейнд. 2012. Повышение: основы и алгоритмы. MIT Press. стр. 5, 180, 189
[2] Фуронг Хуанг, Джордан Эш, Джон Лэнгфорд, Роберт Шапир: Последовательное изучение блоков Deep ResNet с использованием теории повышения, ICML 2018