Должны ли глубокие остаточные сети рассматриваться как совокупность сетей?


12

Речь идет об архитектуре Deep Residual Networks ( ResNets ). Модель, занявшая 1-е место на «Large Scale Visual Recognition Challenge 2015» (ILSVRC2015) по всем пяти основным трекам:

  • Классификация ImageNet: «Сверхглубокие» (цитата Янн) 152-слойные сетки
  • Обнаружение ImageNet: 16% лучше, чем второе
  • Локализация ImageNet: 27% лучше, чем 2-й
  • COCO Detection: 11% лучше, чем 2-й
  • Сегментация COCO: на 12% лучше, чем у 2-го

    источника Источник: соревнования MSRA @ ILSVRC & COCO 2015 (презентация, 2-й слайд)

Эта работа описана в следующей статье:

Глубокое остаточное обучение для распознавания изображений (2015, PDF)


Исследовательская группа Microsoft (разработчики ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) в своей статье:

« Идентификационные сопоставления в глубоких остаточных сетях (2016 г.) »

Скажите, что глубина играет ключевую роль:

« Мы получаем эти результаты с помощью простой, но важной концепции - углубляясь. Эти результаты демонстрируют потенциал раздвигания границ глубины ».

В их презентации также подчеркивается (глубже - лучше):

- «Более глубокая модель не должна иметь более высокой ошибки обучения».
- «Более глубокие ResNets имеют меньшую ошибку обучения, а также меньшую ошибку теста».
- "Более глубокие ResNets имеют меньшую ошибку."
- «Все извлекают выгоду из более глубоких функций - совокупные выгоды!»
- «Чем глубже, тем лучше».

Вот структура 34-слойного остатка (для справки): введите описание изображения здесь


Но недавно я нашел одну теорию, которая вводит новую интерпретацию остаточных сетей, показывающую, что они являются экспоненциальными ансамблями:

Остаточные сети - экспоненциальные ансамбли относительно мелких сетей (2016)

Глубокие Resnets описываются как множество неглубоких сетей, выходы которых объединяются на разной глубине. В статье есть картинка. Я прилагаю это с объяснением:

введите описание изображения здесьОстаточные сети условно обозначаются как (а), что является естественным представлением уравнения (1). Когда мы расширим эту формулировку до уравнения (6), мы получим развернутый вид остаточной сети из 3 блоков (b). Из этого представления очевидно, что у остаточных сетей есть O (2 ^ n) неявных путей, соединяющих вход и выход, и что добавление блока удваивает число путей.

В заключении статьи говорится:

Не глубина, а ансамбль делает остаточные сети сильными . Остаточные сети расширяют границы множественности, а не глубины сети. Предлагаемое нами развернутое представление и исследование поражений показывают, что остаточные сети являются неявным ансамблем экспоненциально многих сетей. Если большинство из путей , которые способствуют градиенту очень мало по сравнению с общей глубиной сети, увеличенной глубина в одиночку не может быть ключевой характеристикой остаточных сетей. Теперь мы считаем, что множественность , выражаемость сети с точки зрения количества путей, играет ключевую роль .

Но это только недавняя теория, которая может быть подтверждена или опровергнута. Иногда случается, что некоторые теории опровергаются, а статьи снимаются.


Должны ли мы думать о глубоких ResNets как об ансамбле? Ансамбль или глубина делают остаточные сети такими сильными? Возможно ли, что даже сами разработчики не совсем понимают, что представляет их собственная модель и какова основная концепция в ней?

Ответы:


4

Представь, что джинн исполняет три желания. Поскольку вы амбициозный исследователь в области глубокого обучения, ваше первое желание - это идеальное решение для 1000-слойного NN для Image Net, которое быстро появится на вашем ноутбуке.

Теперь решение, созданное джиннами, не дает вам никакой интуиции, как его можно интерпретировать как ансамбль, но вы действительно верите, что вам нужно 1000 слоев абстракции, чтобы отличить кошку от собаки? Как отмечают сами авторы «ансамблевой статьи», это явно не относится к биологическим системам.

Конечно, вы можете тратить свое второе желание на разложение решения на множество сетей, и я уверен, что джинн сможет это сделать. Причина в том, что часть силы глубокой сети всегда будет исходить из ансамблевого эффекта.

Поэтому неудивительно, что два очень успешных трюка для обучения глубоких сетей, отсева и остаточных сетей, имеют непосредственную интерпретацию как неявный ансамбль. Поэтому «это не глубина, а ансамбль» кажется мне ложной дихотомией. Вы бы действительно сказали это, только если бы вы искренне верили, что вам нужны сотни или тысячи уровней абстракции для классификации изображений с человеческой точностью.

Я предлагаю вам использовать последнее желание для чего-то еще, возможно, пинаколады.


0

Случайные остаточные сети для многих нелинейностей, таких как tanh, живут на краю хаоса, так как косинусное расстояние двух входных векторов будет сходиться к фиксированной точке с полиномиальной скоростью, а не с экспоненциальной скоростью, как в ванильных сетях. Таким образом, типичная остаточная сеть будет медленно пересекать стабильно-хаотическую границу с глубиной, паря вокруг этой границы в течение многих слоев. По сути, он не «забывает» геометрию пространства ввода «очень быстро». Так что, даже если мы сделаем их значительно глубже, они будут лучше работать в ванильных сетях.

Для получения дополнительной информации о распространении информации в остаточных сетях - Среднее поле остаточных сетей: на грани хаоса

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.