Я не думаю, что есть определенный ответ на ваши вопросы. Но я думаю, что общепринятая мудрость заключается в следующем:
По сути, по мере того, как пространство гипотез алгоритма обучения растет, алгоритм может изучать все больше и больше структур. Но в то же время алгоритм становится более склонным к переобучению, и его ошибка обобщения может возрасти.
В конечном счете, для любого данного набора данных целесообразно работать с минимальной моделью, обладающей достаточной емкостью для изучения реальной структуры данных. Но это очень волнистый совет, поскольку обычно «реальная структура данных» неизвестна, и часто даже возможности моделей-кандидатов понимаются лишь смутно.
Когда дело доходит до нейронных сетей, размер пространства гипотез определяется количеством параметров. И кажется, что при фиксированном числе параметров (или фиксированном порядке величины) более глубокий подход позволяет моделям охватить более богатые структуры (например, эту статью ).
Это может частично объяснить успех более глубоких моделей с меньшим количеством параметров: VGGNet (с 2014 года) имеет 16 слоев с параметрами ~ 140M, а ResNet (с 2015 года) превосходит его с 152 слоями, но только с параметрами ~ 2M
(с другой стороны, модели меньшего размера могут быть проще в обучении в вычислительном отношении - но я не думаю, что это сам по себе главный фактор - поскольку глубина фактически усложняет обучение)
Обратите внимание, что эта тенденция (большая глубина, меньше параметров) в основном присутствует в задачах, связанных со зрением, и в сверточных сетях, и это требует объяснения для конкретного домена. Итак, вот еще одна перспектива:
Каждый «нейрон» в сверточном слое имеет «рецептивное поле», которое представляет собой размер и форму входов, которые влияют на каждый выход. Интуитивно понятно, что каждое ядро фиксирует какую-то связь между соседними входами. А маленькие ядра (которые являются общими и предпочтительными) имеют небольшое восприимчивое поле, поэтому они могут предоставлять информацию только о локальных отношениях.
Но по мере углубления восприимчивое поле каждого нейрона относительно более раннего слоя становится больше. Таким образом, глубокие слои могут предоставлять функции с глобальным семантическим смыслом и абстрактными деталями (отношения отношений ... отношений объектов), в то же время используя только маленькие ядра (которые упорядочивают отношения, которые изучает сеть, и помогают ей сходиться и обобщать).
Таким образом, полезность глубоких сверточных сетей в компьютерном зрении может быть частично объяснена пространственной структурой изображений и видео. Возможно, что время покажет, что для разных типов задач или для не сверточных архитектур глубина на самом деле не работает хорошо.