Теорема универсальной аппроксимации для сверточных сетей

14

Теорема универсального приближения является довольно известным результатом для нейронных сетей, в основном утверждая, что при некоторых допущениях функция может быть равномерно аппроксимирована нейронной сетью с любой точностью.

Есть ли аналогичный результат, применимый к сверточным нейронным сетям?

neural-networks conv-neural-network approximation

— Джонас Адлер
источник

7

Это интересный вопрос, однако ему не хватает должного разъяснения того, что считается сверточной нейронной сетью .

Является ли единственное требование, чтобы сеть включала операцию свертки? Должен ли он включать только операции свертки? Допускаются ли операции объединения? Сверточные сети, используемые на практике, используют комбинацию операций, часто включая полностью связанные слои (как только у вас есть полностью связанные слои, у вас появляется теоретическая универсальная способность приближения).

$D$ $K$ $W \in \mathbb R ^{K\times D}$

$K\times D$ $D$ $d$ $k,d$ $W_{k,d}$ $KD$
$K$ $KD$ $kD\ldots(k+1)D$ $k$

Такая сверточная сеть имитирует полностью подключенную сеть и, таким образом, обладает такими же возможностями универсального приближения. Вам решать, насколько полезен такой пример на практике, но я надеюсь, что он отвечает на ваш вопрос.

— Ян Кукацка
источник

1

Такая конструкция довольно очевидна, но имеет место, например, только с граничными условиями заполнения нулями. При более естественном требовании, например, периодических граничных условий (что делает трансляцию оператора эквивариантной), это не выполняется.

— Джонас Адлер

1

Да, эта очевидная конструкция предполагает, что свертка применяется только к входу (без заполнения). Как я уже сказал, если вы не укажете, что разрешено, а что нет в вашем определении CNN, я предполагаю, что это правильный подход. Кроме того, обратите внимание, что практических последствий UAT практически нет, поэтому я не уверен, имеет ли смысл даже углубляться в это, указывая различные версии CNN и демонстрируя что-то похожее для каждой из них.

— Ян Кукацка

5

Похоже, что на этот вопрос утвердительно ответил в недавней статье Дмитрий Яроцкий: универсальные аппроксимации инвариантных отображений нейронными сетями .

В статье показано, что любая трансляционная эквивариантная функция может быть сколь угодно хорошо аппроксимирована сверточной нейронной сетью при условии, что она достаточно широка в прямой аналогии с классической теоремой универсального приближения.

— Джонас Адлер
источник

3

См. Документ « Универсальность глубоких сверточных нейронных сетей » Дин-Суана Чжоу , который показывает, что сверточные нейронные сети универсальны, то есть они могут приближать любую непрерывную функцию с произвольной точностью, когда глубина нейронной сети достаточно велика.

— nbro
источник

1

Кажется, это предполагает нулевые граничные условия, поэтому результат должен быть таким же, как упоминал

— Джонас Адлер