Расчет VC-размерности нейронной сети

11

Если у меня есть некоторая фиксированная неповторяющаяся (DAG) топология (фиксированный набор узлов и ребер, но алгоритм обучения может варьировать вес по ребрам) сигмоидных нейронов с входными нейронами, которые могут принимать строки только в качестве входных данных и приводит к одному выходному сигналу (который выводит реальное значение, которое мы округляем до 1 или до -1, если это определенный фиксированный порог, отличный от 0). Есть ли быстрый способ вычислить (или приблизить) VC-размерность этой сети? $n$ $\{-1,1\}^n$

Ноты

Я попросил немного более точную алгоритмическую переформулировку на CS.SE:

Эффективное вычисление или аппроксимация VC-измерения нейронной сети

— Артем Казнатчеев
источник

Просто чтобы уточнить: у вас есть скрытые слои нейронов? Ваш вопрос не указывает явно, есть ли у вас какие-либо скрытые слои.

— Андрей

@ Andrew метод должен работать в любом случае. Поскольку никакие скрытые слои не являются линейным классификатором, это тривиально; так что меня больше интересует нетривиальный случай; Предположим, у нас есть 2+ скрытых слоя (хотя метод также должен работать меньше, так как он проще).

— Артем Казнатчеев

6

Я наткнулся на ваш пост, когда искал общую формулу для расчета размеров VC в нейронных сетях, но, видимо, ее нет. По-видимому, у нас есть только мешанина разрозненных уравнений ВК, которые применяются только в определенных узких случаях. Внимание: я основываю это на старых исследованиях, которые я едва понимаю, на концепции VC Dimensions, о которой я только сейчас узнаю. Тем не менее, возможно, стоит просмотреть эту статью Питера Л. Бартлетта и Вольфганга Маасса 1на вычислимость размеров VC. Обратите внимание, как они идут на многое, чтобы получить формулы VC в 13 теоремах, но насколько разнообразны и многочисленны необходимые условия для каждой. Эти предварительные условия варьируются от количества операторов в функциях активации до разрешенных типов переходов, количества нейронов и их положений, битовой глубины ввода и т. Д .; Есть так много разрозненных «ошибок», что они делают формулы полезными только для определенных узких классов задач. Что еще хуже, они указывают в теоремах 5 и 8, что сигмоидальные функции активации особенно трудно рассчитать для показателей VC. На стр. 6-7 пишут:

«Хотя VC-размерность сетей с кусочно-полиномиальными функциями активации хорошо понятна, в большинстве приложений нейронных сетей используется функция логистической сигмоиды или радиальная базисная функция Гаусса. К сожалению, невозможно вычислить такие функции с использованием конечного числа арифметические операции, перечисленные в теореме 5. Однако Карпински и Макинтайр [Karpinski and Macintyre, 1997] расширили теорему 5, чтобы позволить вычисление экспонент. В доказательстве используются те же идеи, но оценка числа решений системы уравнений существенно сложнее.

Я также натолкнулся на эту статью с обнадеживающим названием «Ограничение VC-измерения для нейронных сетей: прогресс и перспективы». 2Много математики у меня над головой, и я не занимался этим достаточно долго, чтобы преодолеть недостаток навыков перевода, но я подозреваю, что он не предлагает никаких потрясающих решений, поскольку он предшествует второму изданию книги Бартлетт и Маасс, который цитирует более позднюю работу тех же авторов. Возможно, более поздние исследования, проведенные за последние 20 лет, улучшили вычисляемость размеров VC для нейронных сетей, но большинство ссылок, которые я нашел, датируются серединой 90-х годов; по-видимому, тогда была бурная работа по этому вопросу, которая с тех пор утихла. Если эти возможности не были расширены более поздними исследованиями, чем те, что были в 90-х годах, то я надеюсь, что кто-то скоро найдет более широко применимое решение, чтобы я мог также начать вычислять измерения VC на своих нейронных сетях. Извините я не смог

1 Бартлетт, Питер Л. и Маасс, Вольфганг, 2003, «Измерение нейронных сетей Вапника-Червоненкиса», с. 1188-1192, «Справочник по теории мозга и нейронным сетям», Арбиб, Майкл А., ред. MIT Press: Кембридж, Массачусетс

2 Karpinski, Marek and Macintyre, Angus, 1995, «Ограничение VC-измерения для нейронных сетей: прогресс и перспективы», стр. 337–341 в материалах 2-й Европейской конференции по теории вычислительного обучения, Барселона, Испания. Vitanyi, P. ed. Конспект лекций по искусственному интеллекту, № 904. Спрингер: Берлин.

— SQLServerSteve
источник

0

Вот последняя работа: http://jmlr.org/papers/v20/17-612.html .

$W$ $L$

c W L \log (W / L) \leq V C \leq C W L \log (W L)

$c WL \log(W/L) \leq VC \leq CWL \log(WL)$

c

$c$

C

$C$

$c$ $C$

— jachilles
источник