Что измерение VC говорит нам о глубоком обучении?

В базовом машинном обучении нас учат следующим «правилам большого пальца»:

а) размер ваших данных должен как минимум в 10 раз превышать размер VC вашего набора гипотез.

б) нейронная сеть с N соединениями имеет размерность VC приблизительно N.

Итак, когда в нейронной сети с глубоким обучением говорят, миллионы единиц, значит ли это, что мы должны иметь, скажем, миллиарды точек данных? Не могли бы вы пролить свет на это?

— Fequish
источник

Глубокая нейронная сеть не будет иметь миллионов единиц, как вы заявляете. Тем не менее, он будет иметь миллионы соединений. Я бы предположил, что ваше второе эмпирическое правило не подходит для этих сетей, в первую очередь из-за их регуляризованного характера (например, CNN с отсева).

— пир

Я думаю, что ключ в том, что VC-граница не бесконечна. Если оно конечно, то теория PAC говорит нам, что обучение осуществимо. Сколько данных, это другой вопрос.

— Владислав Довгальец

Эмпирическое правило, о котором вы говорите, не может быть применено к нейронной сети.

Нейронная сеть имеет некоторые основные параметры, то есть ее веса и смещения. Количество весов зависит от количества соединений между уровнями сети, а количество смещений зависит от количества нейронов.

Размер необходимых данных сильно зависит от -

Тип используемой нейронной сети .
Методы регуляризации, используемые в сети .
Скорость обучения используется при обучении в сети.

При этом более правильный и верный способ узнать, подходит ли модель для переоснащения, - это проверить, близка ли ошибка проверки к ошибке обучения. Если да, то модель работает нормально. Если нет, то модель, скорее всего, переоснащается, а это означает, что вам нужно уменьшить размер вашей модели или внедрить методы регуляризации.

— Azrael
источник

Вы, должно быть, шутите, когда говорите, что лучший способ понять, не подходит ли модель, это проверить, близка ли ошибка валидации к ошибке обучения.

— 19

@nbro, если у вас есть подходящий набор для проверки ошибки проверки, это гораздо более надежная мера переоснащения для вашей специально обученной сети, чем проходить через обычно очень свободные границы VC.

— Дугал

@ Дугал Вы просто повторяете то, что сказали в своем ответе.

— 19

Не мой ответ @nbro. Но, учитывая набор проверки, вы можете получить тривиальную оценку высокой вероятности истинной ошибки обобщения с помощью Hoeffding или подобного, в то время как прохождение границ VC включает в себя множество свободных верхних границ, которые не являются специфичными для конкретного набора данных и сети, в которой вы находитесь рука.

— Дугал