Почему глубокое обучение раскручивается несмотря на плохое измерение VC?

87

Формула Vapnik-Chervonenkis (VC) -мерности для нейронных сетей варьируется от до , с в худшем случае, где - число ребер, а это количество узлов. Количество обучающих выборок, необходимых для строгой гарантии обобщения, линейно зависит от VC-измерения. $O(E)$ $O(E^2)$ $O(E^2V^2)$ $E$ $V$

Это означает, что для сети с миллиардами ребер, как в случае успешных моделей глубокого обучения, учебному набору данных требуются миллиарды обучающих образцов в лучшем случае, а в худшем случае - квадриллионы. Самые большие тренировочные наборы в настоящее время имеют около ста миллиардов образцов. Поскольку данных для обучения недостаточно, вряд ли модели глубокого обучения обобщают. Вместо этого они переоснащают тренировочные данные. Это означает, что модели не будут хорошо работать с данными, которые отличаются от данных обучения, что является нежелательным свойством для машинного обучения.

Учитывая неспособность глубокого обучения обобщать, в соответствии с VC мерным анализом, почему результаты глубокого обучения так раздуты? Сама высокая точность некоторых наборов данных сама по себе ничего не значит. Есть ли что-то особенное в архитектурах глубокого обучения, которые значительно уменьшают размерность VC?

Если вы не считаете, что анализ VC-измерения является уместным, пожалуйста, предоставьте доказательства / объяснения того, что глубокое обучение является обобщающим и не является чрезмерным. Т.е. у него есть хороший отзыв и точность, или просто хороший отзыв? Достичь 100% - это тривиально, как и точность 100%. Получить оба близких к 100% очень сложно.

В качестве противоположного примера, здесь есть свидетельство того, что глубокое обучение переоснащается. Модель обмундирования легко обмануть, так как она содержит детерминированный / стохастический шум. Смотрите следующее изображение для примера переоснащения.

Кроме того, посмотрите ответы на этот вопрос с более низким рейтингом, чтобы понять проблемы с моделью сверхмодели, несмотря на хорошую точность данных испытаний.

Некоторые ответили, что регуляризация решает проблему большой размерности VC. Смотрите этот вопрос для дальнейшего обсуждения.

machine-learning vc-dimension

— yters
источник

Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .

— DW

7

Я не думаю, что вопросы, почему что-то «раскручено», хороши. Ответ "потому что люди". Люди интересуются вещами из-за множества причин, включая маркетинг.

— luk32

Глубокое обучение работает на практике. Это может быть перебор. Это может быть совершенно неоправданным. Возможно, он узнает секреты вселенной от божества. Но шумиха исходит от практиков, которые внезапно могут написать 30 строк кода и научить камеру сканировать подписи и сопоставлять их с сохраненными для проверки банковских транзакций. Или пометьте неизвестных людей на фотографиях. И т.д. Может быть, вы слышали строчку "это не оскорбление, если это правда"? Ну, это не обман, если это работает. Есть много проблем, над которыми он не работает, и чрезмерная популярность. Но это работает в реальном приложении.

— Стелла Бидерман

@StellaBiderman Простота использования стандартных методов машинного обучения хороша и все. Но интерес, по-видимому, больше связан с предполагаемой способностью к обучению DNN, которая, возможно, конкурирует с человеческими способностями, что, по-видимому, переоценено, учитывая анализ модели VC. Такой высокий размер VC подразумевает, что модели не будут обобщаться, а вместо этого запоминают наборы данных, делая их очень хрупкими. Похоже, что все статьи с примерами противостояния демонстрируют это.

— yters

@gerrit Я не уверен, что редактирование было настолько полезным. Бьюсь об заклад, гораздо больше людей знают, что такое измерение VC, чем знают, что оно означает.

— Дэвид Ричерби

75

«Если карта и местность не совпадают, доверьтесь местности».

Не совсем понятно, почему глубокое обучение работает так же хорошо, как и раньше, но, конечно, старые концепции теории обучения, такие как измерения VC, оказываются не очень полезными.

Этот вопрос горячо обсуждается, см., Например:

Лин, М. Тегмарк, Д. Ролник, Почему глубокое и дешевое обучение так хорошо работает?
C. Чжан, С. Бенжио, М. Хардт, Б. Рехт, О. Виньялс, Понимание глубокого обучения требует переосмысления обобщения .
Д. Крюгер, Б. Баллас, С. Ястшебский, Д. Арпит, М. С. Канвал, Т. Махарадж, Э. Бенжио, А. Фишер, А. Курвилль, Deep Nets не учатся через запоминание .

Что касается вопроса о состязательных примерах , проблема была обнаружена в:

C. Сегеды, В. Лю, Ю. Цзя, П. Серманет, С. Рид, Д. Ангуэлов, Д. Ерхан, В. Ванхоуке, А. Рабинович, Идя глубже с извилинами .

Это далее развито в:

И. Гудфеллоу, Дж. Шленс, С. Сегеди, объяснение и использование состязательных примеров .

Существует много последующей работы.

— Мартин Бергер
источник

Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .

— DW

Когда вы говорите «Есть много последующей работы», вы имеете в виду последний документ за 2014 год? Первые две статьи, которые вы упоминаете, довольно недавние. Не могли бы вы обновить с бумагами, на которые вы ссылаетесь?

— VF1

2

Сильный +1 за «Если карта и местность не совпадают, доверьтесь местности». Модели работают очень хорошо на практике независимо от того, говорит ли математика, что они должны. С научной точки зрения, это происходит постоянно, и если что-то делает проблемы более интересными. Никто не читал работы Разборова и Рудича по «Естественным доказательствам» и говорил: «Ну, я думаю, что P против NP не интересный вопрос в конце концов». Они пошли и выяснили, что возможно использовать алгебраическую геометрию для теории сложности. С точки зрения науки проблемы, которые выходят за рамки нашего понимания, лучше , а не хуже.

— Стелла Бидерман

65

«Учитывая неспособность глубокого обучения обобщать, согласно VC мерному анализу [...]»

Нет, это не то, что говорит VC мерный анализ. VC мерный анализ дает некоторые достаточные условия, при которых обобщение гарантировано. Но обратное не обязательно так. Даже если вы не соответствуете этим условиям, метод ML все же может обобщать.

Другими словами: глубокое обучение работает лучше, чем анализ измерений VC, на что вы могли бы рассчитывать (лучше, чем анализ VC «предсказывает»). Это недостаток VC-анализа, а не недостаток глубокого обучения. Это не означает, что глубокое обучение имеет недостатки. Скорее, это означает, что мы не знаем, почему глубокое обучение работает - и анализ VC не может обеспечить какую-либо полезную информацию.

Высокое измерение VC не означает, что глубокое обучение можно обмануть. Высокое измерение VC вообще ничего не гарантирует о том, можно ли его одурачить в практических ситуациях. Измерение VC обеспечивает однонаправленную границу для наихудшего случая: если вы удовлетворяете этим условиям, тогда происходят хорошие вещи, но если вы не соответствуете этим условиям, мы не знаем, что произойдет (возможно, хорошие вещи все равно будут происходить, если природа ведет себя лучше, чем наихудший случай; анализ ВК не обещает, что хорошие вещи не могут / не будут происходить).

Может случиться так, что измерение VC пространства модели велико (оно включает в себя, по возможности, очень сложные шаблоны), но природа объясняется простыми шаблонами, и алгоритм ML изучает простой шаблон, присутствующий в природе (например, из-за регуляризации) - - в этом случае размерность VC будет высокой, но модель будет обобщена (для конкретного шаблона, который присутствует в природе).

Это сказало ... есть все больше свидетельств того, что глубокое обучение может быть одурачено состязательными примерами. Но будьте осторожны с цепочкой рассуждений. Выводы, которые вы делаете, не вытекают из того, с чего вы начали.

— DW
источник

6

Большая размерность VC подразумевает, что ее сложнее обобщать (в некотором смысле, по крайней мере, когда речь идет о произвольных распределениях). ошибка обобщения нижней границы точности означает , что для числа образцов малы по сравнению с размером VC, существует распределение такого , что по отношению к ней любому алгоритму будет возникать высокая ошибка обобщения (с высокой вероятностью).

Ω (\sqrt{\frac{d}{n}})

$\Omega\left(\sqrt{\frac{d}{n}}\right)$

— Ариэль

5

-1 для «Высокое измерение VC вообще ничего не гарантирует». Это не так: высокое VC-измерение подразумевает нижнюю границу сложности образца для обучения PAC. Хороший ответ должен относиться к дистрибутивам в наихудшем случае против реальных.

— Сашо Николов

1

@SashoNikolov, хороший момент - спасибо! Ред.

— DW

Этот пост был в низком качестве обзора. Учитывая содержание, продолжительность, количество голосов и качество, это смешно, указывать на это здесь, но может потребоваться мета, потому что что-то действительно не так.

— Зло

23

Люди индустрии не заботятся о размерах ВК, хулиганах ...

На более серьезной ноте, хотя модель PAC - это элегантный способ думать об обучении (по крайней мере, на мой взгляд), и он достаточно сложен, чтобы вызвать интересные концепции и вопросы (такие как измерение VC и его связь со сложностью образца) , это имеет очень мало общего с реальными жизненными ситуациями.

Помните, что в модели PAC вы обязаны обрабатывать произвольные распределения, это означает, что ваш алгоритм должен обрабатывать состязательные распределения. Когда вы пытаетесь изучить некоторые явления в реальном мире, никто не дает вам «враждебные данные», чтобы испортить ваши результаты, поэтому требование, чтобы концептуальный класс был доступным для изучения PAC, могло бы быть слишком сильным. Иногда вы можете связать ошибку обобщения независимо от измерения VC для определенного класса распределений. Это случай границ полей, которые формулируются независимо от измерения VC. Они могут обещать низкую ошибку обобщения, если вы можете гарантировать высокий эмпирический запас (что, конечно, не может происходить для всех распределений, например, взять две близкие точки на плоскости с противоположными тегами и сфокусировать распределение на них).

Итак, оставляя в стороне модель PAC и измерение VC, я думаю, что шумиха проистекает из того факта, что они, кажется, просто работают, и преуспевают в задачах, которые ранее были невозможны (одно из последних достижений, которое приходит на ум, это AlphaGo). Я очень мало знаю о нейронных сетях, поэтому я надеюсь, что кто-то с большим опытом подойдет, но, насколько мне известно, хороших гарантий пока нет (определенно не как в модели PAC). Возможно, при правильных предположениях можно было бы формально оправдать успех нейронных сетей (я предполагаю, что есть работы по формальному обращению с нейронными сетями и «глубокому обучению», поэтому я надеюсь, что люди с большим знанием этого предмета могли бы связать некоторые статьи) ,

— Ariel
источник

Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .

— DW

15

Учитывая неспособность глубокого обучения обобщать,

Я не знаю, откуда ты это взял. Опытным путем обобщение рассматривается как оценка (например, точность) на невидимых данных.

Ответ, почему используются CNN, прост: CNN работают намного лучше, чем все остальное . См. ImageNet 2012, например:

CNN: 15,315% (это был ранний пример. CNN гораздо лучше. Приблизительно 4% ошибок топ-5)
Лучший не-CNN: 26,172% ошибок топ-5 ( источник - по моим методикам знаний, которые не используют CNN, не опускались ниже 25% ошибок топ-5)

Создайте классификатор, который лучше, и люди перейдут к этому.

ОБНОВЛЕНИЕ: Я призову ответ любому, кто предоставит опубликованные доказательства того, что машинное обучение в целом легко обмануть, как это доказательство глубокого обучения.

Это не вариант. Вы можете создать классификатор, который чрезвычайно прост для простого набора данных. Обмануть его не удастся (даже неважно, что означает «легкий»), но это тоже не интересно.

— Мартин Тома
источник

3

Низкая ошибка не подразумевает обобщения. Это необходимое, но не достаточное условие.

— yters

3

@yters Пожалуйста, дайте определение обобщению.

— Мартин Тома,

5

@yters, этот комментарий заставляет меня думать, что ты мало читал о машинном обучении. Мартин сказал точность на невидимых данных . Вы говорите о точности данных обучения. Вы в основном правы относительно того, что такое обобщение, но, пожалуйста, поймите, что все остальные здесь тоже это понимают .

— Кен Уильямс,

1

@yters Я уверен, что Кен (и многие люди на этом сайте, включая меня) знают это. Однако если ваш набор тестов не соответствует вашему набору данных, вы не можете делать никаких заявлений об обобщении. Хотя стоит помнить об этом, я не понимаю, как это поможет вам в этом вопросе. Вы просто должны предположить / убедиться, что ваш набор тестов действительно представляет ваши данные во время производства. На самом деле, действительно легко показать, что вы можете сделать любой классификатор произвольно плохим, если обучающие образцы не представляют распределение.

— Мартин Тома,

2

Это очевидно. Вы не можете ожидать, что модель будет хорошо обобщать, если она обучена проверять неверные данные. Вам нужны лучшие данные, а не лучшая модель.

— Эмре

9

Ответ одним словом - «регуляризация». Наивная формула размерности VC здесь на самом деле не применяется, потому что регуляризация требует, чтобы веса не были общими. Только небольшая (бесконечно малая) пропорция весовых комбинаций имеет приемлемую потерю после регуляризации. В результате истинное измерение на много порядков меньше, поэтому обобщение может произойти с имеющимися у нас тренировочными наборами. Результаты реальной жизни подтверждают, что переоснащение обычно не происходит.

— Дэвид Ху
источник

2

Я видел неоднократные заявления о том, что результаты реальной жизни показывают глубокое обобщение знаний. Какие именно результаты показывают обобщение? Все, что я видел до сих пор, - это то, что DL достигает низкой частоты ошибок в определенных наборах данных, что само по себе не означает, что DL обобщается.

— yters

3

он показывает хорошие результаты («хорошо» = лучше, чем другие методы ОД) для данных , на которых он не обучался . Я не уверен, как еще вы хотите практически измерить обобщение.

— lvilnis

3

Мы обращаемся к статье: Понимание глубокого обучения требует переосмысления обобщения. в

Переосмысление обобщения требует пересмотра старых идей: подходы статистической механики и сложное поведение в обучении Чарльз Х. Мартин и Майкл У. Махони

Смотрите: https://arxiv.org/pdf/1710.09553.pdf

По сути, мы утверждаем, что границы VC слишком свободны, потому что фундаментальный подход и то, как принят статистический предел, нереалистичны.

Лучший подход заключается в статистической механике, которая рассматривает класс зависимых от данных функций, принимает термодинамический предел (а не только предел больших чисел)

Кроме того, мы также указываем, как естественные разрывы в острой необходимости приводят к фазовым переходам в кривой обучения, что, по нашему мнению, наблюдается в статье Google (выше)

Что касается ограничений, см. Раздел 4.2 нашего документа

«Ясно, что если мы фиксируем размер выборки m и позволяем [размер класса функций] N → ∞, [или наоборот, фиксируем N, пусть m → ∞], мы не должны ожидать нетривиального результата, поскольку [ N] становится больше, но размер выборки является фиксированным. Таким образом, [в статистической механике] обычно рассматривается случай, когда m, N → ∞ такой, что α = m / N является фиксированной постоянной ".

То есть очень редко мы просто добавляем больше данных (m) в глубокую сеть. Мы также всегда увеличиваем размер сети (N), потому что мы знаем, что мы можем получить более подробные характеристики / информацию из данных. Вместо этого мы делаем на практике то, о чем мы спорим в статье - берем предел большого размера с фиксированным отношением m / N (вместо того, чтобы фиксировать m и увеличивать N).

Эти результаты хорошо известны в статистической механике обучения. Анализ более сложный, но результаты приводят к гораздо более богатой структуре, которая объясняет многие явления в глубоком обучении.

Кроме того, и, в частности, известно, что многие оценки из статистики становятся либо тривиальными, либо неприменимыми к негладким распределениям вероятностей или когда переменные принимают дискретные значения. В нейронных сетях нетривиальное поведение возникает из-за разрывов (в функциях активации), приводящих к фазовым переходам (которые возникают в термодинамическом пределе).

В статье, которую мы написали, делается попытка объяснить основные идеи аудитории в области компьютерных наук.

Сам Вапник понял, что его теория на самом деле не применима к нейронным сетям ... еще в 1994 году

«Распространение [измерения VC] на многослойные сети сталкивается с [многими] трудностями… существующие алгоритмы обучения не могут рассматриваться как минимизирующие эмпирический риск для всего набора функций, реализуемых сетью… [потому что это скорее всего ... поиск будет ограничен подмножеством [этих] функций ... Пропускная способность этого набора может быть намного ниже, чем пропускная способность всего набора ... [и] может изменяться в зависимости от количества наблюдений. Это может потребовать теории, которая рассматривает понятие непостоянной емкости с «активным» подмножеством функций "
Vapnik, Levin, and LeCun 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

Хотя с теорией VC нелегко обращаться, это не проблема для статистических механизмов, и то, что они описывают, очень похоже на теорию энергетического ландшафта сворачивания белка. (которая будет темой будущей статьи)

— Чарльз Мартин
источник

Это звучит интересно, но я не уверен, что следую вашему аргументу. Можете ли вы подробнее остановиться на первом предложении, т. Е. О том, как фундаментальный подход / статистический предел нереалистичен, автономным способом, который не требует понимания статистической механики? Какие предположения делают границы VC, и почему они нереальны? Возможно, вы можете отредактировать свой ответ, чтобы включить эту информацию?

— DW

Я добавил ссылку на оригинальную работу Vapnik и LeCun (1994), в которой обсуждается эта проблема.

— Чарльз Мартин

И добавил некоторые уточнения.

— Чарльз Мартин

1

Кажется, никто не указал в приведенных выше ответах, что приведенная формула измерения VC предназначена только для однослойной нейронной сети. Я предполагаю, что измерение VC на самом деле растет экспоненциально с увеличением числа слоев L. Мои рассуждения основаны на рассмотрении глубоких нейронных сетей, в которых функция активации заменена полиномиальной. Тогда степень составленных многочленов растет экспоненциально с увеличением слоев.

— Ян Кинг Инь
источник