Есть ли на самом деле отсутствие фундаментальной теории глубокого обучения?

10

Я несколько раз слышал, что одной из фундаментальных / открытых проблем глубокого обучения является отсутствие «общей теории», потому что на самом деле мы не знаем, почему глубокое обучение работает так хорошо. Даже на странице Википедии о глубоком обучении есть похожие комментарии . Являются ли такие заявления заслуживающими доверия и репрезентативными для государства?

deep-learning

— heleone
источник

5

Есть статья под названием « Почему глубокое обучение работает так хорошо? ,

«Однако до сих пор не до конца понятно, почему глубокое обучение работает так хорошо. В отличие от алгоритмов GOFAI (« старый добрый старомодный ИИ »), которые созданы вручную и полностью понятны аналитически, многие алгоритмы, использующие искусственные нейронные сети, понимаются только в эвристический уровень, на котором мы эмпирически знаем, что определенные протоколы обучения, использующие большие наборы данных, приведут к превосходной производительности.Это напоминает ситуацию с человеческим мозгом: мы знаем, что если мы обучаем ребенка в соответствии с определенной учебной программой, она будет изучать определенные навыки - но нам не хватает глубокого понимания того, как ее мозг выполняет это ".

— BlindKungFuMaster
источник

3

Это очень много дела. Модели глубокого обучения, даже мелкие, такие как составные автоэнкодеры и нейронные сети, не полностью поняты. Прилагаются усилия, чтобы понять, что происходит с процессом оптимизации такой сложной переменной интенсивной функции. Но это сложная задача.

Один из способов, который используют исследователи, чтобы понять, как работает глубокое обучение, - это использовать генеративные модели. Сначала мы обучаем алгоритм обучения и систематически препятствуем ему, прося его генерировать примеры. Наблюдая за полученными сгенерированными примерами, мы сможем сделать вывод о том, что происходит в алгоритме, на более значимом уровне. Это очень похоже на использование ингибиторов в нейробиологии для понимания того, для чего используются различные компоненты мозга. Например, мы знаем, что зрительная кора находится там, где она есть, потому что, если мы повредим ее, вы ослепнете.

— JahKnows
источник

2

Вероятно, это зависит от того, что подразумевается под «фундаментальной теорией», но в глубоком обучении нет недостатка в строгой количественной теории, некоторые из которых носят весьма общий характер, несмотря на утверждения об обратном.

Один хороший пример - работа вокруг основанных на энергии методов обучения. См., Например, работу Нила и Хинтона о вариационном выводе и свободной энергии: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Также это руководство по минимизации энергии как «общая теоретическая основа для многих моделей обучения», разработанное Яном ЛеКуном и его коллегами: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

И общие рамки для моделей на основе энергии от Scellier и Bengio: https://arxiv.org/pdf/1602.05179.pdf

Существует также более ранняя работа Хинтона и Сейновски, в которой аналитически показано, что конкретная сеть, вдохновленная Хопфилдом + алгоритм обучения без присмотра, может приближаться к оптимальному байесовскому выводу: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Есть много работ, связывающих глубокое обучение с теоретической нейробиологией, таких как следующие, которые показывают, что эффекты обратного распространения могут быть достигнуты в биологически вероятных нейронных архитектурах: https://arxiv.org/pdf/1411.0247.pdf

Конечно, есть много открытых вопросов и нет единой, неопровержимой единой теории, но то же самое можно сказать почти о любой области.

— a.kief
источник

1

Ваша цитата из Википедии сомнительна, потому что глубокое обучение хорошо развито. На самом деле, есть [citation needed]на странице Википедии.

Посмотрите на https://github.com/terryum/awesome-deep-learning-papers . В ссылке около 100 статей. Вы все еще думаете, что в глубинном обучении отсутствует «общая теория»?

Да. Глубокое обучение трудно понять, потому что это очень сложная модель. Но это не значит, что у нас нет теорий.

Может быть, limeпакет и его бумага: «Почему я должен вам доверять?»: Объяснение предсказаний любого классификатора поможет вам. В документе предполагается, что мы должны быть в состоянии аппроксимировать сложную модель (включая глубокое обучение) локально с гораздо более простой моделью.

— Привет мир
источник

3

Множество интересных приложений не означает, что эти приложения были разработаны в соответствии с неким строгим процессом. «Хм ... может быть, я должен попробовать 8 слоев вместо этого? Ах ... это работает! Отлично, давайте опубликуем результаты».

— Крис Андерсон

2

«Глубокое обучение трудно понять, потому что это очень сложная модель. Но это не значит, что у нас нет теорий». Правда, но у нас тоже нет теорий. В литературе очень мало математического понимания методов. Большинство объяснений того, как или почему работает глубокое обучение, основано на интуиции и эмпиризме, что нормально, но не является теорией теории.

— user27182

0

Ключевой вопрос, который остается в теории глубокого обучения, заключается в том, почему такие огромные модели (с гораздо большим количеством параметров, чем точек данных) не подходят для наборов данных, которые мы используем.

Классическая теория, основанная на мерах сложности, не объясняет поведение практических нейронных сетей. Например, оценки размерности VC дают оценки без образования обобщений. Насколько я знаю, самые жесткие (верхняя и нижняя) границы измерения VC приведены в [1] и имеют порядок количества весов в сети. Очевидно, что эта сложность в худшем случае не может объяснить, как, например, большая перезапуск обобщает CIFAR или MNIST.

В последнее время были предприняты другие попытки обеспечить обобщение для нейронных сетей, например, с помощью касательного ядра нейронов или с помощью различных мер нормы на весах. Соответственно, было обнаружено, что они не применимы к сетям практически размера и обладают другими неудовлетворительными свойствами [2].

В рамках байесовской системы PAC для не пустых границ есть некоторые работы, например, [3]. Эти установки, однако, требуют некоторых знаний обученной сети и поэтому отличаются по своему вкусу от классического анализа PAC.

Некоторые другие аспекты:

оптимизация: почему мы получаем «хорошие» решения от градиентного спуска для такой невыпуклой задачи? (Есть несколько ответов на это в недавней литературе)
интерпретируемость: можем ли мы объяснить на интуитивном уровне, что «думает» сеть? (Не моя область)

(неполные) ссылки:

— user27182
источник

0

Я хотел бы отметить, что нет хорошей теории о том, почему машинное обучение работает в целом. Границы ВК все еще предполагают модель, но реальность не соответствует ни одному из этих математических идеалов. В конечном счете, когда дело доходит до приложения, все сводится к эмпирическим результатам. Даже количественно оценить сходство между изображениями, используя алгоритм, который согласуется с интуитивным пониманием человека, действительно сложно

Во всяком случае, NN не работают хорошо в их полностью подключенной форме. Все успешные сети имеют некоторую регуляризацию, встроенную в сетевую архитектуру (CNN, LSTM и т. Д.).

— FourierFlux
источник