Проблемы и альтернативы подходам глубокого обучения?

17

За последние 50 лет рост / падение / рост популярности нейронных сетей стал своего рода «барометром» для исследований ИИ.

Из вопросов на этом сайте ясно, что люди заинтересованы в применении Deep Learning (DL) для решения самых разных сложных проблем.

Поэтому у меня есть два вопроса:

Практики - Что вы считаете основными препятствиями для применения DL «из коробки» к вашей проблеме?
Исследователи - Какие методы вы используете (или разработали), которые могут помочь в решении практических вопросов? Находятся ли они в DL или предлагают альтернативный подход?

deep-learning

— NietzscheanAI
источник

3

Если у вас есть два вопроса, вы должны задать два вопроса.

— бпачев

1

Они явно взаимосвязаны.

— NietzscheanAI

5

Подводя итог, можно сказать, что в прикладном Deep Learning есть две основные проблемы.

Первое, что вычислительно, это исчерпывающе. Обычные процессоры требуют много времени для выполнения даже базовых вычислений / обучения с помощью Deep Learning. Тем не менее, рекомендуется использовать графические процессоры, хотя их может быть недостаточно во многих ситуациях. Типичные модели глубокого обучения не поддерживают теоретическое время нахождения в полиномах. Однако, если мы посмотрим на относительно более простые модели в ML для тех же задач, слишком часто у нас есть математические гарантии того, что время обучения, требуемое для таких более простых алгоритмов, находится в полиномах. По крайней мере, для меня это, пожалуй, самая большая разница.

Хотя есть решения, чтобы противостоять этой проблеме. Одним из основных подходов является оптимизация алгоритмов DL только для ряда итераций (вместо того, чтобы смотреть на глобальные решения на практике, просто оптимизируйте алгоритм до хорошего локального решения, тогда как критерий «Хорошо» определяется пользователем).
Другая проблема, которая может быть немного противоречивой для молодых энтузиастов глубокого обучения, заключается в том, что алгоритмам глубокого обучения не хватает теоретического понимания и аргументации. Глубокие нейронные сети успешно используются во многих ситуациях, включая распознавание рукописного ввода, обработку изображений, автомобили с автоматическим управлением, обработку сигналов, НЛП и биомедицинский анализ. В некоторых из этих случаев они даже превзошли людей. Однако, как говорится, они ни при каких обстоятельствах не являются теоретически такими же надежными, как большинство статистических методов.

Я не буду вдаваться в подробности, скорее оставлю это на ваше усмотрение. У каждого алгоритма / методологии есть свои плюсы и минусы, и DL не является исключением. Это очень полезно, что было доказано во многих ситуациях, и каждый молодой Data Scientist должен изучить хотя бы основы DL. Однако в случае относительно простых задач лучше использовать известные статистические методы, так как они имеют много теоретических результатов / гарантий для их поддержки. Кроме того, с точки зрения обучения, всегда лучше начать с простых подходов и освоить их в первую очередь.

— Сибгат Улла
источник

Под «в полиномах» вы подразумеваете «в полиномиальном времени», верно? У вас есть рекомендация в поддержку этого?

— NietzscheanAI

Да, это именно то, что я имею в виду. Конечно, это может быть доказано во многих ситуациях ... Я начну с простейшего возможного примера: просто тренировка сети с тремя узлами и двумя слоями - это проблема NP-Complete, как показано здесь ( citeseerx.ist.psu. edu / viewdoc /… ). Помните, что эта статья очень старая, и теперь у нас появилось больше идей о том, как улучшить ее на практике, с некоторыми эвристиками, но теоретически улучшенных результатов пока нет.

— Сибгат Улла

Другая хорошая статья на ту же тему, которая также описывает некоторые приемы, чтобы улучшить время тренировки на практике. ( pdfs.semanticscholar.org/9499/… )

— Сибгхат Улла,

Допустим, мы хотим что-то предсказать цену. Простая линейная регрессия с наименьшим квадратом будет иметь полиномиальное время, в то время как решение той же проблемы с нейронными сетями (даже самой простой из них) приведет к полной проблеме NP. Это очень большая разница. В конце концов, вы должны тщательно выбрать алгоритм для конкретной задачи. Например, метод наименьших квадратов имеет определенные допущения, которые включают: «Идеальная функция, которую изучает алгоритм, может быть изучена как линейная комбинация признаков». Если это предположение неверно, значит, достигнуты результаты.

— Сибгат Улла

Конечно, просто потому, что проблема (в данном случае нахождение оптимальных весов) является NP-полной, само по себе не означает, что не существует эффективных практических методов для нахождения хороших весов ...

— NietzscheanAI

5

У меня очень мало опыта в ML / DL, чтобы называть себя практикующим, но вот мой ответ на первый вопрос:

По своей сути DL хорошо решает задачу классификации. Не каждая практическая проблема может быть перефразирована с точки зрения классификации. Классификация домена должна быть известна заранее. Хотя классификация может быть применена к любому типу данных, необходимо обучить NN образцам конкретной области, в которой они будут применяться. Если домен переключается в какой-то момент, сохраняя ту же модель (структура NN), он должен быть переобучен новыми образцами. Кроме того, даже у лучших классификаторов есть «пробелы» - состязательные примеры могут быть легко построены из обучающей выборки, так что изменения незаметны для человека, но неправильно классифицированы обученной моделью.

— Илиян Бобев
источник

2

«Классификация» может считаться частным случаем «регрессии», что, вероятно, поэтому является лучшей характеристикой DL.

— NietzscheanAI

3

Вопрос 2. Я исследую, является ли Гипермерные вычисления альтернативой глубокому обучению. Hyper-D использует очень длинные битовые векторы (10000 бит) для кодирования информации. Векторы являются случайными и, как таковые, они приблизительно ортогональны. Путем группировки и усреднения набора таких векторов можно сформировать «набор», а затем запросить его, чтобы узнать, принадлежит ли неизвестный вектор этому набору. Набор можно рассматривать как концепт или обобщающий образ и т. Д. Обучение проходит очень быстро, как и распознавание. Что нужно сделать, это смоделировать области, в которых Deep Learning была успешной, и сравнить Hyper-D с ним.

— Дуглас Г Данфорт
источник

Интересный. Так чем же это отличается от «Редкой распределенной памяти» Канервы?

— NietzscheanAI

Оба разработаны Пентти Канерва. Посмотрите на гиперразмерные вычисления, чтобы увидеть разницу. Слишком долго, чтобы ответить здесь.

— Дуглас Г Данфорт

1

С математической точки зрения одной из основных проблем в глубоких сетях с несколькими слоями являются исчезающие или нестабильные градиенты . Каждый дополнительный скрытый слой учится значительно медленнее, почти сводя на нет преимущества дополнительного слоя.

Современные подходы глубокого обучения могут улучшить это поведение, но в простых старомодных нейронных сетях это хорошо известная проблема. Вы можете найти хорошо написанный анализ здесь для более глубокого изучения.

— Дементо
источник