Какие модифицируемые компоненты системы обучения отвечают за ее успех или неудачу? Какие изменения в них улучшают производительность? Это называется фундаментальной проблемой присвоения кредитов (Minsky, 1963). Существуют общие методы назначения кредитов для универсальных решателей задач, которые являются оптимальными по времени в различных теоретических смыслах (раздел 6.8). Однако настоящее исследование будет сосредоточено на более узком, но в настоящее время коммерчески важном подполе глубокого обучения (DL) в искусственных нейронных сетях (NN).
Стандартная нейронная сеть (NN) состоит из множества простых, связанных между собой процессоров, называемых нейронами, каждый из которых производит последовательность действительных значений активаций. Входные нейроны активируются через сенсоры, воспринимающие окружающую среду, другие нейроны активируются через взвешенные соединения от ранее активных нейронов (подробности в разделе 2). Некоторые нейроны могут влиять на окружающую среду, вызывая действия. Обучение или присвоение кредита - это поиск весов, которые заставляют NN демонстрировать желаемое поведение, например, вождение автомобиля. В зависимости от проблемы и того, как нейроны связаны, такое поведение может потребовать длинных причинных цепочек вычислительных этапов (раздел 3), где каждый этап трансформирует (часто нелинейным образом) совокупную активацию сети. Глубокое обучение о точном распределении кредитов на многих таких этапах.
Мелкие NN-подобные модели с небольшим количеством таких стадий существуют уже много десятилетий, если не столетий (раздел 5.1). Модели с несколькими последовательными нелинейными слоями нейронов датируются, по крайней мере, 1960-ми годами (раздел 5.3) и 1970-ми годами (раздел 5.5). Эффективный метод градиентного спуска для учительского контролируемого обучения (SL) в дискретных, дифференцируемых сетях произвольной глубины, называемый обратным распространением (BP), был разработан в 1960-х и 1970-х годах и применен к NN в 1981 году (раздел 5.5). Тем не менее, к концу 1980-х годов было выявлено, что тренировка глубоких НН с многослойностью на основе АД на практике оказалась сложной на практике (раздел 5.6) и стала предметом явных исследований в начале 1990-х годов (раздел 5.9). DL стал практически выполнимым в некоторой степени с помощью Unsupervised Learning (UL), например, Sec. 5.10 (1991), гл. 5.15 (2006). В 1990-х и 2000-х годах также наблюдалось множество улучшений в работе с чисто контролируемым DL (раздел 5). В новом тысячелетии глубокие NN наконец привлекли к себе всеобщее внимание, главным образом благодаря опережающим альтернативным методам машинного обучения, таким как машины ядра (Vapnik, 1995; Scholkopf et al., 1998), во многих важных приложениях. Фактически, с 2009 года контролируемые глубинные NN выиграли многие официальные международные соревнования по распознаванию образов (например, разделы 5.17, 5.19, 5.21, 5.22), достигнув первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). главным образом за счет превосходства альтернативных методов машинного обучения, таких как машины с ядром (Vapnik, 1995; Scholkopf et al., 1998), во многих важных приложениях. Фактически, с 2009 года контролируемые глубинные NN выиграли многие официальные международные соревнования по распознаванию образов (например, разделы 5.17, 5.19, 5.21, 5.22), достигнув первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). главным образом за счет превосходства альтернативных методов машинного обучения, таких как машины с ядром (Vapnik, 1995; Scholkopf et al., 1998), во многих важных приложениях. Фактически, с 2009 года контролируемые глубинные NN выиграли многие официальные международные соревнования по распознаванию образов (например, разделы 5.17, 5.19, 5.21, 5.22), достигнув первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). достижение первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). достижение первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6).
С другой стороны, я не уверен, что обязательно стоит попытаться построить таксономию взаимоисключающих групп для стратегий машинного обучения. Я думаю, что мы можем сказать, что есть перспективы, с которых модели можно рассматривать как нейронные сети. Я не думаю, что эта перспектива обязательно самая лучшая или полезная во всех контекстах. Например, я все еще планирую ссылаться на случайные леса и деревья с градиентным усилением как на «ансамбли деревьев» вместо того, чтобы абстрагироваться от их различий и называть их «деревьями нейронной сети». Более того, Шмидхубер отличает NN от машин с ядром - хотя машины с ядром имеют некоторые связи с NN - когда он пишет: «В новом тысячелетии глубокие NN наконец привлекли широкое внимание, в основном, превосходя альтернативные методы машинного обучения, такие как машины ядра ... в многочисленных важных приложениях. "