При использовании функций логистической активации верно, что функция, связывающая входы каждого устройства с его выходом, такая же, как и для логистической регрессии. Но на самом деле это не то же самое, что каждая единица, выполняющая логистическую регрессию. Разница заключается в том, что в логистической регрессии веса и смещения выбираются так, чтобы выходные данные наилучшим образом соответствовали заданным целевым значениям (с использованием log / кросс-энтропийной потери). Напротив, скрытые юниты в нейронной сети отправляют свои выводы нижестоящим юнитам. Нет целевого выхода для соответствия отдельным скрытым единицам. Скорее, веса и смещения выбираются так, чтобы минимизировать некоторую целевую функцию, которая зависит от конечного результата сети.
Вместо того, чтобы выполнять логистическую регрессию, было бы более разумно думать о каждой скрытой единице как о вычислении координаты в некотором пространстве признаков. С этой точки зрения целью скрытого слоя является преобразование его входных данных - входной вектор отображается на вектор активаций скрытого слоя. Вы можете думать об этом как о сопоставлении входных данных с пространством объектов с размером, соответствующим каждой скрытой единице.
Выходной слой часто можно рассматривать как стандартный алгоритм обучения, который работает в этом пространстве признаков. Например, в задаче классификации использование единицы логистического вывода с кросс-энтропийной потерей эквивалентно выполнению логистической регрессии в пространстве признаков (или полиномиальной логистической регрессии при использовании выходов softmax). В задаче регрессии использование линейного вывода с квадратом ошибки эквивалентно выполнению линейной регрессии наименьших квадратов в пространстве признаков.
Обучение сети сводится к изучению функции отображения пространственных объектов и функции классификации / регрессии (в функциональном пространстве), которые вместе обеспечивают наилучшую производительность. Предполагая нелинейные скрытые единицы, увеличение ширины скрытого слоя или наложение нескольких скрытых слоев позволяет более сложные сопоставления пространств объектов, что позволяет подгонять более сложные функции.