Простой способ объяснить это состоит в том, что регуляризация помогает не соответствовать шуму, она не имеет большого значения с точки зрения определения формы сигнала. Если вы думаете о глубоком обучении как о гигантском аппроксиматоре славной функции, то понимаете, что для определения формы сложного сигнала требуется много данных.
Если бы не было шума, то увеличение сложности NN дало бы лучшее приближение. Там не будет никакого штрафа в размере NN, больше было бы лучше в каждом случае. Рассмотрим приближение Тейлора, больше терминов всегда лучше для неполиномиальной функции (игнорируя вопросы точности чисел).
Это нарушается при наличии шума, потому что вы начинаете приспосабливаться к шуму. Таким образом, здесь приходит на помощь регуляризация: она может уменьшить подгонку к шуму, что позволяет нам создавать большее NN для решения нелинейных задач.
Следующее обсуждение не является обязательным для моего ответа, но я добавил частично, чтобы ответить на некоторые комментарии и мотивировать основную часть ответа выше. В основном, остальная часть моего ответа похожа на французские огни, которые идут с едой гамбургера, вы можете пропустить это.
(Ir) релевантный случай: полиномиальная регрессия
Давайте посмотрим на игрушечный пример полиномиальной регрессии. Это также довольно хороший аппроксиматор для многих функций. Мы рассмотрим функцию в области . Как вы можете видеть из его ряда Тейлора ниже, расширение 7-го порядка уже довольно хорошо подходит, поэтому мы можем ожидать, что полином порядка 7+ также должен быть очень хорошим:sin(x)x∈(−3,3)
Далее, мы собираемся подогнать полиномы с прогрессивно более высоким порядком к небольшому набору очень шумных данных с 7 наблюдениями:
Мы можем наблюдать то, что нам сказали о многочленах многие осведомленные люди: они нестабильны и начинают сильно колебаться с увеличением порядка многочленов.
Однако проблема заключается не в самих многочленах. Проблема в шуме. Когда мы подгоняем полиномы к шумным данным, часть подбора относится к шуму, а не к сигналу. Вот те же точные полиномы, которые соответствуют одному и тому же набору данных, но с полностью удаленным шумом. Подходит отлично!
Обратите внимание, что визуально идеально подходит для порядка 6. Это не должно удивлять, так как 7 наблюдений - это все, что нам нужно для однозначной идентификации полинома порядка 6, и мы увидели на графике аппроксимации Тейлора выше, что порядок 6 уже является очень хорошим приближением к в нашем диапазоне данных.sin(x)
Также обратите внимание, что многочлены более высокого порядка не подходят так же хорошо, как и порядок 6, потому что для их определения недостаточно наблюдений. Итак, давайте посмотрим, что происходит с 100 наблюдениями. На приведенной ниже диаграмме вы видите, как больший набор данных позволил нам подогнать полиномы более высокого порядка, тем самым достигнув лучшего соответствия!
Отлично, но проблема в том, что мы обычно имеем дело с зашумленными данными. Посмотрите, что произойдет, если вы укажете то же самое на 100 наблюдений очень шумных данных, см. Таблицу ниже. Мы вернулись к исходной точке: многочлены высшего порядка производят ужасные колебательные приступы. Таким образом, увеличение набора данных не сильно помогло в увеличении сложности модели для лучшего объяснения данных. Это опять-таки потому, что сложная модель лучше подходит не только по форме сигнала, но и по форме шума.
Наконец, давайте попробуем некоторую слабую регуляризацию по этой проблеме. На приведенной ниже диаграмме показана регуляризация (с различными штрафами), применяемая к полиномиальной регрессии 9-го порядка. Сравните это с полиномом порядка (степени) 9, приведенным выше: при соответствующем уровне регуляризации можно подогнать полиномы более высокого порядка к зашумленным данным.
На всякий случай неясно: я не предлагаю использовать полиномиальную регрессию таким образом. Полиномы хороши для локальных подгонок, поэтому кусочный полином может быть хорошим выбором. Подгонять к ним весь домен часто плохая идея, потому что они действительно чувствительны к шуму, как это видно из приведенных выше графиков. В этом контексте не так важно, является ли шум числовым или из какого-либо другого источника. шум есть шум, и полиномы будут страстно на него реагировать.