Регуляризация используется почти во всех алгоритмах машинного обучения, где мы пытаемся учиться на конечных выборках обучающих данных.
Я попытаюсь косвенно ответить на ваши конкретные вопросы, объяснив происхождение концепции регуляризации. Полная теория гораздо более детальна, и это объяснение не следует интерпретировать как полное, но оно призвано просто указать вам правильное направление для дальнейшего исследования. Поскольку ваша основная цель - получить интуитивное понимание регуляризации, я резюмировал и значительно упростил следующее объяснение из главы 7 «Нейронные сети и обучающие машины», 3-е издание Саймона Хайкина (и при этом пропустил несколько деталей).
ИксяYяе
Чтобы продолжить это, давайте разберемся в терминологии Адамара «правильной» проблемы - проблема корректна, если она удовлетворяет следующим трем условиям:
- ИксяYя
- Икс1Икс2е( х1) = f( х2)Икс1= х2
- е
Для контролируемого обучения эти условия могут быть нарушены, поскольку:
- Отдельный вывод может не существовать для данного ввода.
- В обучающих выборках может не хватить информации для построения уникального отображения ввода-вывода (поскольку запуск алгоритма обучения на разных обучающих выборках приводит к различным функциям отображения).
- Шум в данных добавляет неопределенности процессу реконструкции, что может повлиять на его стабильность.
Для решения таких «некорректных» задач Тихонов предложил метод регуляризации для стабилизации решения путем включения неотрицательного функционала, который включает в себя предварительную информацию о решении.
Наиболее распространенная форма предварительной информации включает предположение, что функция отображения ввода-вывода является гладкой, то есть аналогичные входы производят аналогичные выходы.
λеλ∞∞
λ
Некоторые примеры таких регуляризованных функций стоимости:
Линейная регрессия:
J( θ ) = 1мΣмя = 1[ чθ(хя) - уя]2+ λ2 мΣNJ = 1θ2J
Логистическая регрессия:
J( θ ) = 1мΣмя = 1[ - уял о г( чθ( хя) ) - ( 1 - йя) l o g( 1 - чθ( хя) ) ] + λ2 мΣNJ= 1θ2J
θИксчасθ( х )Y
L2
Общий эффект применения регуляризации заключается в уменьшении сложности модели, что снижает переоснащение. Другие подходы к регуляризации (не перечисленные в приведенных выше примерах) включают в себя модификации структурных моделей, таких как деревья регрессии / классификации, повышенные деревья и т. Д., Путем исключения узлов для создания более простых деревьев. Позже это было применено в так называемом «глубоком обучении» путем разрыва связей между нейронами в нейронной сети.
Конкретный ответ на вопрос 3 заключается в том, что некоторые методы ансамбля, такие как случайный лес (или аналогичные схемы голосования), достигают регуляризации благодаря присущему им методу, т.е. голосованию и выбору ответа из коллекции нерегулярных деревьев. Даже при том, что отдельные деревья имеют наложение, процесс "усреднения" их результата останавливает ансамбль от переоснащения к тренировочному набору.
РЕДАКТИРОВАТЬ:
Понятие регулярности принадлежит аксиоматической теории множеств, вы можете обратиться к этой статье за указателями - en.wikipedia.org/wiki/Axiom_of_regularity и изучить эту тему, если вас интересуют подробности.
О регуляризации для нейронных сетей: при корректировке весов во время выполнения алгоритма обратного распространения член регуляризации добавляется к функции стоимости таким же образом, как в примерах для линейной и логистической регрессии. Таким образом, добавление члена регуляризации не дает обратному распространению достичь глобальных минимумов.
Статья, описывающая пакетную нормализацию для нейронных сетей: - Пакетная нормализация: ускорение обучения в глубинной сети за счет уменьшения внутреннего смещения Covariate, Ioffe, Szegedy, 2015, Известно, что обратное распространение для обучения нейронной сети работает лучше, когда входные переменные нормализованы. В этой статье авторы применили нормализацию к каждой мини-партии, используемой в Stochastic Gradient Descent, чтобы избежать проблемы «исчезающих градиентов» при обучении многих слоев нейронной сети. Алгоритм, описанный в их статье, рассматривает среднее значение и дисперсию, вычисленные в каждой партии для каждого уровня активаций, как другой набор параметров, оптимизированных в мини-пакете SGD (в дополнение к весам NN). Активации затем нормализуются с использованием всего тренировочного набора. Вы можете обратиться к их статье для полной информации об этом алгоритме. Используя этот метод, они смогли избежать использования отсева для регуляризации, и, следовательно, заявили, что это другой тип регуляризации.