Что такое регулярности и регуляризация?

12

Я слышу эти слова все больше и больше, когда изучаю машинное обучение. Фактически, некоторые люди выиграли медаль Филдса, работающую над закономерностями уравнений. Итак, я думаю, что это термин, который переносится от статистической физики / математики к машинному обучению. Естественно, некоторые люди, которых я спросил, просто не могли это интуитивно объяснить.

Я знаю, что такие методы, как dropout, помогают в регуляризации (=> они говорят, что это уменьшает переоснащение, но я действительно не понимаю, что это такое: если это только уменьшает переоснащение, то почему бы просто не назвать его методами анти-перенапряжения => должно быть что-то еще думаю, отсюда и этот вопрос).

Я был бы очень благодарен (я думаю, что наивное сообщество ML было бы тоже!), Если бы вы могли объяснить:

Как вы определяете регулярность? Что такое закономерность?
Является ли регуляризация способом обеспечения регулярности? т.е. захватывать закономерности?
Почему все методы ансамбля, такие как выпадение и нормализация, утверждают, что выполняют регуляризацию?
Почему они (регулярность / регуляризация) встречаются в машинном обучении?

Большое спасибо за твою помощь.

— Рафаэль
источник

8

Регуляризация используется почти во всех алгоритмах машинного обучения, где мы пытаемся учиться на конечных выборках обучающих данных.

Я попытаюсь косвенно ответить на ваши конкретные вопросы, объяснив происхождение концепции регуляризации. Полная теория гораздо более детальна, и это объяснение не следует интерпретировать как полное, но оно призвано просто указать вам правильное направление для дальнейшего исследования. Поскольку ваша основная цель - получить интуитивное понимание регуляризации, я резюмировал и значительно упростил следующее объяснение из главы 7 «Нейронные сети и обучающие машины», 3-е издание Саймона Хайкина (и при этом пропустил несколько деталей).

$x_i$ $y_i$ $f$

Чтобы продолжить это, давайте разберемся в терминологии Адамара «правильной» проблемы - проблема корректна, если она удовлетворяет следующим трем условиям:

$x_i$ $y_i$
$x_1$ $x_2$ $f(x_1) = f(x_2)$ $x_1 = x_2$
$f$

Для контролируемого обучения эти условия могут быть нарушены, поскольку:

Отдельный вывод может не существовать для данного ввода.
В обучающих выборках может не хватить информации для построения уникального отображения ввода-вывода (поскольку запуск алгоритма обучения на разных обучающих выборках приводит к различным функциям отображения).
Шум в данных добавляет неопределенности процессу реконструкции, что может повлиять на его стабильность.

Для решения таких «некорректных» задач Тихонов предложил метод регуляризации для стабилизации решения путем включения неотрицательного функционала, который включает в себя предварительную информацию о решении.

Наиболее распространенная форма предварительной информации включает предположение, что функция отображения ввода-вывода является гладкой, то есть аналогичные входы производят аналогичные выходы.

$\lambda$ $f$ $\lambda$ $\infty$ $\infty$

$\lambda$

Некоторые примеры таких регуляризованных функций стоимости:

Линейная регрессия:

$J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

Логистическая регрессия:

$J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

$\theta$ $x$ $h_\theta(x)$ $y$

$L_2$

Общий эффект применения регуляризации заключается в уменьшении сложности модели, что снижает переоснащение. Другие подходы к регуляризации (не перечисленные в приведенных выше примерах) включают в себя модификации структурных моделей, таких как деревья регрессии / классификации, повышенные деревья и т. Д., Путем исключения узлов для создания более простых деревьев. Позже это было применено в так называемом «глубоком обучении» путем разрыва связей между нейронами в нейронной сети.

Конкретный ответ на вопрос 3 заключается в том, что некоторые методы ансамбля, такие как случайный лес (или аналогичные схемы голосования), достигают регуляризации благодаря присущему им методу, т.е. голосованию и выбору ответа из коллекции нерегулярных деревьев. Даже при том, что отдельные деревья имеют наложение, процесс "усреднения" их результата останавливает ансамбль от переоснащения к тренировочному набору.

РЕДАКТИРОВАТЬ:

Понятие регулярности принадлежит аксиоматической теории множеств, вы можете обратиться к этой статье за указателями - en.wikipedia.org/wiki/Axiom_of_regularity и изучить эту тему, если вас интересуют подробности.

О регуляризации для нейронных сетей: при корректировке весов во время выполнения алгоритма обратного распространения член регуляризации добавляется к функции стоимости таким же образом, как в примерах для линейной и логистической регрессии. Таким образом, добавление члена регуляризации не дает обратному распространению достичь глобальных минимумов.

Статья, описывающая пакетную нормализацию для нейронных сетей: - Пакетная нормализация: ускорение обучения в глубинной сети за счет уменьшения внутреннего смещения Covariate, Ioffe, Szegedy, 2015, Известно, что обратное распространение для обучения нейронной сети работает лучше, когда входные переменные нормализованы. В этой статье авторы применили нормализацию к каждой мини-партии, используемой в Stochastic Gradient Descent, чтобы избежать проблемы «исчезающих градиентов» при обучении многих слоев нейронной сети. Алгоритм, описанный в их статье, рассматривает среднее значение и дисперсию, вычисленные в каждой партии для каждого уровня активаций, как другой набор параметров, оптимизированных в мини-пакете SGD (в дополнение к весам NN). Активации затем нормализуются с использованием всего тренировочного набора. Вы можете обратиться к их статье для полной информации об этом алгоритме. Используя этот метод, они смогли избежать использования отсева для регуляризации, и, следовательно, заявили, что это другой тип регуляризации.

— Сандип С. Сандху
источник

спасибо за отличный ответ. Не могли бы вы математически объяснить, как такие методы, как нормализация, достигают регуляризации? В своем выступлении Гудфеллоу он сказал, что все, что можно дифференцировать, может действовать как регуляризатор нейронной сети. Кроме того, вы знаете, что такое закономерности? они просто означают шаблоны или за этим стоит математика? Спасибо еще раз.

— Рафаэль

Спасибо за ответ. Я не могу вспомнить разговор. В нейронные сети мы добавляем такие слои, как нормализация партии. Я хотел знать, как они способствуют регуляризации?

— Рафаэль

Отредактировано, чтобы ответить на ваш комментарий, а также добавить обратно ответы, данные в предыдущих комментариях.

— Сандип С. Сандху,

3

Вопрос 1

Я не знаю ни одного канонического определения, и ваши вопросы показывают, что этот термин используется в разных значениях. Давайте начнем с простых примеров (которые ответят на вопрос 2).

вопрос 2

Хребет регрессия может быть хорошей отправной точкой. Это метод регуляризации, который обходит проблему, возникающую в единственной матрице .

Тем не менее, «параметр регуляризации», определенный в методах повышения градиента (для каждого примера), используется здесь для обеспечения низкой сложности модели.

Вопрос 3

Нормализация как регуляризация имеет другое значение (и эта терминология вводит в заблуждение). Это превращает сложную проблему «с точки зрения градиентного спуска» в нечто более простое. Хотя это не нужно для калибровки нейронной сети, это действительно помогает во время калибровки. (Однако учтите, что если бы мы могли найти глобальные экстремумы произвольных функций, нормализация не потребовалась бы)

Вопрос 4

Регуляризация (как способ уменьшить сложность модели) используется для уменьшения перегрузки. Чем менее сложна модель, тем менее вероятно, что она будет соответствовать.

В сторону

С. Ватанабе строго использует эту терминологию в своих исследованиях.

— RUser4512
источник