Классификация с градиентным ускорением: как сохранить прогноз в [0,1]

17

Вопрос

Я изо всех сил пытаюсь понять, как прогнозирование сохраняется в интервале $[0,1]$ при выполнении бинарной классификации с градиентным повышением.

Предположим , что мы работаем над бинарной проблемы классификации, и наша целевая функция является потеря журнала, $-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))$ где $y$ - целевая переменная $\in \{0,1\}$ а $H$ - наша текущая модель.

При обучении следующего слабого ученика $h_i$ , чтобы наша новая модель была $H_i = H_{i-1} + h_i$ , каков механизм, который должен поддерживать $H_i \in [0,1]$ ? Или, может быть, более актуальный вопрос, есть ли такой механизм?

Больше информации о том, что я делаю

Я пытаюсь реализовать повышение градиента, используя деревья регрессии. Чтобы этого избежать, нужно умножить $h_i$ на коэффициент $c \in [0,c_{\text{max}}]$ , чтобы $H + c_{\text{max}}h$ не опускался ниже нуля или выше единицы, и я выбираю $c$ в этом диапазоне, который минимизирует функция потерь.

Это приводит к следующей проблеме: после нескольких раундов у меня есть одна точка, которая отлично классифицируется, и наилучшее из доступных разделений, чтобы толкать классификатор в направлении градиента, хочет переместить эту точку выше единицы, что, я уверен, не произойдет установка . Таким образом, вся следующая итерация выберет тот же сплит и тот же самый . $c = 0$ $c = 0$

Я попробовал общие практики регуляризации

Уменьшение скорости обучения путем умножения на . Это только задерживает проблему. $c$ $\mu = 0.01$
Субдискретизация пространства объектов, но некоторые из точек очень легко классифицировать, они отмечают почти все флажки «это положительный результат?» форма, и почти каждый «хороший раскол» показывает это поведение.

Я думаю, что это не проблема параметров, и должен быть более надежный способ исправить это. Я не отказываюсь от возможности того, что моя реализация сломана, но я не нашел ничего, что решало бы эту проблему.

То, чем мы манипулируем в контексте логистической потери, должно быть вероятностью, так как же нам ее избежать?

Моя интуиция состояла бы в том, чтобы поместить модель, которую мы строим, , в сигмовидную функцию так, чтобы она была ограничена , и я думаю, что это сработало бы, но я хочу знать, есть ли другие решения. Поскольку усиление градиента, по-видимому, успешно используется в задачах классификации, должно существовать «правильное» (т.е. с обоснованием) решение. $H$ $[0,1]$

logistic classification boosting

— подмигивает
источник

Вы можете потребовать, чтобы

был мультипликативным, поскольку

ведет себя аддитивно с другими вашими экспертами.

H

$H$

\ln (H)

$\ln(H)$

— Алекс Р.

22

Мне нравится думать об этом по аналогии со случаем линейных моделей и их распространением на GLM (обобщенные линейные модели).

В линейной модели мы подбираем линейную функцию, чтобы предсказать наш ответ

\hat{y} = β_{0} + β_{1} x_{1} + \dots β_{n} x_{n}

$\hat y = \beta_0 + \beta_1 x_1 + \cdots \beta_n x_n$

Чтобы обобщить на другие ситуации, мы вводим функцию связи, которая преобразует линейную часть модели в масштаб ответа (технически это обратная связь, но я думаю, что проще думать об этом таким образом, преобразовывая линейный предиктор в ответ, чем преобразование ответа в линейный предиктор).

Например, логистическая модель использует функцию сигмоида (или логита)

\hat{y} = \frac{1}{1 + \exp (- (β_{0} + β_{1} x_{1} + \dots β_{n} x_{n}))}

$\hat y = \frac{1}{1 + \exp(-(\beta_0 + \beta_1 x_1 + \cdots \beta_n x_n))}$

и пуассоновская регрессия использует экспоненциальную функцию

\hat{y} = \exp (β_{0} + β_{1} x_{1} + \dots β_{n} x_{n})

$\hat y = \exp(\beta_0 + \beta_1 x_1 + \cdots \beta_n x_n)$

Чтобы построить аналогию с градиентным повышением, мы заменим линейную часть этих моделей на сумму увеличенных деревьев. Так, например, случай Гаусса (аналогичный линейной регрессии) становится общеизвестным

\hat{y} = \sum_{i} h_{i}

$\hat y = \sum_i h_i$

где - наша последовательность слабых учеников. Биномиальный случай аналогичен логистической регрессии (как вы отметили в своем ответе) $h_i$

\hat{y} = \frac{1}{1 + \exp (- \sum_{i} h_{i})}

$\hat y = \frac{1}{1 + \exp\left(-\sum_i h_i\right)}$

и повышение Пуассона аналогично регрессии Пуассона

\hat{y} = \exp (\sum_{i} h_{i})

$\hat y = \exp\left(\sum_i h_i\right)$

$\sum_i \beta_i x_i$

Например, биноминальная потеря обычно встречается как

\sum_{i} y_{i} \log (p_{i}) + (1 - y_{i}) \log (1 - p_{i})

$\sum_i y_i \log(p_i) + (1 - y_i)\log(1 - p_i)$

$p_i$ $p_i$ $L_i$ $L_i$

\sum_{i} y_{i} L_{i} - \log (1 + \exp (L_{i}))

$\sum_i y_i L_i - \log(1 + \exp(L_i))$

$L$

Только в самом конце, когда мы хотим создать прогнозы для пользователя, мы применяем функцию связи к конечной последовательности слабых учеников, чтобы поставить прогнозы в том же масштабе, что и ответ. При подборе модели мы все время работаем в линейном масштабе.

— Мэтью Друри
источник

2

r \in (- \infty, \infty)

$r \in (-\infty, \infty)$

- \sum_{i} (y_{i} \log \frac{1}{1 + e^{- r}} + (1 - y_{i}) \log (1 - \frac{1}{1 + e^{- r}}))

$- \sum_i \big( y_i \log \frac{1}{1+e^{-r}}+(1-y_i)\log ( 1 - \frac{1}{1+e^{-r}}) \big)$

r

$r$

@ matthew-drury Не могли бы вы немного осветить секцию многочленов K-класса того же алгоритма, где аналогичная идея распространена на него?

— MixCoded

6

После некоторых исследований кажется, что моя интуиция и комментарий Алекса Р. верны .

Для того, чтобы построить непрерывную модель с прогнозами в $[0,1]$ можно поставить модель $H$ в логистическую функцию (Wikipedia) , такую, что для $H \in \mathbb{R}$ , у нас есть

\frac{1}{1 + е^{- ЧАС}} \in [0, 1]

$\frac{1}{1 + e^{-H}} \in [0,1]$ Затем шаги повышения градиента принимают производную по

H

$H$ и обновить модель, как если бы логистическая функция была частью функции стоимости, и она работает.

Это было предложено в статье Аддитивная логистическая регрессия: статистическое представление Фридмана, Хасти и Тибширани о том, как создать LogitBoost (Википедия) , адаптацию AdaBoost (Википедия) к логистическим потерям.

В самых основных терминах, если возможно перейти от линейной регрессии к логистической регрессии путем добавления сигмоида, то это также работает для преобразования усиления регрессии в повышение классификации.

— подмигивает
источник