Градиент для функции логистической потери

Я хотел бы задать вопрос, связанный с этим .

Я нашел пример написания пользовательской функции потерь для xgboost здесь :

loglossobj <- function(preds, dtrain) {
  # dtrain is the internal format of the training data
  # We extract the labels from the training data
  labels <- getinfo(dtrain, "label")
  # We compute the 1st and 2nd gradient, as grad and hess
  preds <- 1/(1 + exp(-preds))
  grad <- preds - labels
  hess <- preds * (1 - preds)
  # Return the result as a list
  return(list(grad = grad, hess = hess))
}

Функция логистической потери

l o g (1 + e^{- y P})

$log(1+e^{-yP})$

где - лог-шансы, а - метки (0 или 1). $P$ $y$

Мой вопрос: как мы можем получить градиент (первую производную), просто равный разнице между истинными значениями и предсказанными вероятностями (рассчитанными из log-odds as preds <- 1/(1 + exp(-preds)))?

— Огурцы
источник

Вы должны использовать квадрат ошибки потери, чтобы достичь этого. Ваша запись сбивает с толку и должна быть определена в посте. Если - прогнозируемый риск, тогда - это то, что вы хотите. Я запутался, потому что мы никогда не используем для обозначения лог-шансов.

p

$p$

(y - p)^{2}

$(y-p)^2$

p

$p$

— AdamO

p

$p$ был зафиксирован в столице . Это лог-шансы, и это четко обозначено в вопросе. Я знаю, что градиент для функции потерь - это , но это квадратные потери, а не логистика.

P

$P$

(y - f (x))^{2}

$(y-f(x))^2$

f (x) - y

$f(x)-y$

— Огурцов

Когда вы говорите «градиент», какой градиент вы имеете в виду? Градиент потерь? Это простое математическое соотношение, что если производная выражения является линейной разностью, то выражение является квадратичной разностью или квадратом потери ошибок.

— AdamO

Да, все дело в градиенте потерь. Это просто, когда функция потерь является квадратом ошибки. В этом случае функция потерь - это логистическая потеря ( en.wikipedia.org/wiki/LogitBoost ), и я не могу найти соответствия между градиентом этой функции и приведенным примером кода.

— Огурцов

Мой ответ на мой вопрос: да, можно показать, что градиент логистических потерь равен разнице между истинными значениями и прогнозируемыми вероятностями. Краткое объяснение было найдено здесь .

Во-первых, логистическая потеря - это просто отрицательное логарифмическое правдоподобие, поэтому мы можем начать с выражения для логарифмического правдоподобия ( стр. 74 - это выражение само по себе логарифмически, а не отрицательно логарифмически):

L = y_{i} \cdot l o g (p_{i}) + (1 - y_{i}) \cdot l o g (1 - p_{i})

$L=y_{i}\cdot log(p_{i})+(1-y_{i})\cdot log(1-p_{i})$

$p_{i}$ - логистическая функция: , где - прогнозируемые значения до логистического преобразования (т. е. лог-шансы): $p_{i}=\frac{1}{1+e^{-\hat{y}_{i}}}$ $\hat{y}_{i}$

L = y_{i} \cdot l o g (\frac{1}{1 + e^{- {\hat{y}}_{i}}}) + (1 - y_{i}) \cdot l o g (\frac{e^{- {\hat{y}}_{i}}}{1 + e^{- {\hat{y}}_{i}}})

$L=y_{i}\cdot log\left(\frac{1}{1+e^{-\hat{y}_{i}}}\right)+(1-y_{i})\cdot log\left(\frac{e^{-\hat{y}_{i}}}{1+e^{-\hat{y}_{i}}}\right)$

Первая производная, полученная с использованием Wolfram Alpha:

L^{'} = \frac{y_{i} - (1 - y_{i}) \cdot e^{{\hat{y}}_{i}}}{1 + e^{{\hat{y}}_{i}}}

${L}'=\frac{y_{i}-(1-y_{i})\cdot e^{\hat{y}_{i}}}{1+e^{\hat{y}_{i}}}$

После умножения на : $\frac{e^{-\hat{y}_{i}}}{e^{-\hat{y}_{i}}}$

L^{'} = \frac{y_{i} \cdot e^{- {\hat{y}}_{i}} + y_{i} - 1}{1 + e^{- {\hat{y}}_{i}}} = \frac{y_{i} \cdot (1 + e^{- {\hat{y}}_{i}})}{1 + e^{- {\hat{y}}_{i}}} - \frac{1}{1 + e^{- {\hat{y}}_{i}}} = y_{i} - p_{i}

${L}'=\frac{y_{i}\cdot e^{-\hat{y}_{i}}+y_{i}-1}{1+e^{-\hat{y}_{i}}}= \frac{y_{i}\cdot (1+e^{-\hat{y}_{i}})}{1+e^{-\hat{y}_{i}}}-\frac{1}{1+e^{-\hat{y}_{i}}}=y_{i}-p_{i}$

После изменения знака у нас есть выражение для градиента функции логистической потери:

p_{i} - y_{i}

$p_{i}-y_{i}$

— Огурцы
источник

То, что вы называете здесь - это не предсказание , а линейная комбинация предикторов. В обобщенном линейном моделировании мы используем обозначение и называем этот термин «линейный предиктор». Ваша производная логарифмического правдоподобия (оценка) неверна, в знаменателе должен быть квадратный член, поскольку бернулли образуют экспоненциальную вероятность. Счет должен быть в форме

\hat{y}

$\hat{y}$

y

$y$

ν

$\nu$

\frac{1}{p_{i} (1 - p_{i})} (y_{i} - p_{i})

$\frac{1}{p_i(1-p_i)}(y_i - p_i)$

— AdamO