Что здесь происходит, когда я использую квадрат потерь в настройке логистической регрессии?

Я пытаюсь использовать квадратичные потери, чтобы выполнить двоичную классификацию для набора данных игрушек.

Я использую mtcarsнабор данных, использую милю на галлон и вес, чтобы предсказать тип передачи. На приведенном ниже графике показаны два типа данных типа передачи в разных цветах и границы решения, сформированные различными функциями потерь. Квадратный убыток равен где - метка истинности земли (0 или 1), а - прогнозируемая вероятность . Другими словами, я заменяю логистические потери квадратом потерь в настройках классификации, остальные части такие же. $\sum_i (y_i-p_i)^2$ $y_i$ $p_i$ $p_i=\text{Logit}^{-1}(\beta^Tx_i)$

Для игрушечного примера с mtcarsданными во многих случаях я получил модель, «похожую» на логистическую регрессию (см. Следующий рисунок со случайным начальным числом 0).

Но в некоторых случаях (если мы это делаем set.seed(1)) квадрат потери, кажется, не работает хорошо. Что здесь происходит? Оптимизация не сходится? Логистические потери легче оптимизировать по сравнению с квадратом потерь? Любая помощь будет оценена.

Код

d=mtcars[,c("am","mpg","wt")]
plot(d$mpg,d$wt,col=factor(d$am))
lg_fit=glm(am~.,d, family = binomial())
abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3],
       -lg_fit$coefficients[2]/lg_fit$coefficients[3])
grid()

# sq loss
lossSqOnBinary<-function(x,y,w){
  p=plogis(x %*% w)
  return(sum((y-p)^2))
}

# ----------------------------------------------------------------
# note, this random seed is important for squared loss work
# ----------------------------------------------------------------
set.seed(0)

x0=runif(3)
x=as.matrix(cbind(1,d[,2:3]))
y=d$am
opt=optim(x0, lossSqOnBinary, method="BFGS", x=x,y=y)

abline(-opt$par[1]/opt$par[3],
       -opt$par[2]/opt$par[3], lty=2)
legend(25,5,c("logisitc loss","squared loss"), lty=c(1,2))

— Haitao Du
источник

Возможно, случайное начальное значение плохое. Почему бы не выбрать лучший?

— whuber

@whuber логистические потери выпуклые, поэтому запуск не имеет значения. как насчет квадрата потерь на р и у? это выпукло?

— Haitao Du

Я не могу воспроизвести то, что вы описываете. optimговорит вам, что это еще не закончено, вот и все: это сходится. Вы можете многому научиться, перезапустив свой код с дополнительным аргументом control=list(maxit=10000), построив график его подгонки и сравнив его коэффициенты с исходными.

— whuber

@amoeba спасибо за ваши комментарии, я пересмотрел вопрос. надеюсь, это лучше.

— Haitao Du

@amoeba Я пересмотрю легенду, но это утверждение не исправит (3)? «Я использую набор данных mtcars, использую милю на галлон и вес, чтобы предсказать тип передачи. На приведенном ниже графике показаны два типа данных типа передачи в разных цветах и граница решения, сгенерированная различными функциями потерь».

— Haitao Du

Ответы:

Похоже, что вы исправили проблему в своем конкретном примере, но я думаю, что все же стоит более тщательно изучить разницу между наименьшими квадратами и логистической регрессией с максимальной вероятностью.

Давайте получим некоторые обозначения. Пусть $L_S(y_i, \hat y_i) = \frac 12(y_i - \hat y_i)^2$ и $L_L(y_i, \hat y_i) = y_i \log \hat y_i + (1 - y_i) \log(1 - \hat y_i)$ . Если мы делаем максимальную вероятность (или минимальный журнал вероятность негативногокак я делаю здесь), мы имеем

{\hat{β}}_{L} := {argmin}_{b \in R^{p}} - \sum_{i = 1}^{n} y_{i} \log g^{- 1} (x_{i}^{T} b) + (1 - y_{i}) \log (1 - g^{- 1} (x_{i}^{T} b))

$\hat \beta_L := \text{argmin}_{b \in \mathbb R^p} -\sum_{i=1}^n y_i \log g^{-1}(x_i^T b) + (1-y_i)\log(1 - g^{-1}(x_i^T b))$ где

g

$g$ является нашей функцией связи.

В качестве альтернативы мы имеем

{\hat{β}}_{S} := {argmin}_{b \in R^{p}} \frac{1}{2} \sum_{i = 1}^{n} (y_{i} - g^{- 1} (x_{i}^{T} b))^{2}

$\hat \beta_S := \text{argmin}_{b \in \mathbb R^p} \frac 12 \sum_{i=1}^n (y_i - g^{-1}(x_i^T b))^2$ как решение наименьших квадратов. Таким образом

минимизирует

и аналогично для

{\hat{β}}_{S}

$\hat \beta_S$

L_{S}

$L_S$

L_{L}

$L_L$

Пусть $f_S$ и $f_L$ быть объективные функции , соответствующие минимуму $L_S$ и $L_L$ , соответственно , как это делается для и . Пусть , наконец, , так . Обратите внимание, что если мы используем каноническую ссылку, мы получаем $\hat \beta_S$ $\hat \beta_L$ $h = g^{-1}$ $\hat y_i = h(x_i^T b)$

h (z) = \frac{1}{1 + e^{- z}} ⟹ h^{'} (z) = h (z) (1 - h (z)) .

$h(z) = \frac{1}{1+e^{-z}} \implies h'(z) = h(z) (1 - h(z)).$

Для регулярной логистической регрессии имеем

\frac{\partial f_{L}}{\partial b_{j}} = - \sum_{i = 1}^{n} h^{'} (x_{i}^{T} b) x_{i j} (\frac{y_{i}}{h (x_{i}^{T} b)} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)}) .

$\frac{\partial f_L}{\partial b_j} = -\sum_{i=1}^n h'(x_i^T b)x_{ij} \left( \frac{y_i}{h(x_i^T b)} - \frac{1-y_i}{1 - h(x_i^T b)}\right).$ Используя

h^{'} = h \cdot (1 - h)

$h' = h \cdot (1 - h)$ мы можем упростить это до

\frac{\partial f_{L}}{\partial b_{j}} = - \sum_{i = 1}^{n} x_{i j} (y_{i} (1 - {\hat{y}}_{i}) - (1 - y_{i}) {\hat{y}}_{i}) = - \sum_{i = 1}^{n} x_{i j} (y_{i} - {\hat{y}}_{i})

$\frac{\partial f_L}{\partial b_j} = -\sum_{i=1}^n x_{ij} \left( y_i(1 - \hat y_i) - (1-y_i)\hat y_i\right) = -\sum_{i=1}^n x_{ij}(y_i - \hat y_i)$ так

\nabla f_{L} (b) = - X^{T} (Y - \hat{Y}) .

$\nabla f_L(b) = -X^T (Y - \hat Y).$

Далее давайте сделаем вторые производные. Гессиан

H_{L} := \frac{\partial^{2} f_{L}}{\partial b_{j} \partial b_{k}} = \sum_{i = 1}^{n} x_{i j} x_{i k} {\hat{y}}_{i} (1 - {\hat{y}}_{i}) .

$H_L:= \frac{\partial^2 f_L}{\partial b_j \partial b_k} = \sum_{i=1}^n x_{ij} x_{ik} \hat y_i (1 - \hat y_i).$ Это означаетчто

H_{L} = X^{T} A X

$H_L = X^T A X$ где

действительно зависит от текущих

A = diag (\hat{Y} (1 - \hat{Y}))

$A = \text{diag} \left(\hat Y (1 - \hat Y)\right)$

H_{L}

$H_L$

\hat{Y}

$\hat Y$ but

Y

$Y$ has dropped out, and

H_{L}

$H_L$ is PSD. Thus our optimization problem is convex in

b

$b$ .

Let's compare this to least squares.

\frac{\partial f_{S}}{\partial b_{j}} = - \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) h^{'} (x_{i}^{T} b) x_{i j} .

$\frac{\partial f_S}{\partial b_j} = - \sum_{i=1}^n (y_i - \hat y_i) h'(x^T_i b)x_{ij}.$

This means we have

\nabla f_{S} (b) = - X^{T} A (Y - \hat{Y}) .

$\nabla f_S(b) = -X^T A (Y - \hat Y).$ This is a vital point: the gradient is almost the same except for all

i

$i$

{\hat{y}}_{i} (1 - {\hat{y}}_{i}) \in (0, 1)

$\hat y_i (1 - \hat y_i) \in (0,1)$ so basically we're flattening the gradient relative to

\nabla f_{L}

$\nabla f_L$ . This'll make convergence slower.

For the Hessian we can first write

\frac{\partial f_{S}}{\partial b_{j}} = - \sum_{i = 1}^{n} x_{i j} (y_{i} - {\hat{y}}_{i}) {\hat{y}}_{i} (1 - {\hat{y}}_{i}) = - \sum_{i = 1}^{n} x_{i j} (y_{i} {\hat{y}}_{i} - (1 + y_{i}) {\hat{y}}_{i}^{2} + {\hat{y}}_{i}^{3}) .

$\frac{\partial f_S}{\partial b_j} = - \sum_{i=1}^n x_{ij}(y_i - \hat y_i) \hat y_i (1 - \hat y_i) = - \sum_{i=1}^n x_{ij}\left( y_i \hat y_i - (1+y_i)\hat y_i^2 + \hat y_i^3\right).$

This leads us to

H_{S} := \frac{\partial^{2} f_{S}}{\partial b_{j} \partial b_{k}} = - \sum_{i = 1}^{n} x_{i j} x_{i k} h^{'} (x_{i}^{T} b) (y_{i} - 2 (1 + y_{i}) {\hat{y}}_{i} + 3 {\hat{y}}_{i}^{2}) .

$H_S:=\frac{\partial^2 f_S}{\partial b_j \partial b_k} = - \sum_{i=1}^n x_{ij} x_{ik} h'(x_i^T b) \left( y_i - 2(1+y_i)\hat y_i + 3 \hat y_i^2 \right).$

Let $B = \text{diag} \left( y_i - 2(1+y_i)\hat y_i + 3 \hat y_i ^2 \right)$ . We now have

H_{S} = - X^{T} A B X .

$H_S = -X^T A B X.$

Unfortunately for us, the weights in $B$ are not guaranteed to be non-negative: if $y_i = 0$ then $y_i - 2(1+y_i)\hat y_i + 3 \hat y_i ^2 = \hat y_i (3 \hat y_i - 2)$ which is positive iff $\hat y_i > \frac 23$ . Similarly, if $y_i = 1$ then $y_i - 2(1+y_i)\hat y_i + 3 \hat y_i ^2 = 1-4 \hat y_i + 3 \hat y_i^2$ which is positive when $\hat y_i < \frac 13$ (it's also positive for $\hat y_i > 1$ but that's not possible). This means that $H_S$ is not necessarily PSD, so not only are we squashing our gradients which will make learning harder, but we've also messed up the convexity of our problem.

All in all, it's no surprise that least squares logistic regression struggles sometimes, and in your example you've got enough fitted values close to $0$ or $1$ so that $\hat y_i (1 - \hat y_i)$ can be pretty small and thus the gradient is quite flattened.

Connecting this to neural networks, even though this is but a humble logistic regression I think with squared loss you're experiencing something like what Goodfellow, Bengio, and Courville are referring to in their Deep Learning book when they write the following:

One recurring theme throughout neural network design is that the gradient of the cost function must be large and predictable enough to serve as a good guide for the learning algorithm. Functions that saturate (become very flat) undermine this objective because they make the gradient become very small. In many cases this happens because the activation functions used to produce the output of the hidden units or the output units saturate. The negative log-likelihood helps to avoid this problem for many models. Many output units involve an exp function that can saturate when its argument is very negative. The log function in the negative log-likelihood cost function undoes the exp of some output units. We will discuss the interaction between the cost function and the choice of output unit in Sec. 6.2.2.

and, in 6.2.2,

Unfortunately, mean squared error and mean absolute error often lead to poor results when used with gradient-based optimization. Some output units that saturate produce very small gradients when combined with these cost functions. This is one reason that the cross-entropy cost function is more popular than mean squared error or mean absolute error, even when it is not necessary to estimate an entire distribution $p(y|x)$ .

(both excerpts are from chapter 6).

— jld
источник

I really like you helped me to derive the derivative and hessian. I will check it more careful tomorrow.

— Haitao Du

@hxd1011 you're very welcome, and thanks for the link to that older question of yours! I've really been meaning to go through this more carefully so this was a great excuse :)

— jld

I carefully read the math and verified with code. I found Hessian for squared loss does not match the numerical approximation. Could you check it? I am more than happy to show you the code if you want.

— Haitao Du

@hxd1011 I just went through the derivation again and I think there's a sign error: for

H_{S}

$H_S$ I think everywhere that I have

y_{i} - 2 (1 - y_{i}) {\hat{y}}_{i} + 3 {\hat{y}}_{i}^{2}

$y_i - 2(1-y_i)\hat y_i + 3 \hat y_i^2$ it should be

y_{i} - 2 (\underset{⏟}{1 + y_{i}}) {\hat{y}}_{i} + 3 {\hat{y}}_{i}^{2}

$y_i - 2(\underbrace{1+y_i})\hat y_i + 3 \hat y_i^2$ . Could you recheck and tell me if that fixes it? Thanks a lot for the correction.

— jld

@hxd1011 glad that fixed it! thanks again for finding that

— jld

Я хотел бы поблагодарить @whuber и @Chaconne за помощь. Особенно @Chaconne, этот вывод - то, что я хотел иметь в течение многих лет.

Проблема в части оптимизации. Если мы установим случайное начальное число в 1, BFGS по умолчанию не будет работать. Но если мы изменим алгоритм и изменим максимальное число итераций, он снова будет работать.

Как упомянул @Chaconne, проблема в квадрате потерь для классификации невыпуклая и ее сложнее оптимизировать. Чтобы добавить к математике @ Chaconne, я хотел бы представить некоторые визуализации логистических потерь и квадратов потерь.

Мы изменим демонстрационные данные с mtcars, так как оригинальный пример $3$ коэффициенты, включая перехват. Мы будем использовать другой игрушечный набор данных, сгенерированный из mlbenchэтого набора данных $2$ параметры, которые лучше для визуализации.

Вот демо

Данные показаны на левом рисунке: у нас есть два класса в двух цветах. х, у две функции для данных. Кроме того, мы используем красную линию для представления линейного классификатора от логистических потерь, а синяя линия представляет линейный классификатор от квадрата потерь.
Средняя и правая цифры показывают контур логистических потерь (красный) и квадрата потерь (синий). х, у два параметра, которые мы подгоняем. Точка является оптимальной точкой, найденной BFGS.

Из контура мы можем легко увидеть, почему оптимизация квадрата потерь сложнее: как уже упоминал Чакон, он не выпуклый.

Вот еще один вид из persp3d.

Код

set.seed(0)
d=mlbench::mlbench.2dnormals(50,2,r=1)
x=d$x
y=ifelse(d$classes==1,1,0)

lg_loss <- function(w){
  p=plogis(x %*% w)
  L=-y*log(p)-(1-y)*log(1-p)
  return(sum(L))
}
sq_loss <- function(w){
  p=plogis(x %*% w)
  L=sum((y-p)^2)
  return(L)
}

w_grid_v=seq(-15,15,0.1)
w_grid=expand.grid(w_grid_v,w_grid_v)

opt1=optimx::optimx(c(1,1),fn=lg_loss ,method="BFGS")
z1=matrix(apply(w_grid,1,lg_loss),ncol=length(w_grid_v))

opt2=optimx::optimx(c(1,1),fn=sq_loss ,method="BFGS")
z2=matrix(apply(w_grid,1,sq_loss),ncol=length(w_grid_v))

par(mfrow=c(1,3))
plot(d,xlim=c(-3,3),ylim=c(-3,3))
abline(0,-opt1$p2/opt1$p1,col='darkred',lwd=2)
abline(0,-opt2$p2/opt2$p1,col='blue',lwd=2)
grid()
contour(w_grid_v,w_grid_v,z1,col='darkred',lwd=2, nlevels = 8)
points(opt1$p1,opt1$p2,col='darkred',pch=19)
grid()
contour(w_grid_v,w_grid_v,z2,col='blue',lwd=2, nlevels = 8)
points(opt2$p1,opt2$p2,col='blue',pch=19)
grid()


# library(rgl)
# persp3d(w_grid_v,w_grid_v,z1,col='darkred')

— Haitao Du
источник

I don't see any non-convexity on the third subplot of your first figure...

— amoeba says Reinstate Monica

@amoeba I thought convex contour is more like ellipse, two U shaped curve back to back is non-convex, is that right?

— Haitao Du

No, why? Maybe it's a part of a larger ellipse-like contour? I mean, it might very well be non-convex, I am just saying that I do not see it on this particular figure.

— amoeba says Reinstate Monica