Можете ли вы дать простое интуитивное объяснение метода IRLS, чтобы найти MLE GLM?

Фон:

Я пытаюсь следовать обзору Принстона оценки MLE для GLM .

Я понимаю основы оценки MLE: likelihood, score, наблюдаемая и ожидаемая Fisher informationи Fisher scoringтехника. И я знаю, как обосновать простую линейную регрессию с помощью оценки MLE .

Вопрос:

Я не могу понять даже первую строку этого метода :(

Что такое интуиция за рабочими переменными $z_i$ определенными как:

Z_{я} знак равно {\hat{η}}_{я} + (Y_{я} - {\hat{μ}}_{я}) \frac{d η_{я}}{d μ_{я}}

$z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i}$

Почему они используются вместо $y_i$ для оценки $\beta$ ?

И как они связаны с тем, response/link functionчто есть связь между $\eta$ и $\mu$

Если кто-то имеет простое объяснение или может направить меня к более базовому тексту об этом, я был бы благодарен.

— ihadanny
источник

В качестве дополнительного примечания, я узнал об IRLS в контексте надежной (M-) оценки, прежде чем услышать обо всей структуре "GLM" (которую я до сих пор не до конца понимаю). Для практической точки зрения на этот подход, в качестве простого обобщения наименьших квадратов, я бы порекомендовал источник, с которым я впервые столкнулся: Приложение B к книге Ричарда Шелиски «Computer Vision (free E-)» (первые 4 страницы, правда, хотя они ссылаются несколько хороших примеров).

— GeoMatt22

Несколько лет назад я написал статью об этом для моих студентов (на испанском языке), поэтому я могу попытаться переписать эти объяснения здесь. Я посмотрю на IRLS (итеративно переоцененные наименьшие квадраты) через серию примеров возрастающей сложности. Для первого примера нам нужна концепция семейства масштабов местоположения. Пусть - функция плотности с центром в нуле в некотором смысле. Мы можем построить семейство плотностей, определив $f_0$ где- параметр масштаба, а- параметр местоположения. В модели ошибки измерения, где обычно термин ошибки моделируется как нормальное распределение, мы можем вместо этого нормального распределения использовать семейство масштабов местоположения, как построено выше. Когдаявляется стандартным нормальным распределением, приведенная выше конструкция дает семейство.

е (Икс) знак равно е (Икс; μ, σ) знак равно \frac{1}{σ} е_{0} (\frac{Икс - μ}{σ})

$f(x)= f(x;\mu,\sigma)= \frac{1}{\sigma} f_0\left(\frac{x-\mu}{\sigma}\right)$

σ > 0

$\sigma > 0$

μ

$\mu$

f_{0}

$f_0$

N (μ, σ)

$\text{N}(\mu, \sigma)$

Теперь мы будем использовать IRLS на нескольких простых примерах. Сначала мы найдем оценки ML (максимальное правдоподобие) в модели с плотностью

Y_{1}, Y_{2}, ..., Y_{N} н.о.р.

$Y_1,Y_2,\ldots,Y_n \hspace{1em} \text{i.i.d}$

распределение Коши семейства местоположений

(так что это семейство местоположений). Но сначала несколько обозначений. Взвешенная оценка наименьших квадратов для

определяется как

е (Y) знак равно \frac{1}{π} \frac{1}{1 + (Y - μ)^{2}}, Y \in р,

$f(y)= \frac{1}{\pi} \frac{1}{1+(y-\mu)^2},\hspace{1em} y\in{\mathbb R},$

μ

$\mu$

μ

$\mu$

где

- некоторые веса. Мы видимчто ML оценкой

может быть выражен в той же форме, с

некоторой функцией от остатков

Функция правдоподобия определяется как

μ^{*} знак равно \frac{Σ_{я знак равно 1}^{N} {вес}_{я} Y_{я}}{Σ_{я знак равно 1}^{N} {вес}_{я}},

$\mu^{\ast} = \frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i}.$

w_{i}

$w_i$

μ

$\mu$

w_{i}

$w_i$

ε_{я} знак равно Y_{я} - \hat{μ},

$\epsilon_i = y_i-\hat{\mu}.$

а функция логарифмического правдоподобия задается как

Его производная по

равна

L (Y; μ) знак равно {(\frac{1}{π})}^{N} Π_{я знак равно 1}^{N} \frac{1}{1 + (Y_{я} - μ)^{2}}

$L(y;\mu)= \left(\frac{1}{\pi}\right)^n \prod_{i=1}^n \frac{1}{1+(y_i-\mu)^2}$

L (Y) знак равно - N журнал (π) - Σ_{я знак равно 1}^{N} журнал (1 + (Y_{я} - μ)^{2}),

$l(y)= -n \log(\pi) - \sum_{i=1}^n \log\left(1+(y_i-\mu)^2\right).$

μ

$\mu$

где

. Напишите

\begin{array}{rcl} \frac{\partial L (Y)}{\partial μ} & знак равно & 0 - Σ \frac{\partial}{\partial μ} журнал (1 + (Y_{я} - μ)^{2}) \\ знак равно & - Σ \frac{2 (Y_{я} - μ)}{1 + (Y_{я} - μ)^{2}} \cdot (- 1) \\ знак равно & Σ \frac{2 ε_{я}}{1 + ε_{я}^{2}} \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \mu}&=& 0-\sum \frac{\partial}{\partial \mu} \log\left(1+(y_i-\mu)^2\right) \nonumber \\ &=& -\sum \frac{2(y_i-\mu)}{1+(y_i-\mu)^2}\cdot (-1) \nonumber \\ &=& \sum \frac{2 \epsilon_i}{1+\epsilon_i^2} \nonumber \end{eqnarray}$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

f_{0} (ϵ) = \frac{1}{π} \frac{1}{1 + ϵ^{2}}

$f_0(\epsilon)= \frac{1}{\pi} \frac{1}{1+\epsilon^2}$

, получаем

f_{0}^{'} (ϵ) = \frac{1}{π} \frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}

$f_0'(\epsilon)=\frac{1}{\pi} \frac{-1\cdot 2 \epsilon}{(1+\epsilon^2)^2}$

Мы находим

\frac{е_{0}^{'} (ε)}{е_{0} (ε)} знак равно \frac{\frac{- 1 \cdot 2 ε}{(1 + ε^{2})^{2}}}{\frac{1}{1 + ε^{2}}} знак равно - \frac{2 ε}{1 + ε^{2}},

$\frac{f_0'(\epsilon)}{f_0(\epsilon)} = \frac{\frac{-1 \cdot2\epsilon}{(1+\epsilon^2)^2}} {\frac{1}{1+\epsilon^2}} = -\frac{2\epsilon}{1+\epsilon^2}.$

где мы использовали определение

\begin{array}{rcl} \frac{\partial L (Y)}{\partial μ} & знак равно & - Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \\ знак равно & - Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot (- \frac{1}{ε_{я}}) \cdot (- ε_{я}) \\ знак равно & Σ {вес}_{я} ε_{я} \end{array}

$\begin{eqnarray} \frac {\partial l(y)} {\partial \mu} & =& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \nonumber \\ &=& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) \cdot (-\epsilon_i) \nonumber \\ &=& \sum w_i \epsilon_i \nonumber \end{eqnarray}$

Вспоминая, что

получаем уравнение

которое является уравнением оценки IRLS. Обратите внимание, что

{вес}_{я} знак равно \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot (- \frac{1}{ε_{я}}) знак равно \frac{- 2 ε_{я}}{1 + ε_{я}^{2}} \cdot (- \frac{1}{ε_{я}}) знак равно \frac{2}{1 + ε_{я}^{2}},

$w_i= \frac{f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{-2 \epsilon_i} {1+\epsilon_i^2} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{2}{1+\epsilon_i^2}.$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

Σ {вес}_{я} Y_{я} знак равно μ Σ {вес}_{я},

$\sum w_i y_i = \mu \sum w_i,$

Веса всегда положительны. $w_i$
Если остаток большой, мы придаем меньшее значение соответствующему наблюдению.

$\hat{\mu}^{(0)}$

ε_{я}^{(0)} знак равно Y_{я} - {\hat{μ}}^{(0)}

$\epsilon_i^{(0)} = y_i - \hat{\mu}^{(0)}$

{вес}_{я}^{(0)} знак равно \frac{2}{1 + ε_{я}^{(0)}},

$w_i^{(0)} = \frac{2}{1+\epsilon_i^{(0)} }.$

\hat{μ}

$\hat{\mu}$

{\hat{μ}}^{(1)} знак равно \frac{Σ {вес}_{я}^{(0)} Y_{я}}{Σ {вес}_{я}^{(0)}},

$\hat{\mu}^{(1)} = \frac{\sum w_i^{(0)} y_i} {\sum w_i^{(0)} }.$

ε_{я}^{(J)} знак равно Y_{я} - {\hat{μ}}^{(J)}

$\epsilon_i^{(j)} = y_i- \hat{\mu}^{(j)}$

{вес}_{я}^{(J)} знак равно \frac{2}{1 + ε_{я}^{(J)}},

$w_i^{(j)} = \frac{2}{1+\epsilon_i^{(j)} }.$

j + 1

$j+1$

{\hat{μ}}^{(J + 1)} знак равно \frac{Σ {вес}_{я}^{(J)} Y_{я}}{Σ {вес}_{я}^{(J)}},

$\hat{\mu}^{(j+1)} = \frac{\sum w_i^{(j)} y_i} {\sum w_i^{(j)} }.$

{\hat{μ}}^{(0)}, {\hat{μ}}^{(1)}, ..., {\hat{μ}}^{(J)}, ...

$\hat{\mu}^{(0)}, \hat{\mu}^{(1)}, \ldots, \hat{\mu}^{(j)}, \ldots$

$f(y)= \frac{1}{\sigma} f_0(\frac{y-\mu}{\sigma})$ $Y_1,Y_2,\ldots,Y_n$ $\epsilon_i=\frac{y_i-\mu}{\sigma}$

L (Y) знак равно - \frac{N}{2} журнал (σ^{2}) + Σ журнал (е_{0} (\frac{Y_{я} - μ}{σ})),

$l(y)= -\frac{n}{2}\log(\sigma^2) + \sum \log(f_0\left(\frac{y_i-\mu}{\sigma}\right)).$

ν = σ^{2}

$\nu=\sigma^2$

\frac{\partial ε_{я}}{\partial μ} знак равно - \frac{1}{σ}

$\frac{\partial \epsilon_i}{\partial \mu} = -\frac{1}{\sigma}$

\frac{\partial ε_{я}}{\partial ν} знак равно (Y_{я} - μ) {(\frac{1}{\sqrt{ν}})}^{'} знак равно (Y_{я} - μ) \cdot \frac{- 1}{2 σ^{3}},

$\frac{\partial \epsilon_i}{\partial \nu} = (y_i-\mu)\left(\frac{1}{\sqrt{\nu}}\right)' = (y_i-\mu)\cdot \frac{-1}{2 \sigma^3}.$

\frac{\partial L (Y)}{\partial μ} знак равно Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot \frac{\partial ε_{я}}{\partial μ} знак равно Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot (- \frac{1}{σ}) знак равно - \frac{1}{σ} Σ \frac{е_{о}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot (- \frac{1}{ε_{я}}) (- ε_{я}) знак равно \frac{1}{σ} Σ {вес}_{я} ε_{я}

$\frac{\partial l(y)}{\partial \mu} = \sum \frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial \mu} = \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot\left(-\frac{1}{\sigma}\right)= -\frac{1}{\sigma}\sum\frac{f_o'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right)(-\epsilon_i) = \frac{1}{\sigma}\sum w_i \epsilon_i$

σ^{2}

$\sigma^2$

\begin{array}{rcl} \frac{\partial L (Y)}{\partial ν} & знак равно & - \frac{N}{2} \frac{1}{ν} + Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot \frac{\partial ε_{я}}{\partial ν} \\ знак равно & - \frac{N}{2} \frac{1}{ν} + Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot (- \frac{(Y_{я} - μ)}{2 σ^{3}}) \\ знак равно & - \frac{N}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{σ^{2}} Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot ε_{я} \\ знак равно & - \frac{N}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{ν} Σ \frac{е_{0}^{'} (ε_{я})}{е_{0} (ε_{я})} \cdot (- \frac{1}{ε_{я}}) (- ε_{я}) \cdot ε_{я} \\ знак равно & - \frac{N}{2} \frac{1}{ν} + \frac{1}{2} \frac{1}{ν} Σ {вес}_{я} ε_{я}^{2} \overset{!}{знак равно} 0. \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \nu} &=& -\frac{n}{2}\frac{1}{\nu} + \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial\nu} \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)} \cdot \left(-\frac{(y_i-\mu)}{2\sigma^3}\right) \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu} - \frac{1}{2}\frac{1}{\sigma^2} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}-\frac{1}{2}\frac{1}{\nu} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right) (-\epsilon_i)\cdot\epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\frac{1}{2}\frac{1}{\nu}\sum w_i \epsilon_i^2 \stackrel{!}{=} 0. \nonumber \end{eqnarray}$

\hat{σ^{2}} знак равно \frac{1}{N} Σ {вес}_{я} (Y_{я} - \hat{μ})^{2},

$\hat{\sigma^2} = \frac{1}{n}\sum w_i (y_i-\hat{\mu})^2.$

Далее мы дадим числовой пример, используя R, для двойной экспоненциальной модели (с известным масштабом) и с данными y <- c(-5,-1,0,1,5). Для этих данных истинное значение оценщика ML равно 0. Начальное значение будет mu <- 0.5. Один проход алгоритма

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

с помощью этой функции вы можете поэкспериментировать с выполнением итераций «вручную». Затем итерационный алгоритм может быть выполнен

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

$t_k$ $\sigma$

{вес}_{я} знак равно \frac{К + 1}{К + ε_{я}^{2}},

$w_i = \frac{k+1}{k+\epsilon_i^2}.$

вес (ε) знак равно \frac{1 - е^{ε}}{1 + е^{ε}} \cdot - \frac{1}{ε},

$w(\epsilon) = \frac{ 1-e^\epsilon}{1+e^\epsilon} \cdot - \frac{1}{\epsilon}.$

На данный момент я оставлю это здесь, я продолжу этот пост.

— Къетил б Халворсен
источник

u

$u$

u_{i}

$u_i$

Я добавлю больше к этому, просто вне времени сейчас! Идеи остаются прежними, но детали становятся более сложными.

— kjetil b halvorsen

придет к этому!

— kjetil b halvorsen

t_{k}

$t_k$

Вы не возражаете написать пост в блоге, продолжая это объяснение? действительно полезно для меня, и я уверен, что будет для других ...

— ihadanny