В GLM логарифмическая вероятность насыщенной модели всегда равна нулю?

Как часть вывода обобщенной линейной модели, нулевое и остаточное отклонение используются для оценки модели. Я часто вижу формулы для этих величин, выраженные в виде логарифмической вероятности насыщенной модели, например: /stats//a/113022/22199 , Логистическая регрессия: как получить насыщенную модель

Насколько я понимаю, насыщенная модель - это модель, которая идеально соответствует наблюдаемой реакции. Таким образом, в большинстве мест, которые я видел, логарифмическая вероятность насыщенной модели всегда задается равной нулю.

Тем не менее, способ, которым дается формула отклонения, предполагает, что иногда эта величина не равна нулю. (Как будто он всегда равен нулю, зачем его включать?)

В каких случаях оно может быть ненулевым? Если оно никогда не равно нулю, зачем включать его в формулу отклонения?

— Alex
источник

Ответы:

Если вы действительно имели в виду логарифмическое правдоподобие , то ответ таков: это не всегда ноль.

Например, рассмотрим данные Пуассона: $y_i \sim \text{Poisson}(\mu_i), i = 1, \ldots, n$ . Логарифмическая вероятность для $Y = (y_1, \ldots, y_n)$ определяется как:

\begin{matrix} (*) & ℓ (μ; Y) знак равно - Σ_{я знак равно 1}^{N} μ_{я} + Σ_{я знак равно 1}^{N} Y_{я} журнал μ_{я} - Σ_{я знак равно 1}^{N} журнал (Y_{я}!), \end{matrix}

$\ell(\mu; Y) = -\sum_{i = 1}^n \mu_i + \sum_{i = 1}^n y_i \log \mu_i - \sum_{i = 1}^n \log(y_i!). \tag{$*$}$

Продифференцируем $\ell(\mu; Y)$ в $(*)$ отношению к $\mu_i$ и установите его равным $0$ (вот так мы получаем MLE для насыщенной модели):

- 1 + \frac{Y_{я}}{μ_{я}} знак равно 0.

$-1 + \frac{y_i}{\mu_i} = 0.$ Решите это для

μ_{i}

$\mu_i$ получить

, подставляя

обратно в

для

даючто лог-правдоподобие насыщенной модели:

{\hat{μ}}_{i} = y_{i}

$\hat{\mu}_i = y_i$

{\hat{μ}}_{i}

$\hat{\mu}_i$

(*)

$(*)$

μ_{i}

$\mu_i$

ℓ (\hat{μ}; Y) знак равно Σ_{я знак равно 1}^{N} Y_{я} (журнал Y_{я} - 1) - Σ_{я знак равно 1}^{N} журнал (Y_{я}!) \neq 0

$\ell(\hat{\mu}; Y) = \sum_{i = 1}^n y_i(\log y_i - 1) -\sum_{i = 1}^n \log(y_i!) \neq 0$ если

y_{i}

$y_i$ принимаю очень специальные значения.

На странице справки Rфункции glm, под элементом deviance, документ объясняет эту проблему следующим образом:

deviance с точностью до константы, минус удвоенная максимальная логарифмическая вероятность. Там, где это целесообразно, постоянная выбирается так, чтобы насыщенная модель имела отклонение ноль.

Обратите внимание, что в нем упоминается, что отклонение вместо логарифмической вероятности насыщенной модели выбирается равным нулю.

Вероятно, вы действительно хотели подтвердить, что « отклонение насыщенной модели всегда задается равным нулю», что является истинным, поскольку отклонение по определению (см. Раздел 4.5.1 « Анализ категориальных данных (2-е издание) » Алана Agresti) является статистикой отношения правдоподобия указанного GLM к насыщенной модели. constantВыше в документации R фактически дважды развернутый лог-правдоподобие насыщенной модели.

Относительно вашего утверждения «Тем не менее, способ, которым дается формула отклонения, предполагает, что иногда это количество не равно нулю». Вероятно, это связано с неправильным использованием термина « отклонение» . Так , например, в R, отношение правдоподобия статистика сравнения два произвольных (вложенная) модель и также упоминаются как девиации, который будет более точно называется , как в разнице между девиацией из и девиацией из , если мы внимательно следим за определением, данным в книге Агрести. $M_1$ $M_2$ $M_1$ $M_2$

Вывод

Логарифмическая вероятность насыщенной модели в целом не равна нулю.
Отклонение (в своем первоначальном определении) насыщенной модели равно нулю.
Девиация Выход из программного обеспечения (например, R), вообще говоря, не равно нуль , как это фактически означает что - то другое (разница между отклонениями).

Ниже приводится вывод для общего случая экспоненциального семейства и другой конкретный пример. Предположим, что данные поступают из экспоненциального семейства (см. « Современная прикладная статистика с S» , глава ): $7$

\begin{matrix} (1) & е (Y_{я}; θ_{я}, φ) знак равно ехр [A_{я} (Y_{я} θ_{я} - γ (θ_{я})) / φ + τ (Y_{я}, φ / A_{я})], \end{matrix}

$f(y_i; \theta_i, \varphi) = \exp[A_i(y_i\theta_i - \gamma(\theta_i))/\varphi + \tau(y_i, \varphi/A_i)]. \tag{1}$ где

- известные предшествующие веса, а

- параметр дисперсии / масштаба (для многих случаев, таких как биномиальное и пуассоновское, этот параметр известен, в то время как для других случаев, таких как нормальное и гамма-значение, этот параметр неизвестен). Тогда логарифмическое правдоподобие определяется как:

A_{i}

$A_i$

φ

$\varphi$

Как и в примере Пуассона, параметры насыщенной модели можно оценить, решив следующуюфункциюоценки:

ℓ (θ, φ; Y) знак равно Σ_{я знак равно 1}^{N} A_{я} (Y_{я} θ_{я} - γ (θ_{я})) / φ + Σ_{я знак равно 1}^{N} τ (Y_{я}, φ / A_{я}),

$\ell(\theta, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \theta_i - \gamma(\theta_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i).$

0 знак равно U (θ_{я}) знак равно \frac{\partial ℓ (θ, φ; Y)}{\partial θ_{я}} знак равно \frac{A_{я} (Y_{я} - γ^{'} (θ_{я}))}{φ}

$0 = U(\theta_i) = \frac{\partial \ell(\theta, \varphi; Y)}{\partial \theta_i} = \frac{A_i(y_i - \gamma'(\theta_i))}{\varphi}$

$\hat{\theta}_i$

\begin{matrix} (* *) & ℓ (\hat{θ}, φ; Y) знак равно Σ_{я знак равно 1}^{N} A_{я} (Y_{я} {\hat{θ}}_{я} - γ ({\hat{θ}}_{я})) / φ + Σ_{я знак равно 1}^{N} τ (Y_{я}, φ / A_{я}), \end{matrix}

$\ell(\hat{\theta}, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \hat{\theta}_i - \gamma(\hat{\theta}_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i). \tag{$**$}$

$(**)$ $\Gamma(\alpha, \beta)$

е (Y; α, β) знак равно \frac{β^{α}}{Γ (α)} е^{- β Y} Y^{α - 1}, Y > 0, α > 0, β > 0,

$f(y; \alpha, \beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}e^{-\beta y}y^{\alpha - 1}, \quad y > 0, \alpha > 0, \beta > 0,$

f

$f$

(1)

$(1)$

φ знак равно \frac{1}{α}, θ знак равно - \frac{β}{α},

$\varphi = \frac{1}{\alpha},\, \theta = -\frac{\beta}{\alpha},$

f

$f$

е (Y; θ, φ) знак равно ехр [\frac{θ Y - (- журнал (- θ))}{φ} + τ (Y, φ)],

$f(y; \theta, \varphi) = \exp\left[\frac{\theta y - (-\log(-\theta))}{\varphi}+ \tau(y, \varphi)\right],$

τ (Y, φ) знак равно - \frac{журнал φ}{φ} + (\frac{1}{φ} - 1) журнал Y - журнал Γ (φ^{- 1}),

$\tau(y, \varphi) = -\frac{\log \varphi}{\varphi} + \left(\frac{1}{\varphi} - 1\right)\log y - \log\Gamma(\varphi^{-1}).$

{\hat{θ}}_{i} = - \frac{1}{y_{i}}

$\hat{\theta}_i = -\frac{1}{y_i}$

Σ_{я знак равно 1}^{N} \frac{1}{φ} [{\hat{θ}}_{я} Y_{я} - (- журнал (- {\hat{θ}}_{я}))] знак равно Σ_{я знак равно 1}^{N} \frac{1}{φ} [- 1 - журнал (Y_{я})] \neq 0,

$\sum_{i = 1}^n \frac{1}{\varphi}[\hat{\theta}_iy_i - (-\log(-\hat{\theta}_i))] = \sum_{i = 1}^n \frac{1}{\varphi}[-1 - \log(y_i)] \neq 0,$

y_{i}

$y_i$

— Zhanxiong
источник

Является ли логарифмическая вероятность равной нулю тогда и только тогда, когда модель может присвоить 100% вероятности каждому из возможных результатов?

— Алекс

Я не совсем понимаю, что вы имели в виду. Но из моего вывода вы можете сделать вывод, что это

0

$0$ если и только если

τ

$\tau$ идентично

0

$0$ и нет параметра дисперсии.

— Zhanxiong

Ваш вывод очень хорош, но формальное доказательство сейчас немного выше моей головы. Спасибо за ваш пример с моделью Пуассона. Что я извлек из этого примера, так это то, что модель Пуассона не может присвоить 100% -ную вероятность наблюдаемому исходу при любом значении для среднего Пуассона, поэтому вероятность не может быть нулевой.

— Алекс

Утверждение «модель назначить

100 %

$100\%$ Вероятность наблюдаемого исхода "звучит странно для меня. Вы имеете в виду, что с учетом наблюдений

y_{1}, \dots, y_{n}

$y_1, \ldots, y_n$ , и если

Y

$Y$ является случайной величиной Пуассона,

P (Y = y_{1}) + P (Y = y_{2}) + \dots + P (Y = y_{n}) < 1

$P(Y= y_1) + P(Y = y_2) + \cdots + P(Y = y_n) < 1$ ?

— Zhanxiong

Я имел в виду, что если

Y

$Y$ была случайная переменная Пуассона, то

P (Y = y_{i}) < 1

$P(Y = y_i) < 1$ для любого

i

$i$ или среднее Пуассона, таким образом, невозможно найти какой-либо модельный параметр, который дает логарифмическую вероятность нуля для наблюдаемого. Может быть, я совершенно не понимаю концепцию насыщенной модели.

— Алекс

Ответ Чжансяна уже велик (+1), но вот быстрая демонстрация того, что логарифмическая вероятность насыщенной модели $0$ для логистической регрессии. Я решил опубликовать, потому что я не видел этот TeX на этом сайте, и потому что я просто написал их для лекции.

Вероятность

\begin{matrix} (1) & L (Y; Икс, β) знак равно Π_{я знак равно 1}^{N} е (Y_{я}; {Икс}_{я}, β) знак равно Π_{я знак равно 1}^{N} π_{я}^{Y_{я}} (1 - π_{я})^{1 - Y_{я}} знак равно Π_{я знак равно 1}^{N} {(\frac{π_{я}}{1 - π_{я}})}^{Y_{я}} (1 - π_{я}) \end{matrix}

$L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) = \prod_{i=1}^n f(y_i ; \mathbf{x}_i, \boldsymbol{\beta}) = \prod_{i=1}^n \pi_i^{y_i}(1-\pi_i)^{1-y_i} = \prod_{i=1}^n\left( \frac{\pi_i}{1-\pi_i}\right)^{y_i} (1 - \pi_i) \tag{1}$ где

π_{i} = invlogit (x_{i}^{⊺} β)

$\pi_i = \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )$ ,

Логарифмическая вероятность

\begin{aligned} журнал L (Y; Икс, β) & знак равно Σ_{я знак равно 1}^{N} Y_{я} журнал (\frac{π_{я}}{1 - π_{я}}) + журнал (1 - π_{я}) \\ знак равно Σ_{я знак равно 1}^{N} Y_{я} логит (π_{я}) + журнал (1 - π_{я}) \\ знак равно Σ_{я знак равно 1}^{N} Y_{я} {Икс}_{я}^{⊺} β + журнал (1 - invlogit ({Икс}_{я}^{⊺} β)) \\ знак равно Σ_{я знак равно 1}^{N} Y_{я} {Икс}_{я}^{⊺} β + журнал (invlogit (- {Икс}_{я}^{⊺} β)) \\ знак равно Σ_{я знак равно 1}^{N} Y_{я} {Икс}_{я}^{⊺} β - журнал (1 + ехр [{Икс}_{я}^{⊺} β])) \end{aligned}

$\begin{align*} \log L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) &= \sum_{i=1}^n y_i \log \left( \frac{\pi_i}{1-\pi_i}\right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \text{logit} \left( \pi_i \right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( 1 - \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( \text{invlogit}( - \mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} - \log( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] )) \end{align*}$

Если вы берете производные по всем коэффициентам, которые вы получаете

\begin{matrix} (2) & \nabla ℓ (β) знак равно Σ_{я знак равно 1}^{N} Y_{я} {Икс}_{я} - \frac{ехр [{Икс}_{я}^{⊺} β]}{(1 + ехр [{Икс}_{я}^{⊺} β])} {Икс}_{я}, \end{matrix}

$\nabla \ell(\boldsymbol{\beta}) = \sum_{i=1}^n y_i \mathbf{x}_i - \frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }\mathbf{x}_i \tag{2}.$

Установка этого выражения равным $\mathbf{0}$ и решение для $\boldsymbol{\beta}$ даст вам ответ. Обычно это не может быть сделано аналитически, что объясняет популярность / необходимость использования итерационных алгоритмов для соответствия этой модели, но в случае насыщенной модели это возможно.

Чтобы найти насыщенную модель, мы даем каждому ряду свой коэффициент. Так $\boldsymbol{\beta} \in \mathbb{R}^n$ и матрица дизайна умножается на вектор коэффициента

Икс β знак равно [\begin{matrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 \end{matrix}] [\begin{matrix} β_{1} \\ β_{2} \\ ⋮ \\ β_{N} \end{matrix}],

$\mathbf{X}\boldsymbol{\beta} = \begin{bmatrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1\\ \end{bmatrix} \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{bmatrix}.$

Обратите внимание, что, в частности, $\mathbf{x}_i^\intercal \boldsymbol{\beta} = \beta_i$ ,

Итак, принимая $j$ Строка уравнения (2) дает нам

Σ_{я знак равно 1}^{N} Y_{я} {Икс}_{я, J} знак равно Σ_{я знак равно 1}^{N} \frac{ехр [{Икс}_{я}^{⊺} β]}{(1 + ехр [{Икс}_{я}^{⊺} β])} {Икс}_{я, J}

$\sum_{i=1}^n y_i x_{i,j} = \sum_{i=1}^n\frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }x_{i,j}$

что может быть правдой, только если для каждого наблюдения $i$ :

Y_{я} знак равно invlogit (β_{я})

$y_i = \text{invlogit}(\beta_i )$ или, другими словами, каждый

β_{i}

$\beta_i$ плюс или минус бесконечность (если

y_{i}

$y_i$ является

1

$1$ или

0

$0$ соответственно). Мы можем вставить эти параметры обратно в (1), чтобы получить максимальную вероятность:

Π_{я знак равно 1}^{N} {\hat{π}}_{я}^{Y_{я}} (1 - {\hat{π}}_{я})^{1 - Y_{я}} знак равно 1^{N} знак равно 1.

$\prod_{i=1}^n \hat{\pi}_i^{y_i}(1-\hat{\pi}_i)^{1-y_i} = 1^n = 1.$ Ясно, что журнал это

0

$0$ ,

— Тейлор
источник

Но это предполагает несгруппированные данные . Если у вас есть группы с

n_{i} > 1

$n_i>1$ (и те же самые ковариатные значения) (в R, например, используя форму glm( cbind(k, n-k) ~ x + ... ), тогда насыщенная модель не имеет логарифмического правдоподобия ноль.

— kjetil b halvorsen

@kjetilbhalvorsen о, хороший вопрос. Я никогда не пробовал это, дайте мне проверить

— Тейлор

@ Алекс: да, верно. по крайней мере, для дискретных распределений. для непрерывных распределений все сводится к тому, чтобы позволить плотности быть равной 1, что не обязательно имеет смысл и, следовательно, не является разумной вещью, которую нужно пытаться достичь. В более общем смысле логарифмическая вероятность насыщенной модели дает вам верхнюю границу производительности любой модели, которая соответствует вашему предположению о базовом семействе распределений. Другими словами, логарифмическая вероятность насыщенной биномиальной модели, которую она «хорошо получает» для данного набора данных (X, Y), предполагая, что Y является биномиальной. Имеет смысл сравнить вашу модель glm с этой верхней границей, а не, скажем, на 100% (или аналогичной), поскольку ваша модель по своей природе ограничена вашим предположением о распределении ответов.

— bettmensch88
источник