Логистическая регрессия: переменные Бернулли против биномиального ответа

Я хочу выполнить логистическую регрессию со следующим биномиальным ответом и с и качестве моих предикторов. $X_1$ $X_2$

введите описание изображения здесь

Я могу представить те же данные, что и ответы Бернулли, в следующем формате.

введите описание изображения здесь

Результаты логистической регрессии для этих двух наборов данных в основном одинаковы. Остатки отклонения и AIC различны. (Разница между нулевым отклонением и остаточным отклонением одинакова в обоих случаях - 0,228.)

Ниже приведены результаты регрессии из R. Наборы данных называются binom.data и bern.data.

Вот биномиальный вывод.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Вот результат Бернулли.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Мои вопросы:

1) Я вижу, что точечные оценки и стандартные ошибки между двумя подходами в данном конкретном случае эквивалентны. Верна ли эта эквивалентность вообще?

2) Как ответ на вопрос № 1 может быть математически обоснован?

3) Почему отклонения отклонения и AIC различны?

— Ученый
источник

Ответы:

1) да. Вы можете агрегировать / деагрегировать (?) Биномиальные данные от людей с одинаковыми ковариатами. Это происходит из-за того, что достаточной статистикой для биномиальной модели является общее число событий для каждого ковариантного вектора; а Бернулли - это особый случай бинома. Интуитивно понятно, что каждое исследование Бернулли, которое составляет биномиальный результат, является независимым, поэтому не должно быть разницы между тем, чтобы считать их как один результат или как отдельные индивидуальные испытания.

2) Скажем, у нас есть уникальных ковариатных векторов , каждый из которых имеет биномиальный результат в испытаниях, т. Вы указали модель логистической регрессии, поэтому $n$ $x_1, x_2, \ldots, x_n$ $N_i$

Y_{я} ~ В я N (N_{я}, п_{я})

$Y_i \sim \mathrm{Bin}(N_i, p_i)$

L о г я T (п_{я}) знак равно Σ_{К знак равно 1}^{К} β_{К} {Икс}_{я К}

$\mathrm{logit}(p_i) = \sum_{k=1}^K \beta_k x_{ik}$ хотя позже мы увидим, что это не важно.

Логарифмическая вероятность для этой модели: и мы максимизируем это по отношению к (в терминах ), чтобы получить наши оценки параметров.

ℓ (β; Y) знак равно Σ_{я знак равно 1}^{N} журнал (\binom{N_{я}}{Y_{я}}) + Y_{я} журнал (п_{я}) + (N_{я} - Y_{я}) журнал (1 - п_{я})

$\ell(\beta; Y) = \sum_{i=1}^n \log {N_i \choose Y_i} + Y_i \log(p_i) + (N_i - Y_i) \log(1-p_i)$

β

$\beta$

p_{i}

$p_i$

Теперь предположим, что для каждого мы разбиваем биномиальный результат на отдельных результатов Бернулли / бинарных, как вы это сделали. В частности, создайте То есть, первые равны 1 с, а остальные равны 0. Это именно то, что вы сделали, но вы могли бы в равной степени сделать первое как 0, а остальные как 1 или как-нибудь иначе, верно? $i = 1, \ldots, n$ $N_i$

Z_{я 1}, ..., Z_{я Y_{я}} знак равно 1

$Z_{i1}, \ldots, Z_{iY_i} = 1$

Z_{я (Y_{я} + 1)}, ..., Z_{я N_{я}} знак равно 0

$Z_{i(Y_i+1)}, \ldots, Z_{iN_i} = 0$

Y_{i}

$Y_i$

(N_{i} - Y_{i})

$(N_i - Y_i)$

Ваша вторая модель говорит, что с той же моделью регрессии для что и выше. Логарифмическая вероятность для этой модели: и благодаря тому, как мы определили наши s, это можно упростить до который должен выглядеть довольно знакомым.

Z_{я J} ~ В е р N о U L L я (п_{я})

$Z_{ij} \sim \mathrm{Bernoulli}(p_i)$

p_{i}

$p_i$

ℓ (β; Z) знак равно Σ_{я знак равно 1}^{N} Σ_{J знак равно 1}^{N_{я}} Z_{я J} журнал (п_{я}) + (1 - Z_{я J}) журнал (1 - п_{я})

$\ell(\beta; Z) = \sum_{i=1}^n \sum_{j=1}^{N_i} Z_{ij}\log(p_i) + (1-Z_{ij})\log(1-p_i)$

Z_{i j}

$Z_{ij}$

ℓ (β; Y) знак равно Σ_{я знак равно 1}^{N} Y_{я} журнал (п_{я}) + (N_{я} - Y_{я}) журнал (1 - п_{я})

$\ell(\beta; Y) = \sum_{i=1}^n Y_i \log(p_i) + (N_i - Y_i)\log(1-p_i)$

Чтобы получить оценки во второй модели, мы максимизируем это по отношению к . Единственная разница между этим и первым логарифмическим правдоподобием - это термин , который является постоянным по отношению к и поэтому не влияет на максимизацию, и мы получим те же оценки. $\beta$ $\log {N_i \choose Y_i}$ $\beta$

3) Каждое наблюдение имеет остаток отклонения. В биномиальной модели они имеют вид где - предполагаемая вероятность вашей модели. Обратите внимание, что ваша биномиальная модель насыщена (0 остаточных степеней свободы) и идеально подходит: для всех наблюдений, поэтому для всех .

D_{я} знак равно 2 [Y_{я} журнал (\frac{Y_{я} / N_{я}}{{\hat{п}}_{я}}) + (N_{я} - Y_{я}) журнал (\frac{1 - Y_{я} / N_{я}}{1 - {\hat{п}}_{я}})]

$D_i = 2\left[Y_i \log \left( \frac{Y_i/N_i}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1-Y_i/N_i}{1-\hat{p}_i} \right)\right]$

{\hat{p}}_{i}

$\hat{p}_i$

{\hat{p}}_{i} = Y_{i} / N_{i}

$\hat{p}_i = Y_i/N_i$

D_{i} = 0

$D_i = 0$

i

$i$

В модели Бернулли Помимо того, что теперь у вас будет отклонения (вместо как с биномиальными данными), каждый из них будет либо либо зависимости от того, или , и, очевидно, не такие, как указано выше. Даже если вы сложите их по чтобы получить сумму остатков отклонения для каждого , вы не получите то же самое:

D_{я J} знак равно 2 [Z_{я J} журнал (\frac{Z_{я J}}{{\hat{п}}_{я}}) + (1 - Z_{я J}) журнал (\frac{1 - Z_{я J}}{1 - {\hat{п}}_{я}})]

$D_{ij} = 2\left[Z_{ij} \log \left( \frac{Z_{ij}}{\hat{p}_i} \right) + (1-Z_{ij}) \log \left(\frac{1-Z_{ij}}{1-\hat{p}_i} \right)\right]$

\sum_{i = 1}^{n} N_{i}

$\sum_{i=1}^n N_i$

n

$n$

D_{я J} знак равно - 2 журнал ({\hat{п}}_{я})

$D_{ij} = -2\log(\hat{p}_i)$

D_{я J} знак равно - 2 журнал (1 - {\hat{п}}_{я})

$D_{ij} = -2\log(1-\hat{p}_i)$

Z_{i j} = 1

$Z_{ij} = 1$

0

$0$

j

$j$

i

$i$

D_{я} знак равно Σ_{J знак равно 1}^{N_{я}} D_{я J} знак равно 2 [Y_{я} журнал (\frac{1}{{\hat{п}}_{я}}) + (N_{я} - Y_{я}) журнал (\frac{1}{1 - {\hat{п}}_{я}})]

$D_i = \sum_{j=1}^{N_i} D_{ij} = 2\left[Y_i \log \left( \frac{1}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1}{1-\hat{p}_i} \right)\right]$

Тот факт, что AIC отличается (но изменения в отклонении нет), возвращается к постоянному члену, который был разницей между логарифмическими правдоподобиями двух моделей. При расчете отклонения это исключается, поскольку оно одинаково во всех моделях на основе одних и тех же данных. AIC определяется как и этот комбинаторный термин представляет собой разницу между s:

A я С знак равно 2 К - 2 ℓ

$AIC = 2K - 2\ell$

ℓ

$\ell$

A я С_{В е р N о U L L я} - A я С_{В я N о м я a L} знак равно 2 Σ_{я знак равно 1}^{N} журнал (\binom{N_{я}}{Y_{я}}) знак равно 9,575

$AIC_{\mathrm{Bernoulli}} - AIC_{\mathrm{Binomial}} = 2\sum_{i=1}^n \log {N_i \choose Y_i} = 9.575$

— отметка
источник

Спасибо за ваш очень подробный ответ, Марк! Извините за задержку с моим ответом - я был в отпуске. 3) Учитывая, что две модели дают разные результаты для отклонений по отклонениям и AIC, какая из них является правильной или лучшей? а) Как я понимаю, наблюдения с остатком отклонения, превышающим два, могут указывать на недостаточную подгонку, поэтому абсолютные значения остатков отклонения имеют значение. б) Поскольку AIC используется для сравнения соответствия между различными моделями, возможно, не существует «правильного» AIC. Я бы просто сравнил AIC 2-х биномиальных моделей или 2-х моделей Бернулли.

— Ученый

a) Для двоичных данных будет> 2, если либо ( и ), либо ( и ). Таким образом, даже если ваша модель идеально подходит для биномиальных данных для го ковариатного вектора (например, ), то которые вы произвольно выделили как 1 будет иметь . По этой причине, я думаю, что остатки отклонения имеют больше смысла с биномиальными данными. Кроме того, само отклонение для двоичных данных не имеет своих обычных свойств ...

D_{i j}

$D_{ij}$

Z_{i j} = 1

$Z_{ij} = 1$

{\hat{p}}_{i} < e^{- 1} = 0.368

$\hat{p}_i < e^{-1} = 0.368$

Z_{i j} = 0

$Z_{ij} = 0$

{\hat{p}}_{i} > 1 - e^{- 1} = 0.632

$\hat{p}_i > 1 - e^{-1} = 0.632$

i

$i$

Y_{i} / N_{i} = {\hat{p}}_{i} < 0.368

$Y_i / N_i = \hat{p}_i < 0.368$

Y_{i}

$Y_i$

Z_{i j}

$Z_{ij}$

D_{i j} > 2

$D_{ij} > 2$

— Марк

... Ссылка на дополнительную информацию об этом последнем заявлении

— Марк

б) Да, сравнение между моделями имеет смысл только тогда, когда данные, используемые для подбора каждой модели, абсолютно одинаковы. Поэтому сравните Бернулли с Бернулли или биномиальным с биномиальным.

A I C

$AIC$

— Марка

Спасибо, Марк! Ваши вдумчивые и подробные ответы очень ценятся!

— Ученый

Я просто хочу прокомментировать последний абзац: «Тот факт, что AIC отличается (но изменение отклонения отсутствует), возвращает нас к постоянному термину, который представлял собой разницу между логарифмическими правдоподобиями двух моделей. При расчете изменения отклонения это исключается, поскольку оно одинаково во всех моделях, основанных на одних и тех же данных. "К сожалению, это не правильно для изменения отклонения. Отклонение не включает в себя постоянный член Ex (дополнительная постоянная термин в логарифмической вероятности для биномиальных данных). Таким образом, изменение отклонения не имеет ничего общего с постоянным членом EX. Отклонение сравнивает данную модель с полной моделью. Тот факт, что отклонения отличаются от Бернулли / двоичного и биномиальное моделирование, но изменение отклонения не происходит из-за разницы в полных значениях логарифмической вероятности модели. Эти значения исключаются при расчете изменений отклонения. Следовательно, модели Бернулли и биномиальной логистической регрессии дают одинаковые изменения отклонения при условии, что прогнозируемые вероятности pij и pi одинаковы. Фактически, это верно для пробита и других функций связи.

Пусть lBm и lBf обозначают значения логарифмического правдоподобия от подгонки модели m и полной модели f к данным Бернулли. Девиация тогда

    DB=2(lBf - lBm)=-2(lBm – lBf).

Хотя для двоичных данных lBf равен нулю, мы не упростили БД и сохранили ее как есть. Отклонение от биномиального моделирования с теми же ковариатами

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

где lbf + Ex и lbm + Ex - значения логарифмического правдоподобия полной и m моделей, адаптированных к биномиальным данным. Дополнительный постоянный член (Ех) исчез с правой стороны Db. Теперь посмотрим на изменение отклонений от Модели 1 до Модели 2. Из моделирования Бернулли мы имеем изменение отклонения

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Точно так же изменение отклонения от биномиального соответствия

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Из этого сразу следует, что изменения отклонения свободны от логарифмических вероятностных вкладов от полных моделей, lBf и lbf. Следовательно, мы получим такое же изменение отклонения, DBC = DbC, если lBm1 = lbm1 и lBm2 = lbm2. Мы знаем, что это так и есть, и именно поэтому мы получаем такие же отклонения от Бернулли и биномиального моделирования. Разница между lbf и lBf приводит к различным отклонениям.

— SAEI
источник

Возможно ли вам отредактировать форматирование вашего ответа? К сожалению, в этой форме это не очень читабельно. Я бы посоветовал вам затормозить текст в абзацах и добавить в формулы форматирование . Также не всегда понятно, что означают используемые вами сокращения.

T E X

$\TeX$

— Тим

Большое спасибо, Тим. Я не знаком с форматированием TEX. Первоначально я набрал в Word, но я не смог скопировать и вставить. Я отделил уравнения от текста.

— Saei

Я не уверен, что вы неправильно прочитали этот абзац: я сказал, что «AIC отличается ( но изменения в отклонении нет )», а в оставшейся части параграфа объясняется, почему AIC отличается между двумя моделями. Я не утверждал, что изменение отклонения зависит от постоянного члена. Фактически, я сказал: « При расчете изменения отклонения этот [постоянный член] исключается, потому что он одинаков во всех моделях, основанных на одних и тех же данных »

— Марк

Проблема в том, что в тексте есть только один «постоянный термин», и это комбинаторный термин (биномиальный коэффициент). Когда вы говорите, что «это» отменяется, это означает, что постоянный член включен в отклонение. Разница между отклонениями от модели Бернулли и биномиальной модели заключается в вкладе логарифмического значения правдоподобия lbf от полной модели. Величина lbf не изменяется в разных биномиальных моделях для одних и тех же данных и аннулируется при расчете изменения отклонения.

— Saei

Ах, хорошо, я понимаю, что вы имеете в виду. Я соответственно отредактировал свой ответ, оставив ссылку на изменение отклонения, потому что спрашивающий специально упомянул об этом. Изменение в отклонении такое же, потому что отклонение не зависит от постоянного члена.

— Mark