Логистическая регрессия: переменные Бернулли против биномиального ответа


32

Я хочу выполнить логистическую регрессию со следующим биномиальным ответом и с и качестве моих предикторов. Икс1Икс2

введите описание изображения здесь

Я могу представить те же данные, что и ответы Бернулли, в следующем формате.

введите описание изображения здесь

Результаты логистической регрессии для этих двух наборов данных в основном одинаковы. Остатки отклонения и AIC различны. (Разница между нулевым отклонением и остаточным отклонением одинакова в обоих случаях - 0,228.)

Ниже приведены результаты регрессии из R. Наборы данных называются binom.data и bern.data.

Вот биномиальный вывод.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Вот результат Бернулли.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Мои вопросы:

1) Я вижу, что точечные оценки и стандартные ошибки между двумя подходами в данном конкретном случае эквивалентны. Верна ли эта эквивалентность вообще?

2) Как ответ на вопрос № 1 может быть математически обоснован?

3) Почему отклонения отклонения и AIC различны?

Ответы:


24

1) да. Вы можете агрегировать / деагрегировать (?) Биномиальные данные от людей с одинаковыми ковариатами. Это происходит из-за того, что достаточной статистикой для биномиальной модели является общее число событий для каждого ковариантного вектора; а Бернулли - это особый случай бинома. Интуитивно понятно, что каждое исследование Бернулли, которое составляет биномиальный результат, является независимым, поэтому не должно быть разницы между тем, чтобы считать их как один результат или как отдельные индивидуальные испытания.

2) Скажем, у нас есть уникальных ковариатных векторов x 1 , x 2 , , x n , каждый из которых имеет биномиальный результат в N i испытаниях, т. Е. Y iB i n ( N i , p i ). Вы указали модель логистической регрессии, поэтому l o g i t ( p i ) = K k = 1 β k x i kNИкс1,Икс2,...,ИксNNя

Yя~ВяN(Nя,пя)
LогяT(пя)знак равноΣКзнак равно1КβКИксяК
хотя позже мы увидим, что это не важно.

Логарифмическая вероятность для этой модели: и мы максимизируем это по отношению к (в терминах ), чтобы получить наши оценки параметров.βpi

(β;Y)знак равноΣязнак равно1Nжурнал(NяYя)+Yяжурнал(пя)+(Nя-Yя)журнал(1-пя)
βпя

Теперь предположим, что для каждого мы разбиваем биномиальный результат на отдельных результатов Бернулли / бинарных, как вы это сделали. В частности, создайте То есть, первые равны 1 с, а остальные равны 0. Это именно то, что вы сделали, но вы могли бы в равной степени сделать первое как 0, а остальные как 1 или как-нибудь иначе, верно?язнак равно1,...,NNя

Zя1,...,ZяYязнак равно1
Zя(Yя+1),...,ZяNязнак равно0
Yя(Nя-Yя)

Ваша вторая модель говорит, что с той же моделью регрессии для что и выше. Логарифмическая вероятность для этой модели: и благодаря тому, как мы определили наши s, это можно упростить до который должен выглядеть довольно знакомым.

ZяJ~ВерNоULLя(пя)
пя
(β;Z)знак равноΣязнак равно1NΣJзнак равно1NяZяJжурнал(пя)+(1-ZяJ)журнал(1-пя)
ZяJ
(β;Y)знак равноΣязнак равно1NYяжурнал(пя)+(Nя-Yя)журнал(1-пя)

Чтобы получить оценки во второй модели, мы максимизируем это по отношению к . Единственная разница между этим и первым логарифмическим правдоподобием - это термин , который является постоянным по отношению к и поэтому не влияет на максимизацию, и мы получим те же оценки.βжурнал(NяYя)β

3) Каждое наблюдение имеет остаток отклонения. В биномиальной модели они имеют вид где - предполагаемая вероятность вашей модели. Обратите внимание, что ваша биномиальная модель насыщена (0 остаточных степеней свободы) и идеально подходит: для всех наблюдений, поэтому для всех .

Dязнак равно2[Yяжурнал(Yя/Nяп^я)+(Nя-Yя)журнал(1-Yя/Nя1-п^я)]
п^яп^язнак равноYя/NяDязнак равно0я

В модели Бернулли Помимо того, что теперь у вас будет отклонения (вместо как с биномиальными данными), каждый из них будет либо либо зависимости от того, или , и, очевидно, не такие, как указано выше. Даже если вы сложите их по чтобы получить сумму остатков отклонения для каждого , вы не получите то же самое:

DяJзнак равно2[ZяJжурнал(ZяJп^я)+(1-ZяJ)журнал(1-ZяJ1-п^я)]
Σязнак равно1NNяN
DяJзнак равно-2журнал(п^я)
DяJзнак равно-2журнал(1-п^я)
ZяJзнак равно10Jя
Dязнак равноΣJзнак равно1NяDяJзнак равно2[Yяжурнал(1п^я)+(Nя-Yя)журнал(11-п^я)]

Тот факт, что AIC отличается (но изменения в отклонении нет), возвращается к постоянному члену, который был разницей между логарифмическими правдоподобиями двух моделей. При расчете отклонения это исключается, поскольку оно одинаково во всех моделях на основе одних и тех же данных. AIC определяется как и этот комбинаторный термин представляет собой разницу между s:

AяСзнак равно2К-2

AяСВерNоULLя-AяСВяNомяaLзнак равно2Σязнак равно1Nжурнал(NяYя)знак равно9,575

Спасибо за ваш очень подробный ответ, Марк! Извините за задержку с моим ответом - я был в отпуске. 3) Учитывая, что две модели дают разные результаты для отклонений по отклонениям и AIC, какая из них является правильной или лучшей? а) Как я понимаю, наблюдения с остатком отклонения, превышающим два, могут указывать на недостаточную подгонку, поэтому абсолютные значения остатков отклонения имеют значение. б) Поскольку AIC используется для сравнения соответствия между различными моделями, возможно, не существует «правильного» AIC. Я бы просто сравнил AIC 2-х биномиальных моделей или 2-х моделей Бернулли.
Ученый

a) Для двоичных данных будет> 2, если либо ( и ), либо ( и ). Таким образом, даже если ваша модель идеально подходит для биномиальных данных для го ковариатного вектора (например, ), то которые вы произвольно выделили как 1 будет иметь . По этой причине, я думаю, что остатки отклонения имеют больше смысла с биномиальными данными. Кроме того, само отклонение для двоичных данных не имеет своих обычных свойств ... Z я J = 1 р я < е - 1 = 0,368 Z я J = 0 р я > 1 - е - 1 = 0,632 я Y я / Н я = р я < 0,368 Y я Z я J Д я J > 2DяJZяJзнак равно1п^я<е-1знак равно0,368ZяJзнак равно0п^я>1-е-1знак равно0,632яYя/Nязнак равноп^я<0,368Yя ZяJDяJ>2
Марк


1
б) Да, сравнение между моделями имеет смысл только тогда, когда данные, используемые для подбора каждой модели, абсолютно одинаковы. Поэтому сравните Бернулли с Бернулли или биномиальным с биномиальным. AяС
Марка

Спасибо, Марк! Ваши вдумчивые и подробные ответы очень ценятся!
Ученый

0

Я просто хочу прокомментировать последний абзац: «Тот факт, что AIC отличается (но изменение отклонения отсутствует), возвращает нас к постоянному термину, который представлял собой разницу между логарифмическими правдоподобиями двух моделей. При расчете изменения отклонения это исключается, поскольку оно одинаково во всех моделях, основанных на одних и тех же данных. "К сожалению, это не правильно для изменения отклонения. Отклонение не включает в себя постоянный член Ex (дополнительная постоянная термин в логарифмической вероятности для биномиальных данных). Таким образом, изменение отклонения не имеет ничего общего с постоянным членом EX. Отклонение сравнивает данную модель с полной моделью. Тот факт, что отклонения отличаются от Бернулли / двоичного и биномиальное моделирование, но изменение отклонения не происходит из-за разницы в полных значениях логарифмической вероятности модели. Эти значения исключаются при расчете изменений отклонения. Следовательно, модели Бернулли и биномиальной логистической регрессии дают одинаковые изменения отклонения при условии, что прогнозируемые вероятности pij и pi одинаковы. Фактически, это верно для пробита и других функций связи.

Пусть lBm и lBf обозначают значения логарифмического правдоподобия от подгонки модели m и полной модели f к данным Бернулли. Девиация тогда

    DB=2(lBf - lBm)=-2(lBm – lBf).

Хотя для двоичных данных lBf равен нулю, мы не упростили БД и сохранили ее как есть. Отклонение от биномиального моделирования с теми же ковариатами

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

где lbf + Ex и lbm + Ex - значения логарифмического правдоподобия полной и m моделей, адаптированных к биномиальным данным. Дополнительный постоянный член (Ех) исчез с правой стороны Db. Теперь посмотрим на изменение отклонений от Модели 1 до Модели 2. Из моделирования Бернулли мы имеем изменение отклонения

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Точно так же изменение отклонения от биномиального соответствия

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Из этого сразу следует, что изменения отклонения свободны от логарифмических вероятностных вкладов от полных моделей, lBf и lbf. Следовательно, мы получим такое же изменение отклонения, DBC = DbC, если lBm1 = lbm1 и lBm2 = lbm2. Мы знаем, что это так и есть, и именно поэтому мы получаем такие же отклонения от Бернулли и биномиального моделирования. Разница между lbf и lBf приводит к различным отклонениям.


6
Возможно ли вам отредактировать форматирование вашего ответа? К сожалению, в этой форме это не очень читабельно. Я бы посоветовал вам затормозить текст в абзацах и добавить в формулы форматирование . Также не всегда понятно, что означают используемые вами сокращения. TЕИкс
Тим

Большое спасибо, Тим. Я не знаком с форматированием TEX. Первоначально я набрал в Word, но я не смог скопировать и вставить. Я отделил уравнения от текста.
Saei

Я не уверен, что вы неправильно прочитали этот абзац: я сказал, что «AIC отличается ( но изменения в отклонении нет )», а в оставшейся части параграфа объясняется, почему AIC отличается между двумя моделями. Я не утверждал, что изменение отклонения зависит от постоянного члена. Фактически, я сказал: « При расчете изменения отклонения этот [постоянный член] исключается, потому что он одинаков во всех моделях, основанных на одних и тех же данных »
Марк

Проблема в том, что в тексте есть только один «постоянный термин», и это комбинаторный термин (биномиальный коэффициент). Когда вы говорите, что «это» отменяется, это означает, что постоянный член включен в отклонение. Разница между отклонениями от модели Бернулли и биномиальной модели заключается в вкладе логарифмического значения правдоподобия lbf от полной модели. Величина lbf не изменяется в разных биномиальных моделях для одних и тех же данных и аннулируется при расчете изменения отклонения.
Saei

Ах, хорошо, я понимаю, что вы имеете в виду. Я соответственно отредактировал свой ответ, оставив ссылку на изменение отклонения, потому что спрашивающий специально упомянул об этом. Изменение в отклонении такое же, потому что отклонение не зависит от постоянного члена.
Mark
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.