В чем разница между логит-трансформированной линейной регрессией, логистической регрессией и логистической смешанной моделью?


10

Предположим, у меня есть 10 учеников, каждый из которых пытается решить 20 математических задач. Задачи оцениваются правильно или неправильно (в длинных данных), и результаты каждого учащегося можно суммировать с помощью показателя точности (в подчиненных данных). Модели 1, 2 и 4 ниже дают разные результаты, но я понимаю, что они делают то же самое. Почему они дают разные результаты? (Я включил модель 3 для справки.)

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

Я также пробовал бета-регрессию, но получил ошибку ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)
user20061

library(car)необходим для функции logit.
user20061

1
Это может помочь вам прочитать два моих ответа на связанные вопросы: Разница между логит-моделями и пробит-моделями (в которой обсуждаются функции ссылок и GLiM в целом - комментарий в конце конкретно касается ваших 1 и 3), & Разница между обобщенными линейными моделями & обобщенные линейные смешанные модели (в которых обсуждается, чем ваша 4 отличается от 1 и 3).
gung - Восстановить Монику

Ответы:


15

Модели 1 и 2 отличаются, потому что первая преобразует ответ, а вторая преобразует его ожидаемое значение.

Для модели 1 логит каждого ответа обычно распределяется со средним значением являясь линейной функцией вектора предиктора и коэффициента. & следовательно Для модели 2 сам ответ обычно распространяется с логитом его среднего значения, являющимся линейной функцией предиктора и векторов коэффициентов &, следовательно,

logitYiN(μi,σ2)
μi=xiβ
Yi=logit1(xiβ+εi)
YiN(μi,σ2)
logitμi=xiβ
Yi=logit1(xiβ)+εi

Так что структура дисперсии будет другой. Представьте себе моделирование из Модели 2: дисперсия не будет зависеть от ожидаемого значения; И хотя ожидаемые значения ответов будут между 0 и 1, ответы не будут все.

Обобщенные линейные смешанные модели, подобные вашей модели 4, снова отличаются, потому что они содержат случайные эффекты: см. Здесь и здесь .


Большое спасибо - это очень четко различает модель 1 и модель 2. Ваши рассуждения о том, что модель 2 предсказывает, что некоторые показатели точности (но не их ожидаемые значения) находятся за пределами [0,1], особенно полезны (и дисквалифицируют это для моих целей ). Я полагаю, что аналогичная интуиция может быть использована против модели 1: ее диапазон возможных прогнозируемых показателей точности падает в (0,1), а не в [0,1]. При ограниченном количестве вопросов модель должна прогнозировать, что некоторые оценки точности равны 0 или 1, и биномиальное распределение может сделать именно это.
user20061

2
Обратите внимание, что вы обычно должны сопоставлять биномиальный GLM с логит-связью с необработанными данными (вашими longdata), а не с пропорциями, как в вашей модели 3.
Scortchi - Восстановить Монику

7

+1 к @Scortchi, который дал очень четкий и краткий ответ. Я хочу сделать пару дополнительных замечаний. Во-первых, для вашей второй модели вы указываете, что ваше распределение ответов является гауссовым (иначе нормальным). Это должно быть ложно, потому что каждый ответ оценивается как правильный или неправильный. То есть каждый ответ - это испытание Бернулли. Таким образом, ваше распределение ответов является биномиальным. Эта идея точно отражена и в вашем коде. Далее, вероятность, которая управляет распределением ответов, обычно распределяется, поэтому ссылка должна быть пробитной, а не логитовой. Наконец, если бы это была реальная ситуация, вам нужно было бы учитывать случайные эффекты как для предметов, так и для вопросов, поскольку они вряд ли будут идентичны. То, как вы генерировали эти данные, единственным значимым аспектом каждого человека является их IQ, которые вы учли явно. Таким образом, не осталось ничего, что могло бы быть объяснено случайным эффектом в модели. Это также верно для вопросов, потому что случайные изменения сложности вопроса не являются частью процесса генерации данных в вашем коде.

Я не хочу придираться здесь. Я признаю, что ваша установка просто разработана, чтобы облегчить ваш вопрос, и она послужила этой цели; @Scortchi смогла ответить на ваши вопросы очень напрямую, с минимальными усилиями. Тем не менее, я указываю на эти вещи, потому что они предоставляют дополнительные возможности для понимания ситуации, с которой вы сталкиваетесь, и потому, что вы, возможно, не поняли, что ваш код соответствует некоторым частям вашей основной сюжетной линии, но не другим.


Спасибо за такие осторожные мысли о моем коде. Как человек, который работает с эмпирическими данными, я с гордостью могу сказать, что у меня нет опыта в создании поддельных данных, и это проявляется здесь в выявленных вами недостатках. Хотя, мой уровень понимания новичка может также показывать себя.
user20061

Спасибо, gung, что дополнительная информация была полезна и помогает другим (по крайней мере, мне) понять ситуацию немного лучше. Получить контроль над подходом GLM сложно.
Кристофер Пойл
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.