Если вы добавляете в модель только этого одиночного предиктора, то отношение шансов между предиктором и откликом будет точно равно экспоненциальному коэффициенту регрессии . Я не думаю, что вывод этого результата в настоящее время присутствует на сайте, поэтому я воспользуюсь этой возможностью, чтобы предоставить его.
Рассмотрим двоичный результат и один двоичный предиктор X :YX
X=1X=0Y=1p11p01Y=0p10p00
Тогда одним из способов расчета отношения шансов между и Y i являетсяXiYi
OR=p11p00p01p10
По определению условной вероятности . В этом соотношении предельные вероятности, включающие X, отменяются, и вы можете переписать отношение шансов в терминах условных вероятностей Y | X :pij=P(Y=i|X=j)⋅P(X=j)XY|X
OR=P(Y=1|X=1)P(Y=0|X=1)⋅P(Y=0|X=0)P(Y=1|X=0)
В логистической регрессии вы моделируете эти вероятности напрямую:
log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi
Таким образом, мы можем рассчитать эти условные вероятности непосредственно из модели. Первое соотношение в выражении для выше:OR
P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e−(β0+β1))(e−(β0+β1)1+e−(β0+β1))=1e−(β0+β1)=e(β0+β1)
а второй это:
P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(e−β01+e−β0)(11+e−β0)=e−β0
OR=e(β0+β1)⋅e−β0=eβ1
Z1,...,Zp
P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)⋅P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)
so it is the odds ratio conditional on the values of the other predictors in the model and, in general, in not equal to
P(Y=1|X=1)P(Y=0|X=1)⋅P(Y=0|X=0)P(Y=1|X=0)
So, it is no surprise that you're observing a discrepancy between the exponentiated coefficient and the observed odds ratio.
Note 2: I derived a relationship between the true β and the true odds ratio but note that the same relationship holds for the sample quantities since the fitted logistic regression with a single binary predictor will exactly reproduce the entries of a two-by-two table. That is, the fitted means exactly match the sample means, as with any GLM. So, all of the logic used above applies with the true values replaced by sample quantities.