Коэффициент экспоненциальной логистической регрессии отличается от отношения шансов


10

Насколько я понимаю, возведенное в степень значение бета из логистической регрессии - это отношение шансов этой переменной для зависимой переменной, представляющей интерес. Однако это значение не соответствует рассчитанному вручную коэффициенту шансов. Моя модель предсказывает задержку роста (показатель недоедания) с использованием, среди прочего, страховки.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Какова концептуальная причина того, что эти ценности отличаются? Контроль за другими факторами в регрессии? Просто хочу быть в состоянии объяснить несоответствие.


2
Вы вводите дополнительные предикторы в модель логистической регрессии? Рассчитанный вручную коэффициент шансов будет соответствовать только коэффициенту шансов, который вы получите из логистической регрессии, если вы не включите другие предикторы.
Макрос

Это то, что я понял, но хотел подтверждения. Это потому, что результатом регрессии является учет вариаций других предикторов?
Майк

Да, @mike. Предполагая, что модель указана правильно, вы можете интерпретировать ее как отношение шансов, когда все другие предикторы фиксированы.
Макрос

@Macro: не могли бы вы повторить свой комментарий в качестве ответа?
Джренни

Ответы:


22

Если вы добавляете в модель только этого одиночного предиктора, то отношение шансов между предиктором и откликом будет точно равно экспоненциальному коэффициенту регрессии . Я не думаю, что вывод этого результата в настоящее время присутствует на сайте, поэтому я воспользуюсь этой возможностью, чтобы предоставить его.


Рассмотрим двоичный результат и один двоичный предиктор X :YX

Y=1Y=0X=1p11p10X=0p01p00

Тогда одним из способов расчета отношения шансов между и Y i являетсяXiYi

OR=p11p00p01p10

По определению условной вероятности . В этом соотношении предельные вероятности, включающие X, отменяются, и вы можете переписать отношение шансов в терминах условных вероятностей Y | X :pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

В логистической регрессии вы моделируете эти вероятности напрямую:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

Таким образом, мы можем рассчитать эти условные вероятности непосредственно из модели. Первое соотношение в выражении для выше:OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

а второй это:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

OR=e(β0+β1)eβ0=eβ1

Z1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

so it is the odds ratio conditional on the values of the other predictors in the model and, in general, in not equal to

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

So, it is no surprise that you're observing a discrepancy between the exponentiated coefficient and the observed odds ratio.

Note 2: I derived a relationship between the true β and the true odds ratio but note that the same relationship holds for the sample quantities since the fitted logistic regression with a single binary predictor will exactly reproduce the entries of a two-by-two table. That is, the fitted means exactly match the sample means, as with any GLM. So, all of the logic used above applies with the true values replaced by sample quantities.


2
Wow, thanks for taking the time to write out such a complete explanation.
mike

@Macro I found that "p-value being less than 0.05" and "95% CI does not include 1" are not consistent in logistic regression (I used SAS). Is this phenomenon related to your explanation?
user67275

4

You have a really nice answer from @Macro (+1), who has pointed out that the simple (marginal) odds ratio calculated without reference to a model and the odds ratio taken from a multiple logistic regression model (exp(β)) are in general not equal. I wonder if I can still contribute a little bit of related information here, in particular explaining when they will and will not be equal.

Beta values in logistic regression, like in OLS regression, specify the ceteris paribus change in the parameter governing the response distribution associated with a 1-unit change in the covariate. (For logistic regression, this is a change in the logit of the probability of 'success', whereas for OLS regression it is the mean, μ.) That is, it is the change all else being equal. Exponentiated betas are similarly ceteris paribus odds ratios. Thus, the first issue is to be sure that it is possible for this to be meaningful. Specifically, the covariate in question should not exist in other terms (e.g., in an interaction, or a polynomial term) elsewhere in the model. (Note that here I am referring to terms that are included in your model, but there are also problems if the true relationship varies across levels of another covariate but an interaction term was not included, for example.) Once we've established that it's meaningful to calculate an odds ratio by exponentiating a beta from a logistic regression model, we can ask the questions of when will the model-based and marginal odds ratios differ, and which should you prefer when they do?

The reason that these ORs will differ is because the other covariates included in your model are not orthogonal to the one in question. For example, you can check by running a simple correlation between your covariates (it doesn't matter what the p-values are, or if your covariates are 0/1 instead of continuous, the point is simply that r0). On the other hand, when all of your other covariates are orthogonal to the one in question, exp(β) will equal the marginal OR.

If the marginal OR and the model-based OR differ, you should use / interpret the model-based version. The reason is that the marginal OR does not account for the confounding amongst your covariates, whereas the model does. This phenomenon is related to Simpson's Paradox, which you may want to read about (SEP also has a good entry, there is a discussion on CV here: Basic-simpson's-paradox, and you can search on CV's tag). For the sake of simplicity and practicality, you may want to just only use the model based OR, since it will be either clearly preferable or the same.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.