Я работаю над ответом на мой вопрос, вычисляя вручную соотношение шансов и шансов:
Acceptance blue red Grand Total
0 158 102 260
1 112 177 289
Total 270 279 549
Таким образом, коэффициент вероятности попадания в школу Red over Blue:
О д д ы с с е р т я е R e dО д д ы с с с е р т я е Б л у йзнак равно177/102112/158= 1,73530,7089= 2,448
И это Backgroundred
возвращение:
fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_and_OR=coef(fit), confint(fit)))
Odds_and_OR 2.5 % 97.5 %
(Intercept) 0.7088608 0.5553459 0.9017961
Backgroundred 2.4480042 1.7397640 3.4595454
В то же время, он (Intercept)
соответствует числителю отношения шансов , которое в точности соответствует шансу семейного «голубого» фона:112 / 158 = 0,7089,
Если вместо этого я бегу:
fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(Odds=coef(fit2), confint(fit2)))
Odds 2.5 % 97.5 %
Backgroundblue 0.7088608 0.5553459 0.9017961
Backgroundred 1.7352941 1.3632702 2.2206569
Возвращение - это как раз шансы стать «синим»: Backgroundblue
(0.7089), а шансы быть «красным»: Backgroundred
(1.7353). Там нет коэффициента шансов . Поэтому два возвращаемых значения не должны быть взаимными.
Наконец, как прочитать результаты, если в категориальном регрессоре есть 3 фактора?
То же руководство по сравнению с [R] расчетом:
Я создал другой фиктивный набор данных с той же предпосылкой, но на этот раз было три этнических происхождения: «красный», «синий» и «оранжевый», и запустил ту же последовательность:
Во-первых, таблица непредвиденных расходов:
Acceptance blue orange red Total
0 86 65 130 281
1 64 42 162 268
Total 150 107 292 549
И рассчитали шансы на вхождение для каждой этнической группы:
- Коэффициенты принять, если красный = 1,246154;
- Коэффициенты принять, если синий = 0,744186;
- Коэффициенты принять, если оранжевый = 0,646154
А также различные коэффициенты шансов :
- ИЛИ красный v синий = 1.674519;
- ИЛИ красный v оранжевый = 1.928571;
- ИЛИ синий v красный = 0.597186;
- ИЛИ синий v оранжевый = 1.151717;
- ИЛИ оранжевый v красный = 0.518519; и
- ИЛИ оранжевый v синий = 0.868269
И продолжил теперь рутинную логистическую регрессию с последующим возведением в степень коэффициентов:
fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit), confint(fit)))
ODDS 2.5 % 97.5 %
(Intercept) 0.7441860 0.5367042 1.026588
Backgroundorange 0.8682692 0.5223358 1.437108
Backgroundred 1.6745192 1.1271430 2.497853
Прибавляя шансы на получение "блюза" как (Intercept)
, и отношения шансов Orange против Blue в Backgroundorange
, и ИЛИ Red v Blue вBackgroundred
.
С другой стороны, регрессия без перехвата предсказуемо вернула только три независимых коэффициента :
fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit2), confint(fit2)))
ODDS 2.5 % 97.5 %
Backgroundblue 0.7441860 0.5367042 1.0265875
Backgroundorange 0.6461538 0.4354366 0.9484999
Backgroundred 1.2461538 0.9900426 1.5715814
R
явно называется коэффициентами (через функциюcoef
), вы называете «отношением шансов» в своих выходных данных. Это говорит о том, что вы можете рассмотреть различие между ними.