От exp (коэффициентов) к коэффициенту шансов и их интерпретации в логистической регрессии с факторами


14

Я запустил линейную регрессию приема в колледж против баллов SAT и семейного / этнического происхождения. Данные являются вымышленными. Это продолжение предыдущего вопроса, на который уже дан ответ. Вопрос сосредоточен на сборе и интерпретации отношений шансов, оставляя оценки SAT в стороне для простоты.

Переменные Accepted(0 или 1) и Background(«красный» или «синий»). Я настроил данные так, чтобы люди с «красным» фоном могли с большей вероятностью попасть внутрь:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit)))

                        Odds_Ratio_RedvBlue             2.5 %       97.5 %
(Intercept)             0.7088608                     0.5553459   0.9017961
Backgroundred           2.4480042                     1.7397640   3.4595454

Вопросов:

  1. 0,7 - это нечетное соотношение людей с "синим" фоном? Я спрашиваю об этом, потому что я также получаю 0,7 для " Backgroundblue", если вместо этого я запускаю следующий код:

    fit <- glm(Accepted~Background-1, data=dat, family="binomial")
    exp(cbind(OR=coef(fit), confint(fit)))
  2. AссепTеd/реd:AссепTеd/ВLUеОddsВLUезнак равно1/Оddsреd


1
То, что Rявно называется коэффициентами (через функцию coef), вы называете «отношением шансов» в своих выходных данных. Это говорит о том, что вы можете рассмотреть различие между ними.
whuber

Я прочитал пост по вашей гиперссылке.
Антони Пареллада

Коэффициенты возводятся в степень: exp (coef (fit)).
Антони Пареллада

Да: и, как объяснено в моем ответе в этой теме, возведение в степень перехвата дает вам шансы контрольного случая.
whuber

Ответы:


13

Я работаю над ответом на мой вопрос, вычисляя вручную соотношение шансов и шансов:

Acceptance   blue            red            Grand Total
0            158             102                260
1            112             177                289
Total        270             279                549

Таким образом, коэффициент вероятности попадания в школу Red over Blue:

Оdds AссепT яе реdОdds AсссепT яе ВLUезнак равно177/102112/158знак равно1,73530,7089знак равно2,448

И это Backgroundredвозвращение:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_and_OR=coef(fit), confint(fit)))

                      Odds_and_OR                         2.5 %      97.5 %
(Intercept)             0.7088608                     0.5553459   0.9017961
Backgroundred           2.4480042                     1.7397640   3.4595454

В то же время, он (Intercept)соответствует числителю отношения шансов , которое в точности соответствует шансу семейного «голубого» фона:112/158знак равно0,7089,

Если вместо этого я бегу:

fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(Odds=coef(fit2), confint(fit2)))

                        Odds            2.5 %      97.5 %
Backgroundblue     0.7088608        0.5553459   0.9017961
Backgroundred      1.7352941        1.3632702   2.2206569

Возвращение - это как раз шансы стать «синим»: Backgroundblue(0.7089), а шансы быть «красным»: Backgroundred(1.7353). Там нет коэффициента шансов . Поэтому два возвращаемых значения не должны быть взаимными.

Наконец, как прочитать результаты, если в категориальном регрессоре есть 3 фактора?

То же руководство по сравнению с [R] расчетом:

Я создал другой фиктивный набор данных с той же предпосылкой, но на этот раз было три этнических происхождения: «красный», «синий» и «оранжевый», и запустил ту же последовательность:

Во-первых, таблица непредвиденных расходов:

Acceptance  blue    orange  red   Total
0             86        65  130     281
1             64        42  162     268
Total        150       107  292     549

И рассчитали шансы на вхождение для каждой этнической группы:

  • Коэффициенты принять, если красный = 1,246154;
  • Коэффициенты принять, если синий = 0,744186;
  • Коэффициенты принять, если оранжевый = 0,646154

А также различные коэффициенты шансов :

  • ИЛИ красный v синий = 1.674519;
  • ИЛИ красный v оранжевый = 1.928571;
  • ИЛИ синий v красный = 0.597186;
  • ИЛИ синий v оранжевый = 1.151717;
  • ИЛИ оранжевый v красный = 0.518519; и
  • ИЛИ оранжевый v синий = 0.868269

И продолжил теперь рутинную логистическую регрессию с последующим возведением в степень коэффициентов:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit), confint(fit)))

                      ODDS     2.5 %   97.5 %
(Intercept)      0.7441860 0.5367042 1.026588
Backgroundorange 0.8682692 0.5223358 1.437108
Backgroundred    1.6745192 1.1271430 2.497853

Прибавляя шансы на получение "блюза" как (Intercept), и отношения шансов Orange против Blue в Backgroundorange, и ИЛИ Red v Blue вBackgroundred .

С другой стороны, регрессия без перехвата предсказуемо вернула только три независимых коэффициента :

fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit2), confint(fit2)))

                      ODDS     2.5 %    97.5 %
Backgroundblue   0.7441860 0.5367042 1.0265875
Backgroundorange 0.6461538 0.4354366 0.9484999
Backgroundred    1.2461538 0.9900426 1.5715814

Поздравляю, вы проделали хорошую работу, чтобы выяснить это.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.