Интерпретация терминов взаимодействия в логит-регрессии с категориальными переменными

25

У меня есть данные из опроса, в котором респонденты были случайным образом распределены в одну из четырех групп:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66

В то время как три группы лечения немного различаются по применяемому стимулу, главное различие, о котором я забочусь, - это контрольная и терапевтическая группы. Итак, я определил фиктивную переменнуюControl :

> summary(df$Control)
     TRUE FALSE 
       59   191

В ходе опроса респондентам было предложено (среди прочего) выбрать, какую из двух вещей они предпочитают:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5

Затем, после получения какого-либо стимула, определенного их группой лечения (и ни одного, если они были в контрольной группе), респондентам было предложено выбрать одно и то же:

> summary(df$Choice)
  A    B 
149  101

Я хочу знать, повлияло ли нахождение в одной из трех групп лечения на выбор, который респонденты сделали в этом последнем вопросе. Моя гипотеза состоит в том, что респонденты, которые получили лечение, более склонны выбиратьA чем B.

Учитывая, что я работаю с категориальными данными, я решил использовать регрессию логита (не стесняйтесь, если вы считаете, что это неправильно). Поскольку респонденты были распределены случайным образом, у меня сложилось впечатление, что мне не нужно обязательно контролировать другие переменные (например, демографические данные), поэтому я оставил их для этого вопроса. Моя первая модель была просто следующей:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

У меня сложилось впечатление, что перехват, являющийся статистически значимым, не имеет интерпретируемого значения. Возможно, я подумал, что мне следует включить термин взаимодействия следующим образом:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Теперь статус респондентов как в группе лечения имеет ожидаемый эффект. Был ли это правильный набор шагов? Как я могу интерпретировать термин взаимодействия ControlFALSE:PreferA? Остальные коэффициенты остаются логарифмами?

— Пигмалион
источник

Мой ответ здесь уместен: stats.stackexchange.com/questions/246873/…

— kjetil b halvorsen

31

Я предполагаю, что PreferA = 1, когда один предпочитал A и 0 в противном случае, и что ControlFALSE = 1 при лечении и 0 при контроле.

$\exp(3.135)= 23$ , то есть есть 23 таких человека, которые предпочитают А для каждого такого человека, который предпочитает B. Так что A очень популярен.

$\exp(-2.309) = .099$ $(1-.099) \times 100\%=-90.1\%$ $.099*23=2.3$ Таким образом, есть 2,3 таких человека, которые предпочитают A для каждого такого человека, который предпочитает B. Таким образом, среди этой группы A все еще более популярен, чем B, но в меньшей степени, чем в необработанной / базовой группе.

$.006$ $-99.4\%$ делают это сейчас. Имеет ли это смысл?)

$\exp(2.850) = 17.3$ $17.3 \times .099 = 1.71$ $\exp(2.850 - 2.309)$

Таким образом, экспоненциальная константа дает вам базовые шансы , возведенные в степень коэффициенты основных эффектов дают вам отношения шансов, когда другая переменная равна 0, а возведенный в степень коэффициент членов взаимодействия говорит вам отношение, на которое изменяется отношение шансов .

— Мартен Буис
источник

Спасибо, Мартен, это очень полезно, как и твой ответ на другой мой связанный вопрос. Я просто хотел бы немного разъяснить один момент, хотя. Как я уже упоминал в своем другом вопросе, меня беспокоит статистическая достоверность того, что я здесь сделал, из-за того факта, что ControlFALSEв первой модели имеет высокое значение p, а во второй - довольно низкое. Применяя свой ответ на другой мой вопрос к этому конкретному случаю, вы сказали, что это может произойти, если будет Controlиметь отрицательное влияние на одну группу Preferи положительное влияние на другую.

— Пигмалион

(выбежал из космоса) Имеет ли эта интерпретация смысл здесь? Я не совсем уверен, как применить это непосредственно.

— Пигмалион

Эффект ControlFALSEв первой модели является эффект лечения как тех , кого Предпочтительнее Ранее и те , которые не сделали, в то время как эффект во второй модели является только эффект лечения для тех , кто предпочитает не ранее. Хорошо это или нет, это не статистический вопрос, но имеет ли это смысл.

— Мартен Буис

@MaartenBuis Отличное объяснение. Как бы вы сделали эквивалентные расчеты для доверительных интервалов оценок? Для простоты интерпретации я, как правило, расслаиваю логистические модели (например, по предварительному предпочтению в этом примере) и использую термин взаимодействия как «статистический тест для значительного различия в OR. Это приемлемо?»

— bobmcpop

2

Я также нашел эту статью полезной для интерпретации взаимодействия в логистической регрессии:

Чен, JJ (2003). Передача сложной информации: интерпретация статистического взаимодействия в множественном логистическом регрессионном анализе . Американский журнал общественного здравоохранения , 93 (9), 1376-1377.

— deepseas
источник

4

Я предоставил полную ссылку (название, автор, дата, журнал и т. Д.), Что означает, что вклад все равно будет полезен, если адрес ссылки изменится. Но не могли бы вы расширить его, чтобы суммировать содержание? В противном случае это действительно больше комментарий, чем ответ - мы предпочитаем, чтобы наши ответы были автономными, поэтому они устойчивы к "гниению ссылок". В качестве альтернативы мы можем преобразовать это в комментарий для вас.

— Серебряная рыба

Спасибо. Я связывал NCBI, поэтому думал, что все будет хорошо. Я согласен с изменениями. Благодарность!

— Deepseas

0

Когда я пытаюсь интерпретировать взаимодействия в логистической регрессии, я предпочитаю смотреть на предсказанные вероятности для каждой комбинации категориальных переменных. В вашем случае это будет всего 4 вероятности:

Предпочитаю А, контроль есть
Предпочитаю А, контролировать ложь
Предпочитаю Б, контроль есть
Предпочитаю Б, контролировать ложь

Когда у меня есть непрерывные переменные, я обычно смотрю на предсказанное значение в медиане, 1-м и 3-м квартилях.

Хотя это напрямую не влияет на интерпретацию каждого коэффициента, я обнаружил, что это часто позволяет мне (и моим клиентам) ясно видеть происходящее.

— Питер Флом - Восстановить Монику
источник