Как интерпретировать термин перехват в GLM?


20

Я использую R и анализирую свои данные с помощью GLM с биноминальной ссылкой.

Я хочу знать, что означает перехват в выходной таблице. Перехват для одной из моих моделей существенно отличается, однако переменная - нет. Что это значит?

Что такое перехват? Я не знаю, просто ли я запутываю себя, но, обыскав Интернет, я ничего не могу сказать, это так, примите это к сведению ... или нет.

Пожалуйста, помогите, очень расстроенный студент


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5

1
Какую функцию связи вы указываете в glm?
Томас

5
Перехват - это предсказанное значение зависимой переменной, когда все независимые переменные равны 0. Без дополнительной информации о вашей модели я не могу сказать, имеет ли это смысл в вашем случае.
Питер Флом - Восстановить Монику

Ответы:


21

Член перехвата - это перехват в линейной части уравнения GLM, поэтому для вашей средней модели используется , где g - ваша функция связи, а X β - ваша линейная модель. Эта линейная модель содержит «член перехвата», то есть:Е[Y]знак равнограмм-1(Иксβ)граммИксβ

Иксβзнак равнос+Икс1β1+Икс2β2+

В вашем случае перехват значительно ненулевой, а переменная - нет, поэтому он говорит, что

Иксβзнак равнос0

Поскольку ваша функция ссылки является биномиальной, то

грамм(μ)знак равнопер(μ1-μ)

И поэтому, используя только термин «перехват», ваша подходящая модель для среднего значения:

Е[Y]знак равно11+е-с

Вы можете видеть, что если то это соответствует просто 50:50 вероятности получить Y = 1 или 0, то есть E [ Y ] = 1сзнак равно0Е[Y]знак равно11+1знак равно0,5

Итак, ваш результат говорит, что вы не можете предсказать результат, но один класс (1 или 0) более вероятен, чем другой.


2
Вы напугали меня на E [Y] = .... :). Спасибо за ответ, я (отчасти) понимаю, что вы говорите. Вы сказали, что перехват сиг. ненулевой, но вар. нет, это р = 1,00 !? Какое влияние р-значение оказывают на то, что я могу сказать о результатах?
Сэмюэль Уолдрон

2
Если значение переменной p не мало, оно обычно не включает эту переменную в модель. В вашем случае переменная даже не оценивается как ненулевое значение, поэтому значение p равно 1,00. По сути, нет никакой связи между «обработкой» и «attacked_exclusive_app». Отсутствие отношений здесь настолько идеально, что почти подозрительно, хотя у вас есть небольшой набор данных. Возможно, стоит визуализировать ваши данные и посмотреть, если это разумно.
Корона

2
+1 за ответ (и предложение в комментарии, что в наборе данных происходит что-то странное), хотя я бы не согласился с открытием вашего комментария: «Если значение переменной p не мало, то оно обычно не включает эту переменную в модель «. Это не обязательно так - часто кто-то хочет сообщить о величине отношений, даже если они не являются «значительными» (и, более того, если вам интересно начать моделирование отношений, то нулевой результат все еще важно сообщить.)
Джеймс Стэнли

1
@James - очень хороший момент, нужно всегда сообщать, какие переменные вы тестировали - я должен был быть более понятным, я просто имел в виду, что обычно не нужно включать эту переменную при попытке использовать модель для прогнозирования (поскольку это обычно означает переобучение ).
Корона

@Corone - меня особенно интересуют ваши комментарии здесь о переменных in / exclusion и их отношении к ветке по адресу stats.stackexchange.com/questions/17624/…
rolando2

5

Мне кажется, что с данными могут быть проблемы. Странно, что оценка параметра для коэффициента будет 0,000. Похоже, что ваш DV и ваш IV являются дихотомическими, и что пропорции вашего DV не меняются в зависимости от вашего IV. Это правильно?

Перехват, как я отметил в своем комментарии (и, как подразумевает ответ @corone), является значением DV, когда IV равен 0. Как был кодирован ваш IV? Как, впрочем, тот факт, что оценка для коэффициента составляет 0,000, подразумевает, что IV не имеет значения.

журнал(п1-п)


Привет, ребята, еще раз спасибо за комментарии. Точки данных практически идентичны. Я сообщаю об этом в отчете и, тем не менее, должен выделить это. Вот почему результаты выглядят странно. С этими данными (GLM) и другими наборами данных в моих отчетах (GLMM) я, безусловно, запускаю (# TEAM2x2x2x2), прежде чем я могу ходить. Я думаю, что моя главная проблема заключается в том, чтобы знать, что мне нужно сообщить, назову ли я статистику для перехвата или для IV? Ниже мой (надеюсь, более стандартный) GLMM снова с биномиальной ссылкой.
Сэмюэль Уолдрон

Обобщенная линейная смешанная модель, подходящая по приближению Лапласа. Формула: Атака ~ Обработка + Испытание + Обработка * Испытание + (1 | Птица) Данные: данные AIC BIC logLik deviance 139.6 153.8 -64.78 129.6 Случайные эффекты: Группы Имя Разница Std.Dev. Птица (Перехват) 0,87795 0,93699 Количество наблюдателей: 128, группы: Птица, 32
Самуэль Уолдрон

Фиксированные эффекты: Estimate Std. Значение ошибки z Pr (> | z |) (Перехват) 3,19504 0,90446 3,533 .000412 *** Treatmentshiny_non-глянцевый 0,02617 1,26964 0,021 .983558 Испытание -1,53880 0,36705 -4,192 2,76e-05 *** Обработка: испытание 0,16909 0,49501 0,342 .732655 --- знак коды: 0 ' ' 0,001 ' ' 0,01 ' ' 0,05 '.' 0,1 '' 1 Соотношение фиксированных эффектов: (Intr) Trtm_- Trial Trtmntshn_- -0,712 Trial -0,895 0,638 Trtmnts _-: T 0,664 -0,896 -0,742
Сэмюэль Уолдрон

3

В вашем случае перехват - это среднее значение attacked_excluding_app, рассчитанное для всех данных независимо отtreatment . Тест значимости в таблице коэффициентов проверяет, значительно ли он отличается от нуля. Уместно ли это, зависит от того, есть ли у вас априорная причина ожидать, что он будет нулевым или нет.

Например, представьте, что вы проверили препарат и плацебо на их влияние на кровяное давление. Для каждого субъекта вы записываете изменение их кровяного давления путем расчета (давление после лечения - давление до лечения) и рассматриваете это как зависимую переменную в своем анализе. Затем вы обнаружите, что эффект от лечения (лекарство против плацебо) незначителен, но перехват значительно> 0 - это говорит о том, что в среднем артериальное давление ваших пациентов повышалось между двумя измерениями. Это может быть интересно и требует дальнейшего изучения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.