Значимые предикторы становятся незначимыми при множественной логистической регрессии


11

Когда я анализирую свои переменные в двух отдельных (одномерных) моделях логистической регрессии, я получаю следующее:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

но когда я ввожу их в одну модель множественной логистической регрессии, я получаю:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Оба предиктора являются дихотомическими (категориальными). Я проверил на мультиколлинеарность.

Я не уверен, предоставил ли я достаточно информации, но не могу понять, почему предиктор 1 перешел от существенного к незначительному и почему отношения шансов так различны в модели множественной регрессии. Кто-нибудь может дать базовое объяснение того, что происходит?


2
многовариантность обычно указывает на несколько зависимых переменных - вы имели в виду несколько предикторов, верно? Это обычно упоминается как множественная регрессия.
Макрос

1
Кроме того, - из разных моделей логистической регрессии обычно не сопоставимы. Это происходит потому, что масштаб изменился - это тонкая проблема, но основная идея заключается в том, что общая дисперсия (в скрытой шкале, в которой естественным образом возникает логистическая регрессия - см. En.wikipedia.org/wiki/… ) не фиксируется в разных моделях, поэтому не следует ожидать, что коэффициенты будут одинаковыми для разных моделей, хотя это не обязательно объясняет изменение статистической значимости. Как вы проверили зависимость между двумя предикторами? β
Макрос

Ах, хорошо, спасибо. Я проверил диагностику коллинеарности с помощью линейной регрессии на SPSS и проверил допуск и VIF - это правильно?
Анни

Хороший комментарий @Macro. Я смутно припоминаю, как читал о способах решения этой проблемы с масштабом, но я не помню, где.
Питер Флом - Восстановить Монику

1
@PeterFlom, одну вещь, которую вы можете сделать, это масштабировать коэффициенты по дисперсии линейных предикторов (плюс , дисперсия стандартного логистического распределения) - это ставит их в один масштаб. Конечно, они больше не могут быть интерпретированы как отношения шансов, как только вы это сделаете. π2/3
Макрос

Ответы:


20

Есть несколько причин (ни одна из которых не связана конкретно с логистической регрессией, но может возникнуть при любой регрессии).

  1. Потеря степеней свободы: пытаясь оценить больше параметров из данного набора данных, вы фактически запрашиваете больше этого, что стоит точности, что приводит к снижению t-статистики и, следовательно, более высоким p-значениям.
  2. Корреляция регрессоров. Ваши регрессоры могут быть связаны друг с другом, эффективно измеряя нечто подобное. Скажем, ваша логит-модель заключается в объяснении состояния рынка труда (работает / не работает) в зависимости от опыта и возраста. По отдельности обе переменные положительно связаны со статусом, поскольку более опытным / старшим (исключая очень старых сотрудников ради аргумента) сотрудникам легче найти работу, чем недавним выпускникам. Теперь, очевидно, две переменные тесно связаны, так как вам нужно быть старше, чтобы иметь больше опыта. Следовательно, две переменные в основном «конкурируют» за объяснение статуса, что может, особенно в небольших выборках, привести к «проигрышу» обеих переменных, поскольку ни один из эффектов не может быть достаточно сильным и достаточно точно оцененным при контроле за другой, чтобы получить значимые оценки. По сути, вы спрашиваете: каков положительный эффект еще одного года опыта при сохранении возраста? В вашем наборе данных может быть очень мало сотрудников, чтобы ответить на этот вопрос, поэтому эффект будет неточно оценен, что приведет к большим значениям p.

  3. Неопределенные модели: основная теория для t-статистики / p-значений требует, чтобы вы оценили правильно указанную модель. Теперь, если вы регрессируете только на одном предикторе, шансы довольно высоки, что эта одномерная модель страдает от пропущенного смещения переменной. Следовательно, все ставки на то, как ведут себя p-значения, отключены. По сути, вы должны быть осторожны, чтобы доверять им, когда ваша модель неверна.


Спасибо за ваш тщательный и быстрый ответ. Я постараюсь сначала устранить любую мультиколлинеарность. Я проверил корреляции между переменными и нашел некоторые из них, и постараюсь использовать дисперсионные коэффициенты инфляции, поскольку я слышал, что это также хороший способ проверить это. Если это окажется вопросом степени свободы, могу ли я что-нибудь с этим сделать? Я могу объяснить, что это происходит, но кажется, что это ставит под угрозу целостность регрессии, если значение падает так сильно.
Сэм О'Брайен,

3
@ SamO'Brien: Обратите внимание, что если ваша цель действительно соответствует вашим ожиданиям - «попытаться определить», какие независимые переменные могут вызвать ответ », игнорируя одни только потому, что они соотнесены с другими, чтобы« устранить мультиколлинеарность » не собирается помочь в достижении этого
Scortchi - Восстановить Монику

1
Возможно ли иметь его наоборот, то есть тот же предиктор, несущественный в простой регрессии, но значимый в множественной регрессии?
gkcn

8

Нет особой причины, почему это не должно происходить. Множественная регрессия задает вопрос, отличный от простой регрессии. В частности, множественная регрессия (в данном случае множественная логистическая регрессия) спрашивает о взаимосвязи между зависимыми переменными и независимыми переменными, контролируя другие независимые переменные. Простая регрессия спрашивает о связи между зависимой переменной и (единственной) независимой переменной.

Если вы добавите контекст вашего исследования (например, каковы эти переменные?), Возможно, можно будет дать более конкретные ответы. Кроме того, учитывая, что все три переменные в вашем случае являются дихотомиями, вы можете довольно легко представить нам данные ... для суммирования требуется всего 8 строк:

DVIV1IV2CountAAA10AAB20

и т.п.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.