Я сосредоточусь в основном на ваших первых трех вопросах. Краткие ответы таковы: (1) вам нужно сравнить влияние IV на DV для каждого периода времени, но (2) только сравнение величин может привести к неправильным выводам, и (3) есть много способов сделать это, но нет единого мнения о том, какой из них является правильным.
Ниже я опишу, почему вы не можете просто сравнить величины коэффициентов и указать на некоторые решения, о которых до сих пор думали.
Согласно Allison (1999), в отличие от OLS, на коэффициенты логистической регрессии влияет ненаблюдаемая неоднородность, даже если такая неоднородность не связана с интересующей переменной.
Когда вы подходите логистической регрессии, как:
(1)
ln(11−pi)=β0+β1x1i
Фактически вы подбираете уравнение, предсказывающее значение скрытой переменной которая представляет основную склонность каждого наблюдения к принятию значения в двоичной зависимой переменной, что происходит, если выше определенного порога. Уравнение для этого (Уильямс, 2009): 1 y ∗y∗1y∗
(2)
y∗=α0+α1x1i+σε
Предполагается, что термин не зависит от других терминов и следует логистическому распределению - или нормальному распределению в случае пробита и логистическому распределению в случае дополнительного log-log и распределению Коши в случае cauchit.ε
Согласно Williams (2009), коэффициенты в уравнении 2 связаны с коэффициентами в уравнении 1 через:βαβ
(3)
βj=αjσj=1,...,J.
В уравнениях 2 и 3 является масштабным коэффициентом ненаблюдаемой вариации, и мы можем видеть, что размер оцененных коэффициентов зависит от , что не наблюдается. Исходя из этого, Allison (1999), Williams (2009) и Mood (2009), среди прочего, утверждают, что вы не можете наивно сравнивать коэффициенты между логистическими моделями, оцененными для разных групп, стран или периодов.β σσβσ
Это связано с тем, что сравнения могут дать неверные выводы, если ненаблюдаемые различия отличаются между группами, странами или периодами. Оба сравнения, использующие разные модели и использующие термины взаимодействия в одной и той же модели, страдают от этой проблемы. Помимо logit, это также относится к его двоюродным братьям probit, clog-log, cauchit и, как следствие, к дискретным моделям времени, оцененным с использованием этих функций связи. Это также влияет на упорядоченные модели logit.
Уильямс (2009) утверждает, что решение состоит в том, чтобы смоделировать ненаблюдаемую вариацию с помощью модели гетерогенного выбора (она же модель масштабирования местоположения), и предоставляет дополнение Stata oglm
для этого (Williams 2010). В R модели с гетерогенным выбором могут соответствовать hetglm()
функции glmx
пакета, который доступен через CRAN. Обе программы очень просты в использовании. Наконец, Уильямс (2009) упоминает PLUM
процедуру подгонки этих моделей в SPSS , но я никогда не использовал ее и не могу комментировать, насколько легко ее использовать.
Тем не менее, существует, по крайней мере, один рабочий документ , показывающий, что сравнения с использованием гетерогенных моделей выбора могут быть еще более предвзятыми, если уравнение дисперсии не указано или имеется ошибка измерения.
Mood (2010) перечисляет другие решения, которые не включают моделирование дисперсии, но используют сравнения прогнозируемых вероятностных изменений.
По-видимому, это проблема, которая не решена, и я часто вижу статьи на конференциях в своей области (социология), которые предлагают различные решения для нее. Я бы посоветовал вам посмотреть, что делают люди в вашей области, а затем решить, как с этим бороться.
Рекомендации
- Allison, PD (1999). Сравнение коэффициентов логита и пробита по группам. Социологические методы и исследования, 28 (2), 186–208.
- Mood, C. (2010). Логистическая регрессия: почему мы не можем делать то, что думаем, что можем, и что мы можем с этим сделать. Европейский социологический обзор, 26 (1), 67–82.
- Уильямс, Р. (2009). Использование гетерогенных моделей выбора для сравнения логит-и пробит-коэффициентов по группам. Социологические методы и исследования, 37 (4), 531–559.
- Уильямс, Р. (2010). Подгонка гетерогенных моделей выбора с оглм. Журнал Stata, 10 (4), 540–567.