Целесообразно ли делать логистическую регрессию, когда зависимые и независимые переменные являются двоичными? например, зависимая переменная равна 0 и 1, а предикторы - это переменные с контрастным кодом -1 и 1?
Целесообразно ли делать логистическую регрессию, когда зависимые и независимые переменные являются двоичными? например, зависимая переменная равна 0 и 1, а предикторы - это переменные с контрастным кодом -1 и 1?
Ответы:
Нет причин не делать этого, но есть две предостерегающие мысли:
Внимательно следите, во время анализа чего есть что. В крупных проектах легко потеряться и получить ошибочные результаты.
Если вы решите сообщать о регрессионных оценках, а не о коэффициентах шансов, сделайте вашу схему кодирования понятной в своем отчете , чтобы читатели не создавали неточных ИЛИ самостоятельно, предполагая, что они оба были закодированы как 0,1.
Может показаться простым, но я видел, как обе проблемы превращаются в опубликованные статьи.
Для ясности: термин «двоичный» обычно зарезервирован только для кодирования 1 против 0. Более общее слово, подходящее для любого двухзначного кодирования, является «дихотомическим». Дихотомические предикторы, конечно, приветствуются для логистической регрессии, как и для линейной регрессии, и, поскольку они имеют только 2 значения, не имеет значения, вводить их как факторы или как ковариаты.
Обычно это помогает интерпретации, если вы кодируете свои предикторы 0-1, но кроме этого (и отмечая, что это не требуется), в этом нет ничего плохого. Существуют и другие подходы (на основе таблиц сопряженности), но, если я правильно помню, они оказываются эквивалентными (в некоторой форме) логистической регрессии.
Итак, вкратце: я не вижу причин не делать этого.
Кроме того, если у вас есть более двух предикторов, то, скорее всего, возникнет проблема мультиколлинеарности даже для логистической или множественной регрессии. Тем не менее, нет никакого вреда в использовании логистической регрессии со всеми двоичными переменными (т. Е. С кодом (0,1)).