Имеет ли смысл использовать логистическую регрессию с двоичным результатом и предиктором?

18

У меня есть двоичная переменная результата {0,1} и переменная предиктора {0,1}. Я думаю, что не имеет смысла заниматься логистикой, если я не включу другие переменные и не вычислю соотношение шансов.

С одним бинарным предиктором не будет ли вычисление вероятности достаточным в сравнении с отношением шансов?

— keval
источник

26

В этом случае вы можете свернуть ваши данные в где - количество экземпляров для и с . Предположим, что всего существует наблюдений.

\begin{array}{ccc} X ∖ Y & 0 & 1 \\ 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}

$\begin{array}{c|cc} X \backslash Y & 0 & 1 \\ \hline 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}$

S_{i j}

$S_{ij}$

x = i

$x = i$

y = j

$y =j$

i, j \in {0, 1}

$i,j \in \{0,1\}$

n

$n$

Если мы подходим к модели (где - наша функция связи), мы ' Вы увидите, что - это логит пропорции успехов, когда а - логит пропорции успехов, когда . Другими словами, и $p_i = g^{-1}(x_i^T \beta) = g^{-1}(\beta_0 + \beta_1 1_{x_i = 1})$ $g$ $\hat \beta_0$ $x_i = 0$ $\hat \beta_0 + \hat \beta_1$ $x_i = 1$

{\hat{β}}_{0} = g (\frac{S_{01}}{S_{00} + S_{01}})

$\hat \beta_0 = g\left(\frac{S_{01}}{S_{00} + S_{01}}\right)$

{\hat{β}}_{0} + {\hat{β}}_{1} = g (\frac{S_{11}}{S_{10} + S_{11}}) .

$\hat \beta_0 + \hat \beta_1 = g\left(\frac{S_{11}}{S_{10} + S_{11}}\right).$

Давайте проверим это R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Таким образом, коэффициенты логистической регрессии - это в точности преобразования пропорций, приходящие из таблицы.

В результате мы, безусловно, можем проанализировать этот набор данных с помощью логистической регрессии, если у нас есть данные, поступающие из ряда случайных величин Бернулли, но оказывается, что они ничем не отличаются от прямого анализа результирующей таблицы сопряженности.

Я хочу прокомментировать, почему это работает с теоретической точки зрения. Когда мы логистическую регрессию, мы используем модель, которая . Затем мы решаем смоделировать среднее значение как преобразование линейного предиктора в или в символы . В нашем случае у нас есть только два уникальных значения , и поэтому есть только два уникальных значения , скажем, и . Из-за нашего предположения о независимости у нас есть и $Y_i | x_i \stackrel{\perp}{\sim} \text{Bern}(p_i)$ $x_i$ $p_i = g^{-1}\left( \beta_0 + \beta_1 x_i\right)$ $x_i$ $p_i$ $p_0$ $p_1$

\sum_{i : x_{i} = 0} Y_{i} = S_{01} \sim Bin (n_{0}, p_{0})

$\sum \limits_{i : x_i = 0} Y_i = S_{01} \sim \text{Bin} \left(n_0, p_0\right)$

\sum_{i : x_{i} = 1} Y_{i} = S_{11} \sim Bin (n_{1}, p_{1}) .

$\sum \limits_{i : x_i = 1} Y_i = S_{11} \sim \text{Bin} \left(n_1, p_1\right).$ Обратите внимание, как мы используем тот факт, что , а в свою очередь и , неслучайны: если бы это было не так, то они не обязательно были бы биномиальными.

x_{i}

$x_i$

n_{0}

$n_0$

n_{1}

$n_1$

Это означает, что

S_{01} / n_{0} = \frac{S_{01}}{S_{00} + S_{01}} \to_{p} p_{0} and S_{11} / n_{1} = \frac{S_{11}}{S_{10} + S_{11}} \to_{p} p_{1} .

$S_{01} / n_0 = \frac{S_{01}}{S_{00} + S_{01}} \to_p p_0 \hspace{2mm} \text{ and } \hspace{2mm} S_{11} / n_1 = \frac{S_{11}}{S_{10} + S_{11}} \to_p p_1.$

Ключевое понимание здесь: наши RV Бернулли то время как наши биноминальные RV - , но оба имеют одинаковую вероятность успеха. Вот почему эти пропорции таблицы сопряженности оценивают так же, как логистическая регрессия на уровне наблюдения. Это не просто совпадение с таблицей: это прямое следствие сделанных нами предположений о распределении. $Y_i | x_i = j \sim \text{Bern}(p_j)$ $S_{j1} \sim \text{Bin}(n_j, p_j)$

— JLD
источник

1

Когда у вас есть более одного предиктора, и все предикторы являются двоичными переменными, вы можете подобрать модель, используя Логическую регрессию [1] (обратите внимание, что это «Логика», а не «Логистика»). Это полезно, когда вы считаете, что эффекты взаимодействия между вашими предикторами заметны. Есть реализация в R ( LogicRegпакет).

[1] Ручинский И., Куперберг С. и Лебланк М. (2003). Логическая регрессия. Журнал вычислительной и графической статистики, 12 (3), 475-511.

— horaceT
источник

1

Вопрос конкретно об одном регрессоре, поэтому ваш ответ лучше послужить комментарием.

— Ричард Харди