Распределение ошибок для линейной и логистической регрессии

При непрерывных данных линейная регрессия $Y=\beta_1+\beta_2X_2+u$ предполагает, что член ошибки распределен N (0, $\sigma^2$ )

1) Предполагаем ли мы, что Var (Y | x) также ~ N (0, $\sigma^2$ )?

2) Что это за распределение ошибок в логистической регрессии? Когда данные представлены в виде 1 записи на случай, где «Y» равен 1 или 0, это термин ошибки, распределенный Бернулли (т. Е. Дисперсия равна p (1-p))), и когда данные находятся в форме # Успех из # испытаний, считается ли он биномиальным (т. е. дисперсия np (1-p)), где p - вероятность того, что Y равно 1?

logistic generalized-linear-model

— B_Miner
источник

Вы не точны. Предположение модели состоит в том, что члены ошибки независимы и одинаково распределены с распределением, которое равно N (0, σ

) и не связано с КОВАРНЫМ. Что такое Var (Y | x)? Вы кондиционируете на X

= x? Предполагает ли модель, что ковариата каким-то образом случайна, или мы предполагаем, что ковариата фиксирована в соответствии с расчетной матрицей? Я думаю, что это последнее, и, следовательно, Var (Y | X

= x) подразумевается предположениями и не нуждается в допущении.

^{2}

$^2$

_{2}

$_2$

_{2}

$_2$

— Майкл Р. Черник

@MichaelChernick Почему модель предполагает, что

является фиксированным? Это, конечно, может быть случай, когда он исправлен, но он также может быть случайным. Ничто в этом вопросе не подразумевает ни того, ни другого.

X_{2}

$X_2$

— Питер Флом

@PeterFlom Я прочитал в вопросе, что линейная регрессия с этим предполагаемым распределением ошибок означает OLS, который требует, чтобы X

был фиксированным и известным. Если у кого-то есть регрессия Деминга (т.е. ошибка в регрессии переменных), это будет указано в вопросе. Глядя на ответ, который дал Стат, указывает на то, что он тоже так понял.

_{2}

$_2$

— Майкл Р. Черник

@ Майкл, я предполагал фиксированный X.

— B_Miner

1) Если имеет нормальное распределение, т.е. то , так как $u$ $N(0,σ^2)$ $Var(Y|X_2)=Var(β_1+β_2X_2)+Var(u)=0+σ^2=σ^2$ $β_1+β_2X_2$ не случайная величина

2) В логистической регрессии предполагается, что ошибки следуют биномиальному распределению, как упомянуто здесь . Лучше записать это как , поскольку эти вероятности зависят от , как указаноздесьили вПрикладной логистической регрессии. $Var(Y_j|X_j)=m_j.E[Y_j|X_j].(1-E[Y_j|X_j])=m_j\pi(X_j).(1-\pi(X_j))$ $X_j$

— Stat
источник

Итак, правильно сказать, что дисперсия для i-й индивидуальной ошибки,

, равна

(1-

), что эквивалентно тому, что вы показали, предполагая, что в данных с более чем 1 наблюдением один и тот же ковариатический шаблон (т. е. иначе

= 1 для всех j)?

e_{i}

$e_i$

p_{i}

$p_i$

p_{i}

$p_i$

m_{j}

$m_j$

— B_Miner

Да, это правильно. Если

, то

с вероятностью

или

с вероятностью

. Отсюда

Y_{i} = p_{i} + e_{i}

$Y_i=p_i+e_i$

P (Y_{i} = 1) = 1 - P (Y_{i} = 0) = p_{i}

$P(Y_i=1)=1-P(Y_i=0)=p_i$

e_{i} = 1 - p_{i}

$e_i=1-p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=-p_i$

1 - p_{i}

$1-p_i$

e_{i}

$e_i$ имеет распределение со средним

и дисперсией, равной

0

$0$

p_{i} (1 - p_{i})

$p_i(1-p_i)$

— Стат

Еще один важный момент, Stat, мы ДОЛЖНЫ предположить, что X являются фиксированными, неслучайными для Var (Y | X) = Var (e) для обоих случаев линейной и логистической регрессии правильно?

— B_Miner

с вероятностью

или

с вероятностью

это не биномиальное распределение для

e_{i} = 1 - p_{i}

$e_i=1−p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=−p_i$

1 - p_{i}

$1−p_i$

e_{i}

$e_i$

— Scortchi - Восстановить Монику

B_Miner:

означает дисперсию

обусловленную случайной величиной

, принимающей наблюдаемое значение

. Поэтому неважно, зафиксированы ли ваши предикторы экспериментом или наблюдаются в выборке: что говорит @ Stat, так это то, что они больше не рассматриваются как случайные переменные для целей регрессии.

Var (Y | X) = Var (Y | X = x)

$\operatorname{Var}(Y|X)=\operatorname{Var}(Y|X=x)$

Y

$Y$

X

$X$

x

$x$

— Scortchi - Восстановить Монику