Должны ли доверительные интервалы для коэффициентов линейной регрессии основываться на нормальном или

Давайте иметь некоторую линейную модель, например, просто ANOVA:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Результат таков:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16

Сейчас я пробую два разных метода, чтобы оценить доверительный интервал этих параметров.

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Вопросов:

Каково распределение оценочных коэффициентов линейной регрессии? Нормальный или $t$ ?
Почему оба метода дают разные результаты? Предполагая нормальное распределение и правильный SE, я ожидаю, что оба метода будут иметь одинаковый результат.

Большое спасибо!

данные ~ 0 + факт

РЕДАКТИРОВАТЬ после ответа :

Ответ точный, это даст точно такой же результат, как и confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

r regression confidence-interval

— любознательный
источник

связанные: stats.stackexchange.com/questions/111559/…

— любопытно

(1) Когда ошибки нормально распределены и их дисперсия не известна, то имеет-распределение при нулевой гипотезечтоявляется истинным коэффициентом регрессии. По умолчанию втомчтобы проверить, так что-статистик сообщили Есть только

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{\hat{\beta} - \beta_0}{{\rm se}(\hat{\beta})}$

t

$t$

β_{0}

$\beta_0$ R

β_{0} = 0

$\beta_0 = 0$

t

$t$

\frac{\hat{β}}{s e (\hat{β})}

$\frac{\hat{\beta}}{{\rm se}(\hat{\beta})}$

Следует отметить, что при некоторых условиях регулярности приведенная выше статистика всегда асимптотически нормально распределяется, независимо от того, являются ли ошибки нормальными или известна дисперсия ошибок.

(2) Причина, по которой вы получаете разные результаты, заключается в том, что процентили нормального распределения отличаются от процентилей -распределения. Следовательно, множитель, который вы используете перед стандартной ошибкой, отличается, что, в свою очередь, дает разные доверительные интервалы. $t$

В частности, напомним, что доверительный интервал с использованием нормального распределения равен

\hat{β} \pm z_{α / 2} \cdot s e (\hat{β})

$\hat{\beta} \pm z_{\alpha/2} \cdot {\rm se}(\hat{\beta})$

$z_{\alpha/2}$ $\alpha/2$ $95\%$ $\alpha = .05$ $z_{\alpha/2} \approx 1.96$ $t$

\hat{β} \pm t_{α / 2, n - p} \cdot s e (\hat{β})

$\hat{\beta} \pm t_{\alpha/2,n-p} \cdot {\rm se}(\hat{\beta})$

$t_{\alpha/2,n-p}$ $t$ $n-p$ $n$ $p$ $n$ $t_{\alpha/2,n-p}$ $z_{\alpha/2}$

$t$ $5$ $300$ $p=1$ $t$ $z$

введите описание изображения здесь

— макрос
источник

Ага!! Хорошая работа! (+1)

— gui11aume

Макро, спасибо за ответ. Но: вы говорите о распределении статистики T, тогда как я спрашивал о распределении коэффициента регрессии. Насколько я понимаю, коэффициент регрессии - это распределение, характеризуемое его средним значением (оценка коэффициента) и его стандартной ошибкой. Я спросил об этом распределении, а не о тестовой статистике распространения. Я мог бы что-то упустить, поэтому, пожалуйста, попробуйте объяснить более очевидным способом :) Спасибо

— Любопытно

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{ {\hat \beta}−β_{0}}{{\rm se}(\hat β)}$

t

$t$

\hat{β}

$\hat β$

t

$t$

β_{0}

$β_0$

s e (\hat{β})

${\rm se}(\hat β)$

\hat{β}

$\hat β$

Вы совершенно правы! Это даст точно такой же результат, как confint(m1)и для небольших выборок! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

— Любопытно

\hat{β}

$\hat{\beta}$

\hat{β} - β_{0}

$\hat{\beta}-\beta_0$

β_{0}

$\beta_0$

t

$t$